淺論如何在AI圍棋中引入數學物理原理。 AlphaGO是出名的AI圍棋程序,稱霸世界,所向無敵。 也是AI應用的一個重要成果。從研究AlphaGO過程中得到一個想法是:如何在AI中應用數學物理原理。 我們先來看看AplphaGO 怎麼下棋。 根據DeepMind 在“自然”上的文章。AplphaGO應用了 Monte-Carlo tree search 和 the neural networks. Monte-Carlo tree基本是數據搜索,就是簡單的大數據應用。 這個數據隨着下棋的數量不斷增加和優化。 這些也可以看成是一種普適的和簡單的數學物理應用,但這兩者一般歸在IT領域,或AI領域。 AI最主要的特點就是學習和進化,而非具體的IT應用。
從邏輯上說,AlphaGO用的還是圍棋界的傳統邏輯,從下棋經驗中學習形勢判斷和生死定式。從大量的對局中學習,從而總結出最佳選擇。而實際上依靠的是計算機的計算能力和大數據優勢,AI只是做了優化,從而讓AlphaGO立於不敗之地。 關於這方面我們以後還要詳細述說。簡單說來,在確定了一步新手之後,計算機很容易判斷這是不是好手,但可以選擇的點太多,不能一個一個地去試。實際上棋手在下棋的時候,他也自動地忽略了大多數的可能的落點。 今天主要是想想談談一種新的思路,將數學物理原理引入AI。 用以選擇可能的落點,這樣所選擇的範圍就大大減少。 引入數學物理原理,也需要計算,但與棋手下棋憑感覺不同。所謂的棋感,這AlphaGO是不會有的。棋感, 棋手可以一看局面可以立即得到, 而AlphaGO則每一步都需要計算。 舉例說明,在AlphaGO對戰頂尖棋手柯潔時候,曾經下出一手五路尖壓,被譽為天外飛來之手。 因為位置太高, 一般棋手不會那麼下。但實際上五路尖和四路尖沒有優劣之分。這取決於以後的下法、只是所需要的計算多一點,所以棋手習慣上不這麼下而已。 如同吳清源第三手落天元,其他棋手都不這樣下。 吳清源當時這樣下, 被視為對名人的不尊敬, 同樣,計算機也不會有這樣的心理,除非你hard code 進去: 見了很有名的對手要尊重,計算機是不管對手的。
但是,如果我們從數學的角度考慮,這樣下並非不可。 如果我們根據一條簡單的數學原理,讓落子落在最占空間之處,但又與原來的落子有最大的關聯。這是可以具體計算的,落在五路就比四路要好。落在天元最占空間,但離開其他落子甚遠。 那麼,我們如何選擇合適的數學物理原理呢? 有一個簡單的辦法,就是把大量的高手對局復盤,從中找出一定的數學規律。比如我們上面所說的最大空間和最多關聯。是不是合理? 可以驗證。 這本身就是一個很好的AI實驗。
|