浅论如何在AI围棋中引入数学物理原理。 AlphaGO是出名的AI围棋程序,称霸世界,所向无敌。 也是AI应用的一个重要成果。从研究AlphaGO过程中得到一个想法是:如何在AI中应用数学物理原理。 我们先来看看AplphaGO 怎么下棋。 根据DeepMind 在“自然”上的文章。AplphaGO应用了 Monte-Carlo tree search 和 the neural networks. Monte-Carlo tree基本是数据搜索,就是简单的大数据应用。 这个数据随着下棋的数量不断增加和优化。 这些也可以看成是一种普适的和简单的数学物理应用,但这两者一般归在IT领域,或AI领域。 AI最主要的特点就是学习和进化,而非具体的IT应用。
从逻辑上说,AlphaGO用的还是围棋界的传统逻辑,从下棋经验中学习形势判断和生死定式。从大量的对局中学习,从而总结出最佳选择。而实际上依靠的是计算机的计算能力和大数据优势,AI只是做了优化,从而让AlphaGO立于不败之地。 关于这方面我们以后还要详细述说。简单说来,在确定了一步新手之后,计算机很容易判断这是不是好手,但可以选择的点太多,不能一个一个地去试。实际上棋手在下棋的时候,他也自动地忽略了大多数的可能的落点。 今天主要是想想谈谈一种新的思路,将数学物理原理引入AI。 用以选择可能的落点,这样所选择的范围就大大减少。 引入数学物理原理,也需要计算,但与棋手下棋凭感觉不同。所谓的棋感,这AlphaGO是不会有的。棋感, 棋手可以一看局面可以立即得到, 而AlphaGO则每一步都需要计算。 举例说明,在AlphaGO对战顶尖棋手柯洁时候,曾经下出一手五路尖压,被誉为天外飞来之手。 因为位置太高, 一般棋手不会那么下。但实际上五路尖和四路尖没有优劣之分。这取决于以后的下法、只是所需要的计算多一点,所以棋手习惯上不这么下而已。 如同吴清源第三手落天元,其他棋手都不这样下。 吴清源当时这样下, 被视为对名人的不尊敬, 同样,计算机也不会有这样的心理,除非你hard code 进去: 见了很有名的对手要尊重,计算机是不管对手的。
但是,如果我们从数学的角度考虑,这样下并非不可。 如果我们根据一条简单的数学原理,让落子落在最占空间之处,但又与原来的落子有最大的关联。这是可以具体计算的,落在五路就比四路要好。落在天元最占空间,但离开其他落子甚远。 那么,我们如何选择合适的数学物理原理呢? 有一个简单的办法,就是把大量的高手对局复盘,从中找出一定的数学规律。比如我们上面所说的最大空间和最多关联。是不是合理? 可以验证。 这本身就是一个很好的AI实验。
|