- 程序有所改变。发帖如还有问题请报告
- 【征集】西西河的经济学,及清流措施,需要主动参与者,『稷下学宫』新认证方式,24年网站打算和努力目标
主题:AlphaGo和F-35 -- 晨枫
共:💬78 🌺303 🌵1 新:
我也不觉得狗狗直接解决了这个问题,因为这个问题的直接解决方法很有可能并不存在
但是我的直觉告诉我,这个问题有极大的可能被间接地解决了。由于新的策略方式(policy net + value net)跟传统的完全基于蒙特卡洛的方式有本质的区别,所以就像二维平面里不可能的跳到封闭曲线外的问题,在三维空间里被轻松地解决掉了
用直观的话来说,如果狗狗会陷入循环的打劫,那说明打劫是到目前为止全局最优的下法,一旦全局发生了变化,打劫变得不那么有利的时候,狗狗会立即跳出循环去下到该下的地方,所以它跳出循环的时机把握可能和人类根本就不在一个层次上
也就是说,“打劫”这种人类认为围棋最有魅力的地方,可能狗狗站在一个更高的境界上来看,根本就是人类自欺欺人的伪命题,其目的无非是为了让场面变得更复杂,诱使对方犯错而已,如果对手根本就不犯错,“打劫”就成为了一种废招。所以在对上狗狗这种不会犯错的对手的时候,“打劫”可能对人类而言就是根本无利的伪招式,反而加大了自己犯错的概率
- 相关回复 上下关系8
压缩 4 层
🙂因为,打劫其实是下小棋,是比较两个局部的得失 4 说几句 字575 2016-03-11 13:54:32
🙂这是MCTS的基本问题不假
🙂不同看法 1 happyyuppie 字1583 2016-03-11 22:14:55
🙂shallow or deep? 3 jahcoo 字1250 2016-03-12 06:19:26
🙂这个我同意 2 happyyuppie 字827 2016-03-12 11:08:34
🙂第一个问题是“多长时间才能收敛到全局最优解”吧? 3 jahcoo 字2432 2016-03-12 11:59:19