主题：【原创】我的chatGPT的使用体验 -- Swell

共:💬285 🌺1767 🌵12

强化学习和监督学习不在一个分叉上

最初，深度学习和强化学习是分开的。

深度学习就是搞一个训练数据集，通过回溯算法把一堆（可能分好几层）参数算出来。如果，提前给训练数据集做了标注，那就是监督学习。

强化学习是另外一条路：首先对问题的搜索空间给予数学定义，然后在搜索空间中通过试错的方式寻找（最）优解，每步迭代时，大概率是采用以前搜索时找到的当前最优解，小概率是在没有搜索过的空间中去碰运气。因为是大概率采用当前最优解，所以叫强化学习，也因此容易掉进局部最优解的陷阱中。

到阿尔法狗的时候，是在强化学习的基础上，用了深度学习。每对局一盘就是强化学习的一次迭代，迭代的目的就是搜索棋盘每个格点的价值。同一个空间点位，有没有旗子算不同的格点

通宝推：方平,Swell,

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友