淘客熙熙

主题:【原创】我的chatGPT的使用体验 -- Swell

共:💬285 🌺1767 🌵12
全看分页树展 · 主题 跟帖
家园 强化学习和监督学习不在一个分叉上

最初,深度学习和强化学习是分开的。

深度学习就是搞一个训练数据集,通过回溯算法把一堆(可能分好几层)参数算出来。如果,提前给训练数据集做了标注,那就是监督学习。

强化学习是另外一条路:首先对问题的搜索空间给予数学定义,然后在搜索空间中通过试错的方式寻找(最)优解,每步迭代时,大概率是采用以前搜索时找到的当前最优解,小概率是在没有搜索过的空间中去碰运气。因为是大概率采用当前最优解,所以叫强化学习,也因此容易掉进局部最优解的陷阱中。

到阿尔法狗的时候,是在强化学习的基础上,用了深度学习。每对局一盘就是强化学习的一次迭代,迭代的目的就是搜索棋盘每个格点的价值。同一个空间点位,有没有旗子算不同的格点

通宝推:方平,Swell,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河