主题:【原创】我的chatGPT的使用体验 -- Swell
共:💬285 🌺1767 🌵12
最初,深度学习和强化学习是分开的。
深度学习就是搞一个训练数据集,通过回溯算法把一堆(可能分好几层)参数算出来。如果,提前给训练数据集做了标注,那就是监督学习。
强化学习是另外一条路:首先对问题的搜索空间给予数学定义,然后在搜索空间中通过试错的方式寻找(最)优解,每步迭代时,大概率是采用以前搜索时找到的当前最优解,小概率是在没有搜索过的空间中去碰运气。因为是大概率采用当前最优解,所以叫强化学习,也因此容易掉进局部最优解的陷阱中。
到阿尔法狗的时候,是在强化学习的基础上,用了深度学习。每对局一盘就是强化学习的一次迭代,迭代的目的就是搜索棋盘每个格点的价值。同一个空间点位,有没有旗子算不同的格点
通宝推:方平,Swell,
- 相关回复 上下关系8
🙂格局啊,兄弟 2 川普 字283 2023-06-09 15:38:53
🙂华为的盘古语言大模型即将发布 4 真理 字55 2023-03-28 18:45:08
🙂这两天发布了 3 川普 字153 2023-06-04 10:39:22
🙂强化学习和监督学习不在一个分叉上
🙂确实不是一条线上的 3 假设 字901 2023-06-09 04:07:46
🙂一段话把我对程序员的崇拜降低了很多 5 贼不走空 字638 2023-02-21 01:57:09
🙂学到一招如何随心所欲地出尔反尔 4 贼不走空 字435 2023-02-21 02:18:27
🙂请问chatGPT的答案是搜索结果还是自生成结果 4 贼不走空 字599 2023-02-08 22:21:38