主题：对ChatGPT的几点思考 -- 唐家山

共:💬175 🌺1562 🌵7 新:

科技天地

LLM涌现推理很可能是语言自带的原因

如果语言模型（河里有过不少LLM的相关文章）本质就是搜索下一个词，当这个范围扩大到很大，比如下一百个词的搜索都在每一个词后续的搜索范围内，当然这个数量级是巨量，语言模型实际能做到的只是在给定问题内的最优解释与方案。当这个搜索不仅对单一简单问题，天量计算量下，它做到可能只是拼凑每个分化问题的最优解释与方案。这可能是为什么与chatGPT打交道prompt的技术很关键，因为问题的提问方式直接影响了语言模型对复杂问题的细分，但本质仍然是问题中每个词出现或不同组合甚至组合的组合的概率，所谓的“理解”，最后影响到模型根据这些组合的概率寻找“答案”的然后拼凑起来的结果。

能做到现在这样水平，说明这个模型对语言的处理能力已经基本上到了人类大脑对语言的处理水平，所以从人的角度感觉，一个完整问题输入之后的结果与换成一个人给出的结果不差，这样的答案也包括所有语言模型训练过的大学本科物理以语言方式表现的知识，比如教科书与文献。但这是不是推理能力还有待商榷。

本质上这仍然是知识对应的搜索与叠加拼凑，但因为语言本身在描述事物上的自带逻辑，尤其是比较正规的知识文章，所以表现的结果也就很有逻辑性，就是说整体上chatGPT学习训练而得到的知识根据问题去叠加组合的话，本身的自洽性很强。而且这个知识范围很庞大，远远超过一般人一生包括高等教育所能收集的总量，因此从普通人角度看不出毛病来。

但是两个角度可以帮助判断这个涌现的“推理”能力是不是真的存在，一是解决实际问题，而且是复杂的历史上没出现过也就没有正式答案的问题。这可以说的独创性，但也可以理解为非传统非经典教科书式的知识的排列组合叠加，这个能力对人类来说是很普通的，网上俗称“脑补”，“开脑洞”，当然脑补结果的质量则受限于开脑洞人的自身知识总量与自身的对知识的排列组合能力，但人是可以经过教育具备基本逻辑推理能力的，因此这个排列组合知识的过程就包括了排除法，反推，归纳，联想等能力。但是我不认为chatGPT具备这些能力，语言模型做到的其实是根据已知的知识与现成答案的已知的排列组合去提高答案，当然这些排列组合也是知识的组成部分。但超出这个知识范围的去依赖接近或类似等思考能力产生全新的知识排列组合，因为没有存在过各种文献中所以chatGTP应该是做不到的。

结论就是这个“推理”错觉其实是因为chatGPT语言输出的知识的复杂度与对知识点的合理排序排列组合，本质上还是语言，只不过人类的知识都是以语言方式存在所以自带了各种人类知识的光环。那么当OpenAI推出之后市场的焦点都在传统搜索业巨头谷歌身上，其实是没错的，可以看做是一个搜索的高级辅助加速器，虽然这个加速器的帮助是量变带来质变级别的，意义很大，但本质上仍然是更好的搜索。

第二点在第一点的前提下，反推一下。比如大语言模型训练收集的语言知识来源会不会起到很关键作用。当然这是脑补，因为目前没人有能力去做这个试验。这里如前所说，chatGPT的所谓”知识“依然不过是语言本身词汇之间的关系或概率，被这个语言模型学习到极致之后给人带来的”智慧“错觉。那么这个语言模型的答案质量很大程度上是依赖与其训练所收集的语言素材本身的质量与逻辑，或者说是其训练所用语言的智慧的原因。那么使用不逻辑的”推理“，指鹿为马，张冠李戴，前后矛盾，不是蠢就是坏，那么这个语言模型的运行效果会不会就产生类似的答案，给人一种明显不靠谱的感觉呢？我估计一定会，实际上即使目前的chatGPT仍然存在这样问题，因为训练素材的质量不可能做到百分百。版本4对3.5已经改进了很多，但肯定不是因为微调的某种”推理“能力的结果，而只能是修改了对知识语言的排列组合叠加的模型权重，加入某些歧视性的边界条件权重，至于这些是什么就没人知道了，但貌似结果有提高，甚至提供”脑洞“版与”严谨“版，实际上bing目前就是这样。

总结的说，这个”推理“能力其实是语言知识来源自带的，语言知识来源的质量的控制才是其答案逻辑性强不强的真正因素，所以至少一个核心竞争力不但是模型算法本身，同时也包括对训练语言来源的质管技术。真正到了人都分不清的地步，这个质管也就无法保证了，因此chatGPT表现出的”三观“，”屁股“就很正常了，因为语言来源质管的源头仍然是人。这也可以从广义导航当作一个知识茧房效应去理解。

但同时，这个模型本身解决不了汽车自动驾驶中出现的简单逻辑问题，除非可以把问题语言化，通过人类知识的传输方式去自动驾驶，比如每次看到前面一个画面，都去问一下chatGPT，类似”我目前在高速路上，车速xxx，前方这个画面我判断是个STOP sign，请回答确认”，这样可能可以做到帮助AI实现一些在人类知识范畴内很普通的常识答案。

至于chatGPT本身，可能是对搜索应用带来革命性的一个里程碑，甚至堪比互联网本身的出现对知识传播的作用，但仍然还是一个搜索引擎的性质，至于算法对NLP甚至AI行业的贡献因为深藏不露，所以也就无法了解了，但可以有把握的说这远远到不了AGI的程度，不需要像马斯克那样贩卖焦虑。

通宝推：道可道,漂漂2号,桥上,唐家山,

复对ChatGPT的几点思考

家园

今天看到的新闻，ChatGPT答对“美医生资格考”90％题目

其实也不算惊奇，这一天早就知道会到来

--------------------------------------------------------------------

AI聊天机器人ChatGPT在3月向付费用户发表最新版本GPT-4，结果一名医生就利用它来进行测试，没想到最新版的ChatGPT居然能轻松答对美国医生资格考90％的题目，甚至能在输入病人资讯后，轻松诊断出罕见疾病。

根据《商业内幕》报导，哈佛大学电脑科学工程师兼内科科医生柯汉（Isaac Kohane）在新书中指出，他利用美国医学资格考测试了最新版的ChatGPT，没想到它居然能答对90％以上的题目，除了表现比前几版优秀外，甚至也比一些有执照的医生更好。

柯汉说，ChatGPT不仅仅能回答考试的问题，还能替医生在临床上提供更好的建议，例如指导医生如何以更简单、清晰、更具有同情心的说法向病患解释病情，也能轻松摘要冗长的医学报告，或是将住院程序翻译成不同语言，甚至将一些医疗术语精简成医学院6年级学生可以轻松阅读的内容。

柯汉更进一步用ChatGPT进行临床实验，他将自己过去曾治疗的个案资料，包含超音波、体内激素标准等内容提供给ChatGPT，没想到它居然正确诊断出几率仅10万分之1的先天性肾上腺增生症（congenital adrenal hyperplasia），“就像我透过多年研究和经验得出的结果一样。”

不过，柯汉也意识到，全球数百万个家庭都能透过ChatGPT获得这些医疗知识，“我不知道我们如何才能保证或证明GPT-4的建议是安全或有效的。”柯汉说，ChatGPT很容易出现错误，这些错误的地方通常很微小，多半是一个公式计算错误、忘记计算平方等，还曾算错人体的BMI值，“一个错误的数字或计算错误的体重，都会导致严重的诊断误差。”

当柯汉询问ChatGPT关于计算错误的部分时，它则回应，“我无意欺骗或误导任何人，但我有时候会根据不完整或不准确的数据犯错，我也没有人类医生或护理师的临床判断或道德责任。

柯汉结论指出，ChatGPT能够在临床上节省医师很多的时间和资源，“我们必须强迫自己想像身处在一个拥有越来越聪明的机器人世界，最终它可能在各方面都会超越人类智力，我们必须认真思考我们希望这样的世界会如何运作。

通宝推：zwx650,唐家山,

复最近看了三篇文章，对GPT的看法有了改变

家园

又看了三个微信公号的文章

AI教父Hinton最新采访万字实录：ChatGPT和AI的过去现在与未来

吴军：ChatGPT七问七答

ChatGPT的胜利，是概率论的胜利，也是贝叶斯定理的胜利

印证了我的一些看法，也获得了一些新的知识。

两点感想：1. GPT类习得的知识还是“固定”的，所谓推理是浅层的和线性的。2. GPT类的AI如果想达到强人工智能，底层的模型还需要大改。

通宝推：zwx650,桥上,

复今天看到的新闻，ChatGPT答对“美医生资格考”90％题目

家园

希望能用在中医上，开发我们伟大的宝库。

复又看了三个微信公号的文章

家园

概率的胜利，似乎还需要人工判定

好像在计算机编程方面另有以前的什么东西加进去，因此较强。

看来问题还是在某些点上会出错，而且似乎这样的错大多不会有矫正信息反馈。

复今天看到的新闻，ChatGPT答对“美医生资格考”90％题目

家园

美国基层医生水平太烂

去年年底，老大手上起大泡加高烧，跑了数次医院，医生只会说不是新冠不是流感自己回家趴着多喝水，后来俺自己搜索发现这叫疱疹性湿疹，死亡率千分之几是皮肤科极少数应该立刻看急诊的病，而且最关键的是有特效药。后来只好跑去跟医生说，是不是这个病，医生研究一圈说是。

2月家里老二又是高烧不退眼睛嘴唇发红，看了两次医生又是说不知道啥病回家多喝水，最后俺一搜索，这不就是典型川崎病的症状吗？会引起心脏衰竭非常凶险，再去找医生，医生也慌了。

两个月碰上两起，对这个医疗系统真是失去信心，就这水平，一个会总结搜索结果的代码绝对能超过这帮庸医。据说ChatGPT的老总也碰上类似的事情，看了三次医生才确诊的病，ChatGPT马上就得出答案了。。。

通宝推：死扛着,青青的蓝,strain2,紫梁,方恨少,独立寒秋HK,唐家山,陈王奋起,破鱼,川普,桥上,外俗内正,心有戚戚,

本帖一共被 1 帖引用 (帖内工具实现)

美国的确如此，不过前提是得到了及时正确的诊断

复美国基层医生水平太烂

家园

赤脚医生为贫下中农服务

赤脚医生不知道川崎病，不好苛责。

复美国基层医生水平太烂

家园

我觉得ChatGPT实际要解决两类问题，

一类是聊天功能，还有帮孩子写作业，帮懒人写文章，反正是吹，对错关系不大，关键是聊天或者行文的感觉要对，这是要通过大数据磨练的迭代的。

另一类是真问题，恐怕要通过不同的材料集获得，好比对于医生来说，实际上已经有他们的系统，河里介绍过，对于各种病的诊断及治疗，都会有最新的成果，如您查到的，网上也会有。当然可能对于一般人不够友好，最好是通过聊天的方式获得，但本质上就应该是原有的那些。

而且给ChatGPT训练的，也应该是医疗系统的东西，不可能也不应该让网上其他的材料掺合进来，否则就乱套了。

但是如何把这两类在一个系统里整合起来，肯定不简单，不过对于普通人，好比有个专门的ChatGPT医生也够用了，不必包罗万象，包罗万象搞不好更容易出错。

通宝推：唐家山,

补围师必阙，给帝国产业留条活路吧

家园

12306已经悄悄的移植到140多个国家 -- 补充帖

没想到我们都很熟悉的12306，已经悄悄的移植到140多个国家。近日，据南华早报称，中国已经为140多个国家开发了12306国际版。这些系统每月都会生成结算报告，结算用的是瑞士法郎，绕开了国际通用的美元。系统除了交通应用功能，还提供收入核查，电子支付，清算等数据支持。12306这个翻身仗打的漂亮啊，记得刚出来的时候老是被骂，经过不断迭代，现在已经变成全世界最强大的票务网站。

————

分享一个好消息。

之所以结算用瑞士法郎，我来帮国家政府解释一下。这个世界上，除开美元大家都是OTHERS，后面，把结算货币从美元切换成OTHERS很复杂，从OTHERS切换到OTHERS很简单。

不过瑞士今年崩的这么快，可能是设计者当初没料到的。

复对ChatGPT的几点思考

家园

ChatGPT是否认定中国是社会主义国家？

我问：世界上当前最成功的社会主义国家是哪个国家？AI敷衍了事，仅告诉我世界上公认的有五个社会主义国家。至于谁是最成功的，居然告诉我“无法简单地说哪一个是最成功的”。

评:

1，智能机器人也跟我打太极拳，有意思吗？

2，这家伙刚出世不久就学会圆滑了？

3，这回答可以打满分，真人不一定有这个水平。

4，背后的逻辑表示西方并不认可中国的成功，当技术有了立场，就没有意义了。

既然ChatGPT认定中国属于社会主义国家了——我还猜这个地方它会咯噔一下——那谁是“最成功的”还有任何疑问吗？就不能客观地实事求是地说话？不秀一下“高情商”会死么？

我看吧，王后的魔镜它最大的价值就在于不说谎，说谁漂亮谁就是真的漂亮，要是比情商的话，赵高、易牙、竖刁、开方、李莲英这些人不比它舔得舒服？

通宝推：zwx650,

复美国基层医生水平太烂

家园

川崎病....太吓人了

据说要在多长时间内治疗，否则预后非常不好

复 ChatGPT是否认定中国是社会主义国家？

家园

ChstGPT没有认定,只说”中国是拥有社会主义元素的国家“

你的问题,完全回答在这里：

在当前世界上，没有一个国家被普遍认为是完全成功的社会主义国家。实际上，许多国家都在实践着各种形式的社会主义，但是这些国家的政治和经济系统都存在一些挑战和问题。

中国是一个拥有社会主义元素的国家，它的经济增长和减贫计划受到了广泛的赞誉。然而，中国的政治制度和人权状况也受到了批评。

另一个社会主义国家是古巴，这个国家在医疗和教育方面取得了很大的成就，但它也面临着经济问题和政治压制的批评。

因此，要回答“当前世界上最成功的社会主义国家是哪个”这个问题并不简单。每个国家都有其独特的政治和经济条件，以及面临的挑战。

-----

鉴于这个回答,那就明确一下

“中国是号称的社会主义国家,还是真正的社会主义国家？”

回答：

中国是一个宣称自己实行社会主义的国家。中国的宪法明确规定中国是一个社会主义国家，并且中国共产党自成立以来就一直宣扬社会主义理念。

然而，中国的经济和政治制度在实践中并不完全符合传统的社会主义模式。自20世纪80年代以来，中国经历了经济改革开放，引入市场机制和外资投资，取得了巨大的经济成就。这些改革使中国的经济体系逐渐向市场经济转型，而不是传统的计划经济模式。此外，中国在政治制度方面也存在一些独特之处，例如“中国特色社会主义”，这被一些人认为是中国根据自身国情和历史条件创造的一种特殊形式的社会主义。

----

中国经济形式是某种资本主义吗

中国目前的经济形式是一种混合经济，其中既包括一定程度上的资本主义因素，也包括一定程度上的社会主义因素。这种混合经济的特点在于，国家掌握一定的经济调控权力，同时也允许市场力量的发挥。

在中国的经济发展过程中，随着改革开放的推进，中国逐渐引入了市场机制和外资投资，这些因素都有助于经济的增长和发展。在某些方面，中国的经济制度和西方资本主义制度有一些相似之处，例如市场竞争、企业所有权、自由贸易等。

然而，中国经济也存在一些与传统资本主义不同的特点。例如，国有企业在中国经济中占有重要地位，政府在经济决策和资源配置中的作用比较大，政府也制定了一系列政策来保障农民和弱势群体的权益，这些都是传统资本主义制度不具备的特点。

因此，中国经济既包括资本主义因素，也包括社会主义因素，是一种混合经济。

----

一定程度上算国家资本主义吗

可以认为，在某些方面，中国的经济制度和国家资本主义有一些相似之处。国家资本主义是指国家通过控制和管理一定数量的企业和资源，参与到市场经济中来，以实现国家利益和国家发展的一种经济模式。

在中国，国有企业在经济中占有重要地位，国家也制定了一系列政策来规范企业行为，控制市场价格，保护消费者权益等。另外，中国政府还通过对金融业和关键产业的监管和干预，参与到市场经济中来。这些因素都与国家资本主义有一定的相似性。

但是，也应该注意到，中国的经济制度并不是纯粹的国家资本主义。中国的市场经济在发展过程中，也吸收了一些西方国家的经验和理念。例如，中国开放了国际贸易，吸引了外国投资，引入了市场机制等等。因此，中国的经济制度是一种混合经济，同时包含了资本主义和社会主义的因素。

----

谁发明的这个词"中国特色"?

真是牛B到爆炸!

加上这个前缀,一切皆可解释.

"独裁"就是"中国特色民主"(新词叫"全过程民主",牛B)

"国家资本主义"就是"中国特色的社会主义"

...

锅底煤黑是"中国特色白",宗旨为人民服务

美帝墨汁是真"黑",宗旨是为盎撒资产阶级服务

复 ChstGPT没有认定,只说”中国是拥有社会主义元素的国家“

家园

你觉得王后有耐心听完魔镜说这么多话？

尽管白雪公主五官更精致皮肤更好但是身高不如您前凸后翘不如您技术不如您，有的男人喜欢清纯型的有的男人喜欢风骚熟女类型的。。。吧啦吧啦，省略一万字，所以无法确定您与白雪公主谁更美丽。。。

————

我看上个月它对辉瑞公司的几种产品的评价就没有这么模棱两可。好像是@swell 河友上传过来的吧，模糊记得它大概是这么说的:

尽管……，但是，辉瑞疫苗/P药是现有选择里面最安全/有效的一个……

这时候它就不“无法确定”了？

复概率的胜利，似乎还需要人工判定

家园

感谢唐家山河友这些GPT的文摘

以前，如果你走的不是教机器学规则的这条路，当机器无力穷举的时候，所谓“人工智能”往往就“智能”不起来了。在这个路径上，现在这些巨量但不完全抽样的种种基于概率、借助于现代计算力的方法是巨大的进步。但我不赞成用“胜利”这种词，充满了太多误导性的暗示。我个人的观点，基于概率的这些方法现在有两个较大的局限性。第一，它是在总结，如果输入的素材不是整个样本、或者不能代表整个样本，它的输出就会失去“智能”性。第二，当概率方法在求解过程中真正起作用的时候，你只需要统计意义上正确的答案，否则就要人最后去选择一个确定性的答案；从这个角度看，现在这个GPT的方法还是一种人机互助智能。

通宝推：唐家山,

复识别AI提供的知识的真假

家园

如非业内人士，完全看不出这货有时候在胡说八道

全看树展主题 · 分页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明