主题：【整理】芯片败局 -- 拿不准

共:💬719 🌺8744 🌵288 新:

稷下学宫

语料虽然只是一方面，但对语言模型很重要 -- 有补充

大模型的所谓训练，语料（corpus，很喜欢语料这个翻译词）都与模型架构本身一样对模型的性能有决定性影响，这也是为什么开源大模型架构本身没有太大意义的原因，不但训练的耗材是个门槛，就是语料的选择本身都是未知数。

脸书meta开源的那个llama是连架构带参数一起给了，所以最大的门槛被解决了，而且原始版是没有经过政治正确调试的，可以胡说八道 😁 不过提起智商来比chagtp4差的不少。比如问题个”老张是小张的爹，老张与小张谁先出生的“，完了，就这么个问题十个模型可以给出三十种解答，而且90%没答对😄 这种模型用起来那叫一个不踏实。

就这么个开源模型，全世界从阿联酋到美国海军陆战队，都在抢着调试改进，唯一的好处是可以压缩小版本在手提电脑上用，甚至未来还可能在手机上用，不用联网自带十万个为什么，吸引力很大，不过智障也很显著 😁

当然这个政治正确调试不是唯一造成智障的原因，其他大模型比如绘画的那些，就比较不容易受到这些语言范围内的调试影响。

不过说起国内引进的话，llama比较现成的开源，参数与广大开发调试群体的数量庞大，类似linux，不用白不用。这是对于一些本身资源有限的企业级应用来说的，你自己开发估计还赶不上llama的进步与应用配套的广度与深度。当然大企业甚至国家级的资源，就另当别论了，自己完全可以从头干起，所有大模型与AI科研都可是有paper的，甚至开源的程序都可以找到，这些不是门槛，更有可能的是大企业自身就是这些进步的推手，比如谷歌，国内也有几家，但是大模型的科研与训练对自身资源的口袋深度是有很高要求的，确实不是一般企业玩得起的。

客观的说，国产大模型没有任何道理比OpenAI的差，但同理也无法解释谷歌的大模型为什么表现不如chatgpt4. 这里面包括了模型本身架构，基础计算设施，资源投入，训练方法，以及语料，除了第一条之外，后几条几乎都是不开源的，属于核心竞争力。其中尤其要重视语料的质量与选择，我前面说过llama开源后很多上万种各种调试，后期训练等，其中主要区别都是在语料方面，因为前期训练成本太高，一个30亿参数的袖珍版小模型就要投入上百万美刀的训练成本。但语料的提高可以得到非常明显的性能改善，这现在基本是公认的了。

中文语料的质量与选择无疑是个工作量要超过英语，本质上是文字信息在互联网与文献中的普遍以英文存在的原因。相反在算法领域，在模型架构上，因为中国人才在AI科研领域的广泛参与，我个人认为可能还真不存在中美差距。但是在后几个领域，因为看不到paper，而且基本上都是各家关起门来闷头干，所以很难估量。不恰当的比方，类似闭源软件，你说中国的顶级企业软件水平与资源，就是从头开发个视窗 windows10操作系统，理论上应该是可以做到的，但是这么多年了不但中国全世界也没人干成这事，就那么看着微软得瑟。说明这后面的工程量与难度还是很大的。

作者对本帖的补充(1)

家园

还有一个有利与国内的地方忘了提 -- 补充帖

就是那个copyright问题，目前是大模型领域的重大法律纠纷定时炸弹，chatgpt已经成了众矢之的，好几个大案都在筹备中，准备好好干一票。这个问题的发展无疑会不但对OpenAI自身经营有重大影响，对大模型商业模式与性能调试，都是继政治正确紧箍咒之后的另一个重大转折点。然后，中国没有这方面的顾虑，虽然对走向西方市场有影响，但反正脱钩了，市场面向亚非拉，可以爽快的把知识产权这顶帽子甩得远远的了😁

欧美大环境目前是对AI非常不友好，从民间到政府，都有强大的怀疑不信任, 取代工作是主要担忧，当然大企业与资本是AI背后的强大推手，但在AI矛盾上会不会引发21世纪西方全球党控制以外的新一轮共产主义运动，这是个很有看点的地方。

全看分页树展 · 主题跟帖

相关回复上下关系8
压缩 2 层
- - 🙂接着问 7 zwx650 字1154 2023-08-16 00:08:22
    🙂语料虽然只是一方面，但对语言模型很重要
    🙂还有一个有利与国内的地方忘了提 7 川普字872 2023-08-25 16:17:50
- 🙂关于华为的AI，一直有个疑问 4 光头佬字276 2023-07-31 00:55:17
  - 🙂华为实际控制的线超过若干条 205 陈王奋起字1625 2023-07-31 06:09:06
    🙂华为麒麟9000s芯片制程为5nm 19 真理字45 2023-08-29 04:14:04
    🙂一个问题，光刻机的客户验证需要多少年？思想的行者字745 2023-08-02 23:37:13
    🙂如果荷兰卖给中国1980i是因为中国能造的话 4 思想的行者字179 2023-09-15 00:49:34

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明