淘客熙熙

主题:从chatgpt看国家数据局成立的意义,数据真正成了生产要素 -- 亮子

共:💬12 🌺72 新:
全看分页树展 · 主题
家园 从chatgpt看国家数据局成立的意义,数据真正成了生产要素 -- 有补充

国外巨头似乎能通力合作没有那么高的数据壁垒,你用谷歌也能搜到github的内容,只要利益分配谈妥了,各家的数据资源都能拿出来共享,谷歌本身就是英文互联网的入口,你微软想训练gpt没有谷歌点头你做得到?nature science的论文,quora的优质回答等等各家的优质语料只要给钱都可以拿出来给微软做训练。chatgpt的成功不是微软一家的功劳,是各大巨头通力合作的结果,比如gpt里的t就是谷歌的成果。至少在这件事上,资本家联合起来了

而国内呢,公众号里的优质内容让你百度搜都搜不到,更遑论给你做训练数据了。知乎,豆瓣等二线巨头也是把优质内容圈地自萌放在app里,百度就只能靠着自己的百家号。中文互联网不是没有优质语料,而且还不少,但基本都藏在各大app里,这也是近年来百度搜索越来越差的原因,甚至你百度想花钱购买这些优质内容做训练都做不到,at两家说不定私下盼望百度赶紧死好分而食之。blog无私奉献的互联网田园牧歌时代早八百年前就结束了,现在是群雄割据互相刀剑相向的时代。

看国家数据局的职能:,组建国家数据局。负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等。各自为战只会被各个击破,利益共享,风险分担才应该是正常的道路。各大云服务器上海量的数据,做好利益分配统筹利用哪里会缺数据了

元宝推荐:加东, 通宝推:潜望镜,exprade,加东,桥上,不远攸高,真理,
作者 对本帖的 补充(3)
家园 共产党成功的根本就是土地国有化,可以统筹利用,数据也应如此 -- 补充帖

相比较印度,土地都是各大地主私有,想办成什么大事都困难重重。国内的互联网行业就像印度一样,处处是壁垒。

对于个人而言,只要身处互联网,你的数据就不再是你的了,在互联网巨头跟在政府手里无非是小利维坦和大利维坦的区别。

家园 建议开展新大翻译运动,将英文优质内容翻译成优质中文语料库 -- 补充帖

chatgpt训练时也曾将中文内容翻译成英文进行训练,那我们为什么不能将英文内容翻译成中文呢。正好现在英文系毕业生也是供大于求了,正好给他们创造新的工作岗位。

过去几十年高校招聘,评职称甚至博士毕业都必须要发英文论文,无形之中在巩固英文霸权,给英文的语料库添砖加瓦,结果我们自己用自己人的东西还得出口转内销,中国的鸡跑到国外下蛋去了。所以一尊才要说“把论文写在祖国大地上”

另外比较好奇,西西河里有很多优质的雄文,河友交流的水准也比动辄辱骂阴阳怪气的知乎微博贴吧好得多,百度若是有一天想买西西河的内容做训练数据不知道铁手能不能同意

通宝推:真离,
家园 不是愁产业转移后劳动力怎么安排么?数字经济的周边配套啊 -- 补充帖

chatgpt雇佣了肯尼亚劳工做数据标注,时薪两美元,换算成国内也就一般工人的薪资,这种活只要认字,眼睛不瞎,会用电脑就能干。托国内大规模普及基础教育的福,这种条件在国内很容易满足。

与其死捧着落后产业不敢撒手,生怕大规模失业,还不如大力发展数字经济,数字经济发展起来了自然会产生新的配套产业

通宝推:潜望镜,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河