淘客熙熙

主题:从chatgpt看国家数据局成立的意义,数据真正成了生产要素 -- 亮子

共:💬12 🌺72 新:
全看树展主题 · 分页
家园 从chatgpt看国家数据局成立的意义,数据真正成了生产要素 -- 有补充

国外巨头似乎能通力合作没有那么高的数据壁垒,你用谷歌也能搜到github的内容,只要利益分配谈妥了,各家的数据资源都能拿出来共享,谷歌本身就是英文互联网的入口,你微软想训练gpt没有谷歌点头你做得到?nature science的论文,quora的优质回答等等各家的优质语料只要给钱都可以拿出来给微软做训练。chatgpt的成功不是微软一家的功劳,是各大巨头通力合作的结果,比如gpt里的t就是谷歌的成果。至少在这件事上,资本家联合起来了

而国内呢,公众号里的优质内容让你百度搜都搜不到,更遑论给你做训练数据了。知乎,豆瓣等二线巨头也是把优质内容圈地自萌放在app里,百度就只能靠着自己的百家号。中文互联网不是没有优质语料,而且还不少,但基本都藏在各大app里,这也是近年来百度搜索越来越差的原因,甚至你百度想花钱购买这些优质内容做训练都做不到,at两家说不定私下盼望百度赶紧死好分而食之。blog无私奉献的互联网田园牧歌时代早八百年前就结束了,现在是群雄割据互相刀剑相向的时代。

看国家数据局的职能:,组建国家数据局。负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等。各自为战只会被各个击破,利益共享,风险分担才应该是正常的道路。各大云服务器上海量的数据,做好利益分配统筹利用哪里会缺数据了

元宝推荐:加东, 通宝推:潜望镜,exprade,加东,桥上,不远攸高,真理,
作者 对本帖的 补充(3)
家园 共产党成功的根本就是土地国有化,可以统筹利用,数据也应如此 -- 补充帖

相比较印度,土地都是各大地主私有,想办成什么大事都困难重重。国内的互联网行业就像印度一样,处处是壁垒。

对于个人而言,只要身处互联网,你的数据就不再是你的了,在互联网巨头跟在政府手里无非是小利维坦和大利维坦的区别。

家园 建议开展新大翻译运动,将英文优质内容翻译成优质中文语料库 -- 补充帖

chatgpt训练时也曾将中文内容翻译成英文进行训练,那我们为什么不能将英文内容翻译成中文呢。正好现在英文系毕业生也是供大于求了,正好给他们创造新的工作岗位。

过去几十年高校招聘,评职称甚至博士毕业都必须要发英文论文,无形之中在巩固英文霸权,给英文的语料库添砖加瓦,结果我们自己用自己人的东西还得出口转内销,中国的鸡跑到国外下蛋去了。所以一尊才要说“把论文写在祖国大地上”

另外比较好奇,西西河里有很多优质的雄文,河友交流的水准也比动辄辱骂阴阳怪气的知乎微博贴吧好得多,百度若是有一天想买西西河的内容做训练数据不知道铁手能不能同意

通宝推:真离,
家园 不是愁产业转移后劳动力怎么安排么?数字经济的周边配套啊 -- 补充帖

chatgpt雇佣了肯尼亚劳工做数据标注,时薪两美元,换算成国内也就一般工人的薪资,这种活只要认字,眼睛不瞎,会用电脑就能干。托国内大规模普及基础教育的福,这种条件在国内很容易满足。

与其死捧着落后产业不敢撒手,生怕大规模失业,还不如大力发展数字经济,数字经济发展起来了自然会产生新的配套产业

通宝推:潜望镜,
见前补充 4874399
家园 资本家们一直都是联合的状态

每次开会后面ppt那满满两页的logo,而国外都是密密麻麻的各家行业领先的大公司。国内都是银行,都是风投,要么就是大基金,而且根本用不着一页ppt,半页或者最后提一句致谢就没了。

从半导体技术发展到现在,我就没看到过资本家集团散过架,一个赛一个的团结。

再想想当初为了推广早期智能手机打垮欧洲信息产业,美国运营商倒贴了多少钱?

东印度公司一直都在,只不过是豢养的鼓吹手就和成天用好莱坞大片洗脑群众个人英雄主义和资本家是天降英雄一样,告诉你是因为小政府,因为自由市场,因为先进的教育制度。

绝口不提真正强大的是美国那亲密无间的产业集团。

通宝推:吴头楚尾,
家园 计划经济也可以依据全国数据库去做计划

借助数据库和AI数据分析提取,完全可以实现真正的计划经济,微观到每件商品的全流程,每笔交易的流向,每个人的具体需求

家园 其实我觉得差不多就行,没那么娇性

差个一点半点都行。

比当年的苏联东德丰富细腻一些就行,毕竟这个世界。还太烂,自己不要好的过份。

针对世界的精神教育很有必要。

见前补充 4874638
见前补充 4874669
家园 国内的互联网公司水平还不如他们瞧不起的传统行业,整个一收租的

互联网公司吹得那些概念基本都是从传统行业里抄过来的

刚看到文心一言要和wps合作,这是个好兆头。但是腾讯阿里两家仍然是壁垒高企

家园 这个倒还早,一百年内都未必能实现得了
家园 关于GPT中文的训练语库

所以,用英文撩NEW BING关键观点的引用部分最下方会备注来自不同英文网站,而用中文撩BING到昨晚为止绝大部分还都是显示www.zhihu.com (知乎)。西西河其实有跟多的优质内容也可以作为GPT中文的数据共享训练。

家园 百度还是穷,不然靠砸钱跑马圈地也不至于今天这么窘迫

微软收购github在今天这不就派上用场了

家园 谷歌bard内测了,文心一言的水平,甚至还略有不如

文心一言至少支持英文支持生成代码。bard目前只支持英文,不能生成代码

全看树展主题 · 分页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河