淘客熙熙

黑狼

注册:2024-02-17 21:38:32
从九品上:文林郎|陪戎校尉
💧345
🌟47
💓0

家园

所有帖 / 1
2024-04-30 11:38:44分页 全看 树展
🙂新时代疫苗念经党 ↑3 ↓0
神烦这类言论,言必提美帝疫苗。仿佛只有美帝的疫苗才是灵丹妙药。现实世界的大规模实验已经证明了,两边都无效。 ...
2024-03-01 10:13:23分页 全看 树展
🙂之前聊过的华为朋友发的 ↑4 ↓0
差不多一年到两年之前。听起来更像是降低技术人员的沟通运维成本的工具?和天气大模型应该不是一个类型的玩意。 1、负责ICT服务领域大模型技术研究,包括领域LLM的预训练、多模态学习、指令微调、强化学习、轻量化模型加速等关键技术方向识别与研究;构建面向领域场景的高质量知识数据库, ...
2024-02-27 08:36:00分页 全看 树展
🙂芯片禁令 ↑2 ↓0
导致华为优先生产昇腾计算芯片,降低手机芯片的生产优先级 https://www.reuters.com/technology/ai-chip-demand-forces-huawei-slow-smartphone-production-sources-2024-02-05/ ...
2024-02-24 11:22:15分页 全看 树展
🙂数字高估了 ↑3 ↓0
大致看了一下,生成模型并不是这两年发生的事情,之前语言模型往事的帖子 https://www.talkcc.com/article/4963863 提到的,rnn/lstm阶段其实各家也有服务上线,但只是因为泛化性能的问题没有得到广泛关注。这个名单上粗看了一眼,至少有30%-50 ...
2024-02-24 11:17:11分页 全看 树展
🙂短期数据层面比HBM更重要 ↑4 ↓0
数据的重要性再怎么被高估也不为过,最简单的例子就是mistral作为一个开源小团队却超越了一系列的模型大厂,其虽然开源了模型参数,但对于数据过程讳莫如深。数据层面对于训练的加速现在还处在“摩尔定律”的范围内。而且这里说的并不是大家常提到的高质量人类标注数据,而是指现在已经有的数据 ...
2024-02-24 04:34:27分页 全看 树展
🙂一些语言模型往事 ↑22 ↓0
早期的语言模型都是依赖于RNN/LSTM以及其各类变种的结构,但这类对并行不友好的结构存在一个吞吐量的问题,NVIDIA早年的产品也会为这类架构进行一些策略性的优化,但更多的是CNN的优化,因为计算机视觉在那个时代率先落地,需求巨大。 后来transformer诞生就是为了解决 ...
2024-02-24 03:12:29分页 全看 树展
🙂如何判断某个方向是否“能干” ↑1 ↓0
请教一下, “能干的干起来,不能干的保持追踪“,这里面能干的干起来,除了技术要素之外,还有什么关键因素影响是否能干呢?感谢🙏 ...
2024-02-24 03:09:10分页 全看 树展
🙂人工智能发展,数据中心建设先行 ↑3 ↓0
这一轮人工智能发展国资的应对方式目前是建立各级各类数据中心,“要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心,进一步深化开放合作,更好发挥跨央企协同创新平台作用。” 三大运营商建数据中心应该是拿手好活,也算是符合之前河里讨论的新基建趋势? ...


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河