黑狼

💧345
🌟47
💓0

主题帖 被推荐 所有帖 收藏帖
家园

2024-04-30 11:38:44分页全看树展

🙂新时代疫苗念经党 ↑3 ↓0
神烦这类言论，言必提美帝疫苗。仿佛只有美帝的疫苗才是灵丹妙药。现实世界的大规模实验已经证明了，两边都无效。 ...

2024-03-01 10:13:23分页全看树展

🙂之前聊过的华为朋友发的 ↑4 ↓0
差不多一年到两年之前。听起来更像是降低技术人员的沟通运维成本的工具？和天气大模型应该不是一个类型的玩意。 1、负责ICT服务领域大模型技术研究，包括领域LLM的预训练、多模态学习、指令微调、强化学习、轻量化模型加速等关键技术方向识别与研究;构建面向领域场景的高质量知识数据库， ...

2024-02-27 08:36:00分页全看树展

🙂芯片禁令 ↑2 ↓0
导致华为优先生产昇腾计算芯片，降低手机芯片的生产优先级 https://www.reuters.com/technology/ai-chip-demand-forces-huawei-slow-smartphone-production-sources-2024-02-05/ ...

2024-02-24 11:22:15分页全看树展

🙂数字高估了 ↑3 ↓0
大致看了一下，生成模型并不是这两年发生的事情，之前语言模型往事的帖子 https://www.talkcc.com/article/4963863 提到的，rnn/lstm阶段其实各家也有服务上线，但只是因为泛化性能的问题没有得到广泛关注。这个名单上粗看了一眼，至少有30%-50 ...

2024-02-24 11:17:11分页全看树展

🙂短期数据层面比HBM更重要 ↑4 ↓0
数据的重要性再怎么被高估也不为过，最简单的例子就是mistral作为一个开源小团队却超越了一系列的模型大厂，其虽然开源了模型参数，但对于数据过程讳莫如深。数据层面对于训练的加速现在还处在“摩尔定律”的范围内。而且这里说的并不是大家常提到的高质量人类标注数据，而是指现在已经有的数据 ...

2024-02-24 04:34:27分页全看树展

🙂一些语言模型往事 ↑22 ↓0
早期的语言模型都是依赖于RNN/LSTM以及其各类变种的结构，但这类对并行不友好的结构存在一个吞吐量的问题，NVIDIA早年的产品也会为这类架构进行一些策略性的优化，但更多的是CNN的优化，因为计算机视觉在那个时代率先落地，需求巨大。后来transformer诞生就是为了解决 ...

2024-02-24 03:12:29分页全看树展

🙂如何判断某个方向是否“能干” ↑1 ↓0
请教一下， “能干的干起来，不能干的保持追踪“，这里面能干的干起来，除了技术要素之外，还有什么关键因素影响是否能干呢？感谢🙏 ...

2024-02-24 03:09:10分页全看树展

🙂人工智能发展，数据中心建设先行 ↑3 ↓0
这一轮人工智能发展国资的应对方式目前是建立各级各类数据中心，“要夯实发展基础底座，把主要资源集中投入到最需要、最有优势的领域，加快建设一批智能算力中心，进一步深化开放合作，更好发挥跨央企协同创新平台作用。” 三大运营商建数据中心应该是拿手好活，也算是符合之前河里讨论的新基建趋势？ ...

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明

黑狼

主题帖 被推荐 所有帖 收藏帖家园

主题帖被推荐所有帖收藏帖
家园