美团万亿参数大模型LongCat-2.0开源国产算力集群训练

美团突然放大招

在当下人工智能大模型竞赛呈现白热化态势之际, 美团于近日正式发布了其万亿参数级大模型 -2.0, 且宣布进行全面开源, 这一行为直接在技术圈引发了轰动, 原因在于一个有着 1.6T 总参数量的模型, 竟然出自一家以本地生活服务而被众人熟知的公司, 更让人感到意外的是, 美团选择将代码和权重完全公开, 并非像某些巨头那般有所保留, 这就意味着任何开发者都能够免费进行下载、部署甚至是展开二次开发, 对于那些预算有限的创业团队来讲, 绝对就如同天上突然掉下馅饼一样。

五万张国产卡撑起的奇迹

好些人会对国内算力能不能支撑万亿模型训练提出疑问, 美团的 -2.0 直接给了这些质疑有力回击。那个模型是在由五万张国产算力卡构成的集群上达成全流程训练的, 并未依赖英伟达的高端芯片。在训练进程中, 国产软硬件展现出令人意想不到的稳定性, 没出现大规模中断或者节点故障的情况。这一验证不但证实了国产算力集群能够承受超大规模分布式计算, 还为别的公司提供了可复制的技术典范, 减低了行业进入标准。

万亿参数背后的技术取舍

2.参数量总计为1.6T的0情形发生的时候, 然而并非全部参数于推理之际都被激活了, 它运用动态范围设计方式, 实际具有激活性质的参数大约是48B, 动态范围涵盖了从33B直至56B的区间, 这样的做法所具备的巧妙之处在于, 模型不但能够维持海量知识储备状态, 同时又不会在每一次推理之时致使万亿数量的参数全部展开运算, 进而极大程度地削减了计算成本以及响应延迟, 简单来讲, 就是平常仅仅调用几十亿参数去开展工作, 在需要进行深度思考之际才激活更多参数实施运算, 相较于“一刀切”的固定参数模型而言灵活程度强出很多很多。

30T数据喂出的多语言大脑

包含中文、英文、多语言以及高质量代码数据的预训练数据量超过三十吨了, 这表明模型不只是知晓语言, 还明白逻辑。美团在数据清洗环节投入了很多精力, 去除了大量噪声和重复内容, 以此保证模型学到的是有用知识。由此跨领域理解能力获得了提高, 比如说在处理法律合同、医学报告、技术文档等混合语料时, 负二点零能够维持连贯的逻辑判断, 并非像某些模型那样碰到专业术语就“胡言乱语”。

百万字上下文一口气读完

最亮眼功能之一是原生支持一个M的超长上下文, 这就是-2.0, 这意味着你将整本《三体》三部曲一次性扔进去, 模型也能够从头到尾记住情节以及人物关系, 对于那些需要分析长篇财报、审计报告、技术白皮书或者构建复杂代码库的开发者而言这功能简直是救命的, 以往处理长文档的时候, 很多模型会遗忘前文内容, 从而致使答案前后矛盾, 而-2.0依靠超长上下文做到了“过目不忘”, 准确度有显著的提升。

开源策略背后的野心

美团选取全面开源 -2.0, 从表面看是“往社区作贡献”, 事实上蕴含着更深层次的商业逻辑, 借助开源, 美团能够吸引众多开发者围绕模型构筑生态, 推动应用落地加速, 与此同时, 开源之后的反馈以及修改会反过来助力美团自身的技术迭代, 更为关键的是, 国内大模型生态向来缺少重量级开源底座, -2.0 的加入恰好填补了这一空白, 使得中小公司有契机基于万亿级模型开展垂直领域应用, 而无需从零起步耗费资金进行训练。

未来应用场景想象空间巨大

拥有了免费且强大的 -2.0 这个底座, 开发者能够快速搭建诸如 AI 客服、代码助手、智能文档, 以及教育辅导等工具。特别是在电商、物流、本地生活等领域, 超长上下文能力能够显著提升用户体验, 像自动分析用户历史订单接着推荐个性化服务这样。美团自身必然也会将它深度融入业务当中, 比如优化配送路线、处理用户反馈进而生成运营报告。未来半年, 我们极有可能目睹一批基于 -2.0 的创新应用集中出现。

你是否已然做足准备着手去下载 -2.0 尝试一番, 欢迎于评论区域分享你在使用之中的亲身体验, 点赞并转发从而让更多的人获悉这个利好消息！

美团突然放大招

五万张国产卡撑起的奇迹

万亿参数背后的技术取舍

30T数据喂出的多语言大脑

百万字上下文一口气读完

开源策略背后的野心

未来应用场景想象空间巨大

华为开源920亿参数大模型，长文本低延迟加速AI商业创新

名校毕业投8000份简历没回应，AI时代高学历也难找工作

Claude大模型登陆Azure，企业AI代理迎来GB300超强算力

算力告急！谷歌限制Gemini调用，Meta研发也受阻