AI资讯

OpenAI自研芯片Jalapeño,9个月从白纸到跑通大模型推理

智能摘要

这颗芯片从第一根线开始就只为一件事优化:LLM推理。也就是说——AI设计了一颗芯片,芯片反过来跑AI,跑在上面的更强AI会设计下一代更强的芯片。芯片设计最磨人的不是「想方案」,是无数次的设计—验证—改—再验证循环。一颗先进芯片的验证要跑成千上万次,占掉整个周期的大半时间。

9个月干翻行业纪录

刚才, 有一家搞芯片的的公司, 拿出了他们自己研发的史上头一颗芯片, 它叫ño, 也就是墨西哥辣椒里号称最温和的那个品种。这颗用作大模型在进行推理时的芯片, 九个月之前还是空白得如同白板一样的状态, 九个月之后工程样片已经能够运行GPT-5.3-Codex-Spark模型。更让人觉得无法置信的是, 它的频率以及功耗都已经达到了能够进行大规模生产的目标要求。这个行业之前公认的纪录被打破了, 只留下一片混乱不堪的局面没解决。

顶尖半导体行业去设计一颗具备高性能的ASIC需要十八到二十四个月, TPU是两年推出新一代, 其他行业巨头也都是这样的节奏, 然而这家公司仅仅花费了九个月, 一下子就刷新了先进半导体领域里最快的ASIC开发周期, 这颗芯片从生出第一根线起就唯独只为一件事情去优化, 即LLM推理, 而且, ño这不只是运行自家的模型, 在架构方面还兼容整个行业的LLM。

AI帮自己画了电路图

比性能更值得予以留意的, 是这颗芯片究竟是以怎样的方式被制造出来的这件事。自家的AI模型参与到了针对这颗芯片的设计以及优化工作当中。这也就表明, 是由AI完成了一颗芯片的设计, 而设计出来的这颗芯片又反倒用于运行AI, 运行在该颗芯片上所呈现出的更强的AI又将要负责去设计下一代更具强大性能的芯片这么一种情况。AI, 为自身打造了一副全新的身体。

AI设计芯片这件事并非新鲜事, 2021年的时候, 有公司发表了论文, 专门运用强化学习来进行芯片布局, 其速度相较于人类快出几个数量级, 此后对三代TPU布局方案进行了持续优化, 硬件团队的掌门人Ho, 正是从这个领域走出来的, 他在TPU担任了将近九年的高级工程总监, 参与发明了通过ML设计芯片架构的方法, 多个TPU项目在首次流片时便成功了。

挖来全栈高手造芯

Ho随后前往光子计算公司出任高级副总裁, 此前还曾联合创办过EDA公司0-In。其在学术界、芯片设计、AI硬件领域逐一走过。公司将他招致麾下, 很大概率是为了一件事:把“AI辅助芯片设计”与自家模型对接。让最擅长使用锤子的人, 来设计新型锤子。

芯片设计当中, 最磨人的并非是“想方案”, 而是那无数次的设计, 之后进行验证, 验证完了要改, 改了之后又再次验证, 如此循环往复。对于一颗先进芯片的验证, 要运行并完成成千上万次, 这占到了整个周期的大半部分时间。AI恰好擅长做这种事情, 也就是去读历史设计数据, 生成RTL代码, 辅助进行验证以及debug, 优化布局布线。能够实现9个月流片, 依靠的是AI替人承担掉了那18到24个月里磨人程度最重的一大部分。

你的账单正在被重写

每年算力支出其金额达到百亿美元的级别, 而这些钱最终是要从你那里赚回来的, 具体方式就是收取两十美元的月费以及API调用费用, 还有Plus和Pro订阅费用。推理成本降低了一半, 对于广大普通用户来说, 最先体会到的就是响应速度更快了, 原本在高峰状况的时候用户普遍会面临排队、转圈、对话很长时间却变慢的情况, 而究其本质原因都是由于算力不够分配造成的。当推理效率得到提升之后, 相同的服务器能够为更多用户提供服务, 如此一来用户的体验是很有希望得到改善的。

兴许会放开免费版的能力, 当下好多功能皆锁定于Plus之中, 诸如深度钻研、高级数据剖析、完整版语音对话, 成本有所降低, 那么这些功能下放至免费用户具备不小的可能性, 况且公司着重需要的是让更多人得以使用, 且能够使用更长久的时间, 从长远来看, 20美元的月费或许依旧是20美元, 然而你所获取到的东西却全然不同。

为未来模型造硬件

去年以这个价格所买到的是GPT – 4o , 到了明年, 同样数额的钱或许买到的会是一个能够运行完整工作流的agent。月费并未有变化, 然而能力有可能增长好几倍, 这是推理成本下降所带来的一种隐性降价。但ño所瞄准的并非仅仅是当下的模型。Ho的思路是: 要为模型未来前往的方向去设计硬件, 而非按照它当前的模样。

其公司内部能够看见以后 6 至 9 个月模型的发展趋向, 芯片依照此条线路向前进制造。待 agent 真的运行起来, 算力所需和如今的一问一答可全然不是同一量级。推理花费降低下来, 受益的并非仅仅是 Pro 用户。学生、小型企业、独立开发者, 均有可能用上现今唯有大客户才能够负担得起运行的 AI 能力。

全栈吃掉整条链

公司需自行训练模型, 自行设计芯片, 自行优化推理, 自行控制部署。也就是说, 得成为全栈AI公司。先前与对方合作进行推理部署, 借此弄清楚了专用推理硬件的价值。如今自己投身其中去做, 将经验转变为自身可掌控的平台。Apple和别的公司都曾走过这条路, 然而全栈另有一层深意: 运用AI促使AI基础设施建设加速, 再借助更优良的基础设施运行更强悍的AI。

要是这个循环得以成立, 那么飞轮会对自身进行加速。在2026年年底开始, 首批GW级数据中心会和诸如等合作方展开部署。ño只不过属于第一代, 而下一代被称作什么当前还不清楚。然而制造它的队伍, 很大概率不再仅仅是人了。你认为这颗芯片能够使你的月费降低吗? 在评论区进行讨论, 通过点赞分享让更多的人能够看到。

相关文章