这家小厂竟把大模型焊进芯片，速度远超同行

这两天，一家成立不到三年的多伦多芯片公司Taalas扔下了一颗核弹：他们绕开了所有热门概念，直接把AI大模型，物理焊死在芯片里！过去三十年，无论是CPU还是GPU，甚至是后来的各种AI加速器，整个硅谷都在疯狂追求同一件事：「造一个通用的计算平台」。

还处在等待AI逐字逐词往外冒的状态吗？有一家加拿大的初创公司，直接将大模型物理方式“焊牢”于芯片内部，使得Llama 3.1的推理速度急剧提升至每秒接近两万个token，这可是英伟达最新旗舰B200推理速度的整整50倍呢。当整个行业都围绕着HBM显存及液冷散热展开激烈争抢时，这家公司却凭借最为复古的“强硬”办法，给AI领域投下了一颗重磅炸弹。

每秒一万七千个token的物理外挂

当你于一家名为Tenstorrent的公司所提供的在线demo网站之上敲下问题的那一刹那，答案并非逐个字词涌现，而是整段整段地径直砸落于屏幕之上。此般近乎“未卜先知”的体验，源自其最新的HC1芯片。经实测数据表明，HC1运行Llama 3.1 8B model的速度达到了令人惊骇的每秒17,000个token，以此作为对比，当下行业顶尖水准通常仅为两千左右，这等同于把速度提升了将近十倍。

这种具有颠覆性的性能源自对传统计算架构的全然反叛，HC1芯片摒弃了繁杂的存储层级以及昂贵的HBM显存，还省去了液冷系统，它所依靠的是空气冷却以及一套全新的物理计算逻辑，在这种设计情形下，模型的每一个权重都对应着芯片上特定的晶体管，矩阵乘法不再依靠软件调度，而是经由物理电路中的电流直接达成。

为单一模型而生的暴力美学

你能够将英伟达的通用图形处理器设想成一个随时都能够变换场景布置的奢华剧场，然而Tenstorrent的行为方式却是把《罗密欧与朱丽叶》的场景布置直接借助水泥固定在舞台之上。当HC1芯片生产出来时，它的晶体管仅仅只是为Llama 3.1 8B这单一一个模型的权重而存在，这一生都仅仅只能运行这唯一的一个模型。这所带来的益处是达到极致的效率以及成本管控。

由于不存在繁杂的“搬砖”进程，HC1的成本仅是传统AI芯片方案的二十分之一，功耗更是大幅惊人地缩减成十分之一，十张卡加起来只需2.5千瓦的电力，且仅凭借空气冷却便可稳定运行，这宛如从现场演奏的交响乐团转变为一张能够摧枯拉朽倍速播放的黑胶唱片，插上电就能以物理极限速度狂飙。

光速背后的致命封印

然而，在这种所谓“光速”体验的背后，却隐匿着一个根本无法回避的代价。一旦芯片出厂了，它的命运便已然被彻彻底底地锁死，没办法通过微调去优化模型，甚至更加没办法升级到未来的 Llama 4 或者其他新架构。要是明年模型迭代的时候，或者你发觉 8B 模型在复杂逻辑推理方面“堪称太卡智商”，那么这块满满负载着尖端科技的硅片，瞬间就会沦为精美的电子垃圾。

更何况，速度上的飞跃没办法解决小模型自身所固有的缺陷，实测显示，尽管输出如同狂风骤雨一般，然而 Llama 3.1 8B 在处理简单的加减乘除运算的时候依旧会出现错误，幻觉问题同样无法避免，在当下追求模型规模以及智能水平的情况下，把一个即将被淘汰下去的模型版本固定于昂贵的硬件当中，到底是属于超前布局还是一场注定失败的豪赌呢？

硅谷大佬的路线大决裂

这场争议的背后，所牵扯出来的，乃是硅谷两位顶级芯片架构师存在的路线分歧。Tenstorrent的CEO Jim Keller，曾经可是AMD和苹果的芯片传奇人物，在业界被称作“硅仙人”。其毕生所秉持的信仰，曾经是打造通用性的、可编程的堪称完美的计算平台。然而在2023年，他从自己所创立的公司转身，加入了追求极致专用性的Tenstorrent，这本身就是一种态度的宣告。

关键人物的另一位，是Tenstorrent的架构师Bajic，他也曾于AMD以及英伟达担当骨干。他们一同挑选的这条道路，跟整个硅谷过往三十年追寻“通用计算”的惯性完全断绝关系。一方是依靠复杂的软件调度去适配各类模型，另一方是以物理固化来换取单一场景里的极限性能，这场路线方面的争论才刚刚起始。

留给智能体间的对话

虽争议浩大，然而持有乐观认知者却察觉到了别样的一种可能性，这般堪称恐怖的token输出速率，或许压根就并非是为了供人类去阅读而筹备的，在你按下回车键之际，答案即刻迅猛地扑面而来，此时人类的大脑根本就不能够以并行的方式处置如斯海量的信息，这种速度的真实价值所在，乃是用以促使AI智能体彼此间展开高速的对话。

试去设想一下，往后会有数目众多的AI这些聪慧体于后台彼此之间去交流，共同开展工作，它们无需与人类别无二致地等着打字去完成及阅读。要是智能体相互间的通联能够达到每秒一万以上token这么状况，那么繁复的多智能体重合进行工作、即时的大型模拟进行推论论证这些情况都将会变成行得通状态。从这样状况去看，这种芯片并非是在为人类作于服务，而是在构建一个全新的、归属于AI其自身的底层通信基础相关设施。

与大脑共振的极端方向

将这种思路跟人类大脑运行机制联系起来的是更具趣味的观察者，人脑并不是一个通用计算设备，其诸多功能比如视觉识别、语言处理，都依靠高度特化的神经回路，Tenstorrent的做法就是在硅片上重现这种“硬件固化”的生物逻辑，凭借绝对的专用性，来换取绝对的效率以及低功耗。

这也许意味着AI硬件日后的一个走向，一部分芯片持续寻求通用性，如同大脑皮层般灵活地进行学习，另一部分则恰似小脑或者脑干，把成熟的功能固定化为自动化、高速的物理反射。Tenstorrent的HC1便是如此这般的一个试验品，它以极致的“封闭”换取极致的“自在”，至于这条大胆的道路能不能走得通，时间会给出最为无情的回答。

當AI不再需要那用於“思考”的時間，能即刻將答案直截了當地呈現眼前之時，你會覺得這種令人追趕不上的“光速”，到底是賦予解放生產力的革命，還是致使我們失去等待以及思考能力的起始呢？你會為此種永遠快人一步的AI承擔費用嗎？歡迎於評論區分享你的看法，點贊與轉發能讓更多人目睹這場關乎未來的路線博弈之物。

这家小厂竟把大模型焊进芯片，速度远超同行

每秒一万七千个token的物理外挂

为单一模型而生的暴力美学

光速背后的致命封印

硅谷大佬的路线大决裂

留给智能体间的对话

与大脑共振的极端方向

相关文章

AI模型会互相带坏：看串数字就学会隐藏偏好

QQ宣布Hermes Agent官方文档更新，含QQ Bot接入方式及消息功能

一个公式生成所有函数，科学计算器只需一个按键

Claude Opus 4.7来了！一文详解最佳实践及性能提升亮点