WWDC苹果联手LM Studio:4台Mac Studio跑万亿参数Kimi K2.6大模型
这使得多台设备间的内存得以直接共享,将总计约2TB的统一内存整合为一个逻辑上的“超大内存池”,从而轻松容纳了万亿参数模型的权重。个token,且功耗远低于传统的GPU算力中心。随着“消费级”硬件集群性能的不断提升,AI技术应用的组织门槛正在被进一步拉低。
万亿参数模型硬塞进Mac集群
在全球开发者大会上, LM同苹果携手呈现了一项令人惊叹的技术成果, 仅凭借四台配备M3 Ultra芯片的Mac, 便成功运行了月之暗面旗下参数高达1万亿的Kimi K2.6模型。以往, 这般规模的模型起码需要8到16块高端GPU服务器集群, 造价动不动就是百万美元。如今, 苹果借助消费级硬件达成了这一不可能完成的任务, 直接对传统算力中心的垄断地位发起了挑战。在现场进行演示期间, 模型生成出来的速度达到了每秒28个token, 并且其功耗相比于那些形体庞大的服务器要远远低很多。
MoE架构实现参数量与算力的平衡
Kimi K2.6运用了先进的混合专家架构, 其总参数量高达1万亿, 不过在进行推理的时候, 仅仅只需激活大约320亿参数, 这种动态专家调度机制极大程度地降低了计算压力, 使得模型在有限的硬件上面也能够高效地运行, 然而, 即便这样, 把全部权重加载依然需要大约2TB的内存, 在传统方案里, 这就意味着必须要依赖昂贵的数据中心硬件, 而苹果的统一内存架构恰好解决了这一瓶颈。
四台Mac通过RDMA技术共享2TB内存
于此次演示而言, 关键之处在于技术路径方面的创新, 四台Mac借助高速接口实现互联, 运用macOS最新版的RDMA-over-技术, 成功打破了单台设备的内存限制, 多台Mac具备的直接内存共享功能, 把总计大约2TB的统一内存整合成为一个逻辑层面上的超大内存池, 能够轻松容纳万亿参数模型, 这种方案大幅度降低了硬件买断成本, 替代了云端按月付费的昂贵模式。
LM Link实现远程安全访问本地集群
在此次合作里头, LM发布了重要组件LM Link, 该组件是基于Mesh虚拟专用网络架构的, 借助端到端加密通道, 使得用户能够安全地远程访问本地Mac集群。不管你用的是手机, 又或者是笔记本电脑, 在任何网络环境当中都能够远程调用集群算力来进行推理。所有敏感数据都是在本地闭环处理的, 并不需要经过第三方云服务器, 这把企业对于数据安全的核心担忧给解决了。
苹果统一内存架构成行业新选择
明确释放出这样一个清晰信号的此次演示是, 苹果正凭借统一内存架构, 以及高效设备互联能力成为大模型本地部署的新所选择。对于那些有着需要高频、长期运行大模型特点的推理企业来讲,这种拥有用一次性硬件以买断方式取代云端按月租的服务方案, 在长周期运营期间成本优势是非常明显的。比如说有一家处于初创阶段的AI公司, 两个月前还只能要依赖每月数万元的云服务, 而现在仅仅借用很少的几台Mac就得能够自己运行模型了。
消费级硬件让AI创新门槛持续拉低
在消费级硬件集群性能持续得以提升的情况下, AI技术应用的组织门槛正被进一步予以拉低, 这一成果作出预示, 未来前沿AI创新将不会再被局限于拥有大型超算中心的少数科技巨头, 去中心化的算力网络, 有可能迎来全新的发展机遇, 想象一下, 一个仅仅只有十人团队的小公司, 也能够在办公室借助Mac集群去训练以及运行顶尖模型, 这将会彻底改变行业格局。
你觉得, 这种、借助Mac集群、去运行大模型的办法, 往后, 能够替代传统的GPU服务器吗? 欢迎于评论区, 分享你所持有之观点, 点赞以及转发, 以使更多之人目睹此项技术突破!