万亿参数大模型在Mac集群上运行,开发者如何安全远程访问?
1.5TB,能够承载这一前沿规模模型的推理需求。上进行安全远程访问的操作场景,用户可在这些设备上与集群上运行的模型进行交互,而数据和通信保持本地化处理。模型运行平台,此次与苹果的合作进一步展示了在消费级硬件上部署大型开源模型的可能性。支持等多设备内存共享能力。应用中,支持端到端加密连接。
苹果Mac集群跑通万亿参数大模型
6月20日, 于苹果WWDC 2026大会期间, LM跟苹果携手合作达成了一项演示, 此演示内容为, 在由四台Mac所构成的集群之上, 成功实现了月之暗面公司的万亿参数大模型Kimi K2.6的运行, 这一消息很快就引发了AI以及硬件领域的热烈讨论。以往, 万亿参数模型得借助昂贵的GPU服务器集群方可运行, 然而此次演示证实, 消费级Mac设备同样能够承担起这一任务。
万亿参数模型并非遥不可及
Kimi K2.6大模型, 其总参数规模升至1万亿, 运用的是MoE混合专家架构, 并且激活参数为320亿, 它具备支持长上下文处理、多模态输入以及智能体任务的能力。月之暗面公司先前已发布该模型的开源版本, 此次于Mac上的运行演示, 表明普通开发者跟企业用户能够以相对低的成本在本地部署这类前沿模型。
四台Mac如何承载万亿参数
四台Mac借助苹果的内存共享以及互联技术构建成集群, 总统一内存容量大概约为1.5TB, 此容量足够用以承载万亿参数模型的推理需求, 具体连接方式运用了苹果的5 RDMA支持, 达成了多设备间的快速数据共享, 这表明, 用户无需购置专用AI服务器, 凭借几台Mac便可搭建本地推理环境。
生成速度与功耗表现亮眼
之前, 有开发者进行测试表明, 在如同四台Mac组成的集群配置情形下, Kimi K2.6模型于特定模式当中, 能够达成大约每秒28个token的生成速率。此速度虽说比不上高端GPU集群, 然而对于日常的推理任务来讲已足够使用。在功耗层面, 四台Mac的总功耗远远低于传统GPU服务器, 对于长时间运行的AI应用而言, 电费成本大幅削减。
LM Link实现安全远程访问
在现今的演示之中尚演示了LM Link功能的运用场景, 用户能够于Neo笔记本电脑以及iPhone之上, 借助LM Link妥善可靠地远程访问于集群之上运行的模型, 所有的数据以及通信均维持着在本地处理之中, 运用端至端加密连接, 这便意味着, 用户能够在办公室借助Mac集群开展模型的运行, 在会议室凭借手机或者轻薄本远程调用相应结果, 数据并非会上传至云端。
苹果生态的本地AI部署能力
这次的演示, 显著地突显了苹果生态在AI本地化部署层面的技术进步, 因多设备内存共享以及高速互联, 苹果设备集群能够替代部分传统GPU服务器的工作, LM Link作为远程访问功能, 在2026年6月初已更新至Mac应用以及AI iOS应用里, 普通用户如今就能够体验这一能力。
消费级硬件部署开源模型成趋势
作为运行本地AI模型的平台, LM此次跟苹果的合作, 进一步展现了在消费级硬件之上部署大型开源模型的可能性。从今而后, 个人开发者亦或是中小企业甚至于爱好者, 都有可能借助几台Mac去搭建自身的AI推理集群。这对于降低AI使用门槛以及推动开源模型普及而言, 有着重要意义的。
读完这篇文章之后, 你会不会想要尝试运用自己手中的Mac去搭设一个AI推理集群呢? 欢迎在评论栏当中分享你的看法, 去点赞以及转发以便让更多的人知晓这个突破。