新闻资讯

英特尔联手SambaNova推AI推理新方案 2026年下半年上市

更新时间:2026-04-14 09:54

日宣布携手推出面向推理工作负载的异构硬件解决方案。年下半年向企业、云服务供应商、主权人工智能提供。方案的不足。70%,这加速了端到端编程代理工作流,使开发者能够更快地将想法落地为生产准备的智能体。

关于AI推理的成本以及效率方面的问题,始终都使得企业感到头疼不已。在2026年4月8日这一天,英特尔跟美国AI推理芯片企业宣称推出了针对推理工作负载的异构硬件解决方案,这一整套系统将会在2026年下半年的时候正式朝着企业、云服务供应商以及主权人工智能项目进行开放。它运用分工协作这样的方式,把现有纯GPU方案存在的局限给打破了。

为何纯GPU方案不够用

现有AI推理系统里的大多产品,仅仅依靠GPU去处理全部分任务,这情形仿佛是叫一个具备全能能力的工人去从事所有各类工种,其效率实际并非很理想。预填充以及解码这两项步骤,对于硬件而言所提出的要求在根本上就是不一样的,GPU于处理长文本预填充阶段展现出不错的表现,然而在逐词进行解码的时候,通常就浪费了数量众多的算力。一家云服务商所开展的实际测试表明,单纯采用GPU的方案在推理任务当中,大约有40%的算力处于被闲置的状态。

英特尔的这套新方案,将预填充任务交付给GPU,把解码任务给予SN50 RDU,主机头节点以及动作执行之处采用至强6处理器。这样的一种分工,使得每个硬件仅仅从事自身最为擅长的事情,整体效率得到大幅度的提升。在2026年3月举办的一场技术演示当中,这套系统在处理Llama 3 705模型的推理任务之际,吞吐量相较于纯GPU方案提升了2.3倍。

英特尔联手SambaNova推AI推理新方案 2026年下半年上市

至强6处理器的独特优势

是至强6处理器,于这套方案里担当关键角色,用以负责主机头节点管理以及动作执行这两项任务。和基于Arm架构的服务器CPU相比较而言,至强6的LLVM编译速度提升幅度超150%。其带来的结果是,当开发者进行AI模型部署之际,等待编译全部完成的时间被极大缩短。有一家专注于自动驾驶领域的公司,该公司的工程师反馈称,他们过往模型编译所需时间为8分钟,如今已降至3分钟了。

另一个突出亮点是向量数据库性能,至强6相较于现有x86竞品,向量数据库性能有了70%的提升,对于需要实时检索和匹配的编程代理工作流而言,这个提升直接加速端到端开发过程,开发者能更快将想法变为可上线智能体,致使从原型到生产所用时间缩短将近一半。

SN50 RDU在解码环节的作用

致力于AI推理的芯片SN50 RDU,在解码环节有独特优势,解码是逐个生成输出词的过程,对延迟要求极高,对计算精度要求相对宽松,RDU架构针对此任务专门优化,单卡能支持同时处理1024个解码请求,平均每个请求延迟控制在15毫秒以内。

在实际的测试期间,这套异构的方案于处理聊天机器人的响应之际,其首字生成的时间相较于纯GPU方案而言,加快了3倍。针对金融交易监控以及实时客服这类应用来讲,这样的速度提升直接转变成为用户体验的改善。一位电商平台的技术负责人宣称,他们在测试之后做出决定,要在2026年底之前,将部分推理流量迁移至这套新的架构之上。

企业用户能获得什么实惠

有关企业客户而言,这套异构方案所带来的最为直接的益处是使总拥有成本得以降低,因为每一步骤皆运用了最为适宜的硬件,致使整体算力利用率从纯 GPU 方案的约 60%提升至 85%以上,这表明处理相同数量的推理请求时,所需的硬件数量以及电费均显著减少,初步测算表明,三年总成本能够降低 30%到 40%。

云服务供应商同样能够从中获取收益,这一套方案具备支持灵活资源分配的特性,能够依据流量波峰波谷对各环节的硬件配比实施动态调整,有一家参与早期测试的云厂商透露,他们借助这套系统于夜间低峰期关停部分GPU,仅仅使用RDU和至强6来维持基本服务,每月电费节约了大约12万元人民币。

主权AI项目的特殊需求

对于主权人工智能项目而言,其对硬件供应链安全有着严格的要求。其中,这套异构方案里的至强6处理器是在美国本土进行生产的,SN50 RDU以及配套GPU同样来自可信供应商,并且符合多个国家的主权AI采购标准。在2026年第一季度的时候,已经有三个欧洲国家的主权AI项目把该方案列入了推荐采购清单。

主权AI项目的核心关切之中,数据本地化以及合规性也是其中的重要部分。这套系统开展在本地数据中心的完整部署予以支持,依赖任何云端服务这一情况是不存在的。客户自己的机房里有着所有的推理数据以及模型权重留存,欧盟GDPR以及各国数据保护法规的要求得以满足。一位参与项目的政府技术顾问表明,大量的合规审查工作,正因这种设计而被他们省去了。

英特尔联手SambaNova推AI推理新方案 2026年下半年上市

开发者生态和软件支持

即便硬件堪称优良,但若缺失软件鼎力支持之条件,亦不足以施展与挖掘其性能潜力。英特尔针对此套异构架构体系,予以了完备且周全统一的oneAPI编程框架供应,借助该框架,开发者能够凭借同一个整齐划一的代码库,实现对GPU、RDU以及至强6进行调度而调用。将于2026年5月正式发布的首个具备稳定性的SDK版本,已然涵盖了专门针对PyTorch和TensorFlow所精心优化设计的插件。有一家专注于AI领域的初创公司,其内部开发团队宣称,他们仅仅动用了三天时间,便成功使之得以顺畅迁移至新架构之上。

LLVM编译速度的提升,比Arm服务器快150%,这使得每次修改代码后等待编译的时间大幅缩短。向量数据库性能提升70%,能让检索增强生成类应用的响应更加畅快。编译速度与向量数据库性能的提升,直接改良了开发者的日常感受,让开发者能够更迅速地去迭代以及测试,将更多时间投入到算法优化而非等待编译上。

于你身处的企业或者团队而言,在AI推理期间,遭遇过什么样的算力被白白耗费,或者延迟过分高的状况呢?欢迎于评论区域分享你经历的实际事例,同样也别忘记去点赞以及转发,使得更多的人能够知晓这套全新方案所具备的价值。