算力告急！谷歌限制Gemini调用，Meta研发也受阻

谷歌API调用量翻倍算力终于撑不住了

自2025年春季起始, 谷歌AI平台的API调用请求量径直翻了一番。大量开发者以及企业用户如潮水般涌入, 致使谷歌的算力资源被挤得满满当当。直至2026年5月17日, 谷歌无奈之下正式施行算力额度使用限制, 采用类似流量套餐的分级模式, 调用量多者就得排队等候。

这场算力告急并非是突然就出现的情况, 自2024年底起始, 生成式AI应用显现出爆发态势, 任何一个模型每一次进行推理时, 都在耗费数量众多的GPU算力, 谷歌的数据中心尽管在全球有着广泛布局, 然而面对成倍增长的需求, 也已然开始显得应付不过来, 服务器的利用率已然快要接近极限状态了。

额度分级像手机流量套餐一样管你用

谷歌新出的规定, 将 API 调用划分成了三个不同档次, 分别是基础版、专业版以及企业版, 基础版用户每日调用次数上限为 5000 次, 专业版能达到 5 万次, 企业版会依据合同进行灵活调整, 要是超出了相应的次数限制, 那么要么就得等待下一个周期, 要么就需要额外花钱去购买临时额度。

此种分级模式对中小开发者的使用习惯产生了直接影响, 以往能够随心所欲地进行调整, 如今却需要精打细算, 提前规划调用的次数。众多开发者抱怨测试成本有所上升, 然而谷歌回应称这是为了保障生态公平, 防止少数大客户将算力 completely耗尽。

Meta研发进度受阻大模型训练被迫延后

Meta所处状况也不顺遂。其换代大型模型Llama 4原本规划于2026年6月达成训练, 然而鉴于GPU集群扩充进程落后拖拉, 致使训练任务不得不延迟至9月。Meta内部相关人士透露, 算力资源竞争已经对多个项目小组造成影响, 存在部分团队甚至每周仅能获取几小时的训练时段。

较为麻烦的是, Meta的AI钻研团队, 还在同一时间推进图像生成、视频理解等诸多方向, 算力分配如同饼一般被切来切去, 每个项目都得不到充足的量, 研发负责人公开表明, 期望外部数据中心能够给出更多算力租赁, 然而全球算力市场早就供不应求了。

全球算力争夺战租赁价格翻倍涨

2025年下半年起始, 云计算厂商的GPU租赁价格便持续飙升, AWS的A100和H100芯片每小时收费从2美元涨至4.5美元, 微软Azure的情况也是如此, 黑市上有人加价50%争抢租, 中小企业根本无力承担租赁费用, 只能选择缩减模型规模或者降低推理频率。

类似国内的状况, 阿里云的算力资源以及腾讯云的算力资源同样处于紧张的状态, 部分客户要想拿到GPU实例, 需要提前两周进行预约。有创业公司负责人表示, 他们为了能够运行一次模型测试, 得在凌晨三点去争抢算力，不然的话就只能白白等待一天了。

算力瓶颈倒逼技术革新模型变小成趋势

因算力不足, 迫使工程师去想办法, 众多团队转而采用模型压缩、量化及剪枝等技术, 将大模型缩小, 降低推理时对GPU的依赖, 谷歌自身也在推广能专门运行于终端设备的轻量级模型Gemini Nano。

此外, 混合计算架构同样火起来了, 部分推理任务从云端转移至边缘设备处, 像手机、PC以及智能音箱等等, 依靠本地芯片来分担算力, 虽说效果比不上云端那般精确, 不过好在价格低廉并且响应速度快, 适宜用于实时场景。

开发者如何自救提前规划比硬扛重要

在面对算力受到限制这种状况之时, 开发者是绝对不可以只是一味地坐等的。其一, 要对代码以及模型结构进行优化, 以此来削减那些并非必要的API调用。其二, 要采取错峰使用的方式, 将并非紧急的任务安排到夜间或者周末去运行。其三, 要多准备几家云厂商, 从而避免出现单点依赖的情况, 一旦谷歌方面的额度被用完, 就要立刻切换到AWS或者Azure。

对于企业用户而言, 更需要去构建算力预算制度, 依据业务价值来分配调用的次数, 高优先级的项目使用专业版本, 低优先级的项目则运用基础版本, 千万别等到被限流之后才变得手忙脚乱, 预先进行规划能够节省下大量的时间以及成本。

你认为在面对谷歌所设定的算力限额这种情形下, 最为应当优先去进行优化处理的究竟是模型调用的频率, 还是模型自身的大小情况? 欢迎来到评论区去聊一聊你所采取的做法, 点赞并且分享从而让更多的人能够看到关于算力焦虑的真实面貌。

谷歌API调用量翻倍 算力终于撑不住了

额度分级 像手机流量套餐一样管你用

Meta研发进度受阻 大模型训练被迫延后

全球算力争夺战 租赁价格翻倍涨

算力瓶颈倒逼技术革新 模型变小成趋势

开发者如何自救 提前规划比硬扛重要

美团万亿参数大模型LongCat-2.0开源 国产算力集群训练

Claude大模型登陆Azure，企业AI代理迎来GB300超强算力

亚马逊AI按Token收费，企业长文本处理成本或上涨

美团开源万亿参数大模型LongCat-2.0，国产算力突破