新闻资讯

微软发布全球最准语音转文字模型,又快又便宜

更新时间:2026-04-05 09:59

3.9%,宣称这是目前全球最精准的转录模型。微软强调该模型能在所有支持语言间保持一致的高准确度,适用于多样化的语音转文字场景。美元,微软称在大型云厂商中,该模型性价比最优。值得注意的是,首发版本暂不支持实时转录、说话人分离和偏见调整功能,但微软计划在后续更新中提供这些能力。

在语音转录领域,迎来了一位新的性能冠军,微软于2026年4月2日正式发布了自研的AI模型MAI-1,它凭借3.9%的字错误率,宣称这是当前全球最为精准的转录模型,对于那些经常有处理会议录音、采访音频或者视频字幕需求的用户而言,这个数据意味着转录100个字错误不到4个,实用性极高。

测试成绩击败谷歌和OpenAI

微软MAI - 1模型,在行业所公认的语音识别基准测试里,接受了严格的检验,该测试覆盖了中文、英文、法语等全球25种主要语言,MAI - 1的平均字错误率仅仅只有3.9%,在11种核心语言方面,这个模型直接登上榜首,将其他竞争对手远远甩在身后。

微软发布全球最准语音转文字模型,又快又便宜

MAI-1在剩余的十四种语言对比里头,同样有着出色的表现,它将OpenAI的Whisper-large-v3模型击败掉,并且在其中十一种语言之上,超越了谷歌最新发布的Gemini 3.1 Flash,这就表明不管用户需要对哪种主流语言进行转录,MAI-1都能够提供稳定可靠且高准确度的服务。

批量转录速度达到Azure服务的2.5倍

微软MAI-1模型,除了具备高准确度特质之外,在速度方面也呈现出显著优势,对于那些有着处理大量音频文件需求的企业用户来讲,批量转录速度切切实实地对工作效率产生着直接影响,微软宣称,MAI-1的批量转录速度已然达到了现有Azure Fast服务的2.5倍。

假设先前处理100小时的录音得等待2天,如今借助MAI-1不到1天便能完成。对于那些诸如媒体公司、法律机构以及学术研究团队等,有频繁转录大量语音资料需求的客户而言,能够节省大量时间成本,促使项目流程进一步加快推进。

每小时仅0.36美元定价极具竞争力

微软发布全球最准语音转文字模型,又快又便宜

微软MAI - 1模型的第三大杀手锏是价格,该模型每小时转录成本仅0.36美元,按当前汇率折算大约2.6元人民币,对比其他主流云厂商的语音转录服务,这个定价极具竞争力,微软宣称在大型云厂商中,该模型性价比最优。

对于个人创作者而言,这个价格门槛是很低的。对于小型团队来讲,这个价格门槛同样很低。假设每月存在需要转录100小时音频素材的情况,那么总花费仅仅只有36美元。36美元约合260元人民币。相较于雇佣人工转录员时每小时几十元甚至上百元的费用,MAI - 1的成本优势是非常明显的。

微软发布全球最准语音转文字模型,又快又便宜

已开放使用但暂缺实时转录功能

当下,MAI-1模型于微软Azure AI平台已然正式开启使用,用户能够径直登录Azure控制台,探寻到那个模型,进而着手启用API去实施语音转录。微软给出了完备的文档以及代码范例,开发者能够迅速将其融入自身的应用里。

但要留意哦,MAI - 1 的首个发布版本功能并非完备。它当下并不给予实时转录的支持,这表明使用者仅能够上传完整的音频文件去进行批量处理,而不像语音助手那般可以边讲边实现转录。此外呢,说话人分离功能也是欠缺的,没办法自动分辨不同人的对话,偏见调整功能同样暂时未曾予以提供。

后续更新将补齐三大缺失功能

微软已然清晰表明,打算于后续更新里慢慢给出实时转录,以及说话人分离,还有偏见调整能力。对于那些有必要区分会议里多人发言的用户来讲,说话人分离功能相当关键。举例而言,律师有着需整理多人证词的需求,记者存在要还原多人对话场景的情况。

具有偏见调整功能的话,能够助力模型更优地去适应格外特定的口音亦可或是专业术语。微软作出选择,于首发之际优先确保核心的准确率以及速度,接着将进阶功能放置于后续的版本当中。用户能够依据自身实际的需求,作出决定是不是当下立刻采纳MAI - 1,又或者是等待功能完整之后再进行升级并且使用。

适合哪些场景和用户群体

针对那些对转录精准度要求偏向于高、处理数量倾向多的用户场景而言,MAI - 1模型最为适配。举例来说,大型企业能够把它应用成内部会议记录自动化的工具 ,大学以及研究机构能够借助它去转录学术讲座以及访谈资料 ,自媒体团队能够凭借它迅速生成视频字幕以及文章草稿。

典型应用场景包含跨国公司的多语言会议记录,MAI-1具有能在所有支持的25种语言间保持一致高准确度的特性,无需为不同语言切换不同模型,每小时0.36美元的低价使得大规模部署具备可能性,促使企业可安心将大量历史音频资料批量转录成文字存档,具备如此这般情况。

以你的认知而言,那个MAI-1模型每小时收取0.36美元这样的定价是否具备合理性?基于对准确率更高的追求,你会不会从其他转录服务转而选用微软推出的这个新产品?期待你在评论区域分享出你的见解,同时也千万别忘记给其点赞,并且转发给有需求的友人。