AI资讯

葡萄牙首发葡语开源大模型AMALIA,9B参数懂图文声

智能摘要

正式发布。等算力基础设施。万欧元的追加投资。

开源大模型为何选定葡萄牙语

今年7月1日, 葡萄牙政府正式发布首个基于欧洲葡萄牙语的开源大语言模型, 该项目由60多位研究人员于18个月前启动, 先期投资550万欧元, 该模型利用约4万亿个葡语单词训练出9B规模版本, 之所以选择葡萄牙语作为开发重点, 是因为葡萄牙语全球使用者超过2.6亿人, 然而此前缺乏高质量的开源大模型, 这个国家战略项目旨在填补这一空白, 并且推动本国人工智能技术自主可控。

九亿参数模型如何炼成

葡萄牙首发葡语开源大模型AMALIA,9B参数懂图文声

在模型开发的首个阶段, 借助4万亿个葡语单词训练出规模达9B参数, 研究人员动用了诸如Lumi和MareNostrum5等算力基础设施, 这些超算资源源于欧洲多国合作, 每秒能处理数百万次计算任务, 团队在18个月内完成了数据清洗、模型训练以及优化的整个流程, 这个9B模型尽管参数规模并非最大, 却针对葡语语法与表达习惯做了深度优化。

多模态能力实现文本图像声音理解

往后的多模态升级, 使得这个模型拥有了理解文本的能力, 拥有了理解图像的能力, 拥有了理解声音的能力。这表明用户不但能够用葡语文字来提问, 而且还能够上传图片来进行分析, 而且还能够上传音频文件来进行分析。模型能够识别图片之中的物体, 可以识别图片之中的场景, 可以识别图片之中的人物。在声音方面, 支持葡语语音识别, 支持葡语语音理解。这种多模态能力对于葡语国家的教育场景, 对于葡语国家的医疗场景, 对于葡语国家的文化保护场景, 具有重要实用价值。

追加投资瞄准22B版本和智能体

计划在今年内推出22B版本, 还要获得智能体能力, 而这得追加150万欧元投资, 智能体能力指模型能自主执行多步骤任务, 像预订机票、整理文档或者管理日程, 22B版本会大幅提升复杂推理和生成质量, 这笔追加投资用于购买更多计算资源还有扩充训练数据集, 葡萄牙政府期望这个版本在商业应用领域占得一席之地。

学术机构合作开发凸显国家战略

60余位来自葡萄牙多家学术机构的研究人员, 共同参与了这个国家级项目, 项目协调方是葡萄牙科学技术基金会, 研究团队牵涉到里斯本大学、也关联着波尔图大学、还包含着科英布拉大学等顶尖高校, 这种产学研联姻的模式保证了研究成果能够迅速落地, 政府把该项目当作提升国家数字竞争力的关键举措, 未来模型开放以后, 任何企业以及开发者都能够免费使用并修改。

开源模式对全球葡语社区意义

开源特性表明, 全球范围内讲葡萄牙语的使用者, 均能够参与到模型的改进以及应用开发当中, 当下, 巴西、安哥拉、莫桑比克等葡语国家, 存在着大量潜在用户, 开源社区能够贡献出更多训练数据以及场景案例, 企业不用支付高昂的授权费用,便可以部署模型, 这样的模式, 降低了人工智能应用的门槛, 特别是对于发展中国家的葡语用户而言, 更为友好, 预计在未来一年之内, 会有超过100个, 基于该模型的应用上线。

你身处的国度或者地区有没有属于自身的语言大模型? 要是有的话, 你晓得它运用了多少参数以及投入的资金数额? 都欢迎在评论区域留下话语分享咱们的发现, 点赞并且转发这篇文章让更多人去知晓这个葡萄牙语的具有里程碑意义的项目。

相关文章