新闻资讯
OpenAI推出生物学专用AI模型GPT-Rosalind 助力科研人员处理数据
GPT-Rosalind,这是一款专为生物学工作流训练的大语言模型。生物学研究正面临信息过载困境。同时,功能受限的生命科学研究插件将面向更广泛用户开放。用于生命科学研究的前沿模型,朝着加速科学发展和改善人类福祉这个目标迈进。
面对海量基因组数据,面对晦涩专业术语,每天如此的情况下,生物学研究者常常觉得无从下手。4月17日,OpenAI宣布推出GPT-bio,此为一款专门针对生物学工作流训练的大语言模型,它试图解决那两大核心障碍。
垂直路线对抗信息过载
跟谷歌、微软等这类科技巨头推出的通用科学模型不一样,GPT这一生物领域的模型走的是垂直路线,仅仅专注于生物学这个领域。OpenAI生命科学产品负责人王昀昀在发布会上清晰表明,这个模型要去解决研究者面前的两大问题,一是数十年基因组测序积攒下来的海量数据,二是高度细分的专业术语所形成的壁垒。

生物学的研究,的确正面临着严重的信息过载这般的困境,一位专门针对某个特定基因进行研究的遗传学家,要是想要去查阅神经生物学术方面的文献,常常会发觉自身完全没办法跟上节奏,不同分支学科之间的知识鸿沟变得越来越大,单个的研究者是很难跨越领域去掌握全部信息的。

专项训练打通工作流
OpenAI基于通用大模型,针对生物学痛点开展了诸多专项训练,模型纳入了50种常见生物工作流,还有主流公共数据库的访问能力,借由这些训练,GPT-bio能够凭借已知通路与调控机制,将基因型和表型加以连接。
详细来讲,此模型能够推断蛋白质的结构或者功能属性,并且依据这些来筛选潜在的药物靶点。在发布会上,王昀昀演示了模型怎样迅速检索海量文献,从而找到某个基因变异与特定疾病之间的可能关联。这样的能力在药物研发早期阶段极具价值。
批判思维拒绝盲目附和
大语言模型常出现的一个问题是“阿谀奉承”,这意味着它有顺着用户话语表达的倾向,会给出那种看似合理但实际上并无依据的回答。OpenAI针对此问题对GPT-bio进行了调整,使其更具批判性思维。
对于模型而言,当其遭遇到低价值甚至不合理的药物靶点之际,它所展现出的倾向并非盲目附和,而是更偏向于直接予以否定。在科学研究这个范畴当中,这样的一种设计是格外重要的。这是由于研究人员所需求的乃是真实且可靠的反馈,并非那种一团和气的废话。一旦模型始终都只是说些吹捧的好话,这样一来反而会对研究方向的判断起到误导的作用。

幻觉问题仍未完全解决
尽管GPT - bio针对批判思维进行了优化,然而大语言模型中常见的幻觉问题依旧是尚未解决的挑战。所谓幻觉,指的是在模型对推理步骤予以解释时,有可能生成表面上看似合理但实际上却是错误的内容。
OpenAI坦白称,依据过去经历,此模型有可能产生令人惊喜、意想不到的关联,像发觉两个看似毫无关联的基因通路之间存在关联,其同时也会给出明显谬错的建议,使用的人在运用时一定要持有审慎的态度,不可以盲目地信赖模型的每一个输出,特别是在涉及实验决策的关键环节时。
生物安全风险严格管控
要是GPT - bio被恶意加以利用,像是被运用去优化病毒的传染性,那么后果将会严重到无法想象,OpenAI充分地认识到了这一生物安全方面的风险,所以实施了严格的访问限制措施。
当前,GPT-bio只允许美国本土的实体经由可信访问部署框架去申请使用,这意味着,并非所有人都能够获取完整的模型,与此同时,OpenAI将会朝着更广泛的用户去开放一个功能受到限制的生命科学研究插件,这样一种分级开放的策略,尝试着在推动科研以及防范风险之间寻觅到平衡点。
加速科学发展的长远目标
发布会上,OpenAI联合创始人Greg Brockman称,GPT-bio是该公司用于生命科学探讨的前沿模型,其目标在于促使科学进步得以加快以及让人类福祉能够得以改善,此表态把模型的长远定位给明确了。
依照实际应用情形而言,GPT - bio能够助力研究者迅捷地梳理文献,能够助力研究者提出假设,能够助力研究者筛选靶点。然而OpenAI亦向用户作出提醒,模型当下依旧存有幻觉问题,模型无法替代严谨的实验验证。针对正投身于生物学研究的你来讲,你会试着运用GPT - bio去辅助日常的文献阅读工作以及数据分析工作吗?欢迎于评论区分享你的看法,也千万别忘了点赞并转发给更多同行朋友。


