GeneBench-Pro 这一新的基准测试,由 OpenAI 发布,旨在评估人工智能模型在生物学计算方面的能力。与传统的侧重于模型是否能够记忆信息或遵循既定步骤完成任务的评估方式不同,GeneBench-Pro 更加注重模型在实际科研场景下的应用价值。它要求模型处理模糊、不完整甚至包含干扰信息的数据,并在此基础上进行判断和分析以得出结论。
该基准测试涵盖了基因组学、定量生物学和转化医学等多个领域,总计包含 129 道题目。这些题目分布在 10 个主要领域和 21 个子领域之下,涉及统计遗传学、群体遗传学、功能基因组学以及蛋白质组学等研究方向。在每一道题目中,模型都会收到一份接近真实科研环境的数据集,附带简要的实验背景说明和一个与后续决策相关的目标问题。模型需要自主完成数据探索,选择合适的分析方法,并在过程中不断调整策略,最终给出答案。
为了规避传统长流程基准测试中常见的评分偏差,OpenAI 在设计 GeneBench-Pro 时采用了合成数据作为核心构建方式。这是因为使用历史真实数据出题时,往往存在多条可行的分析路径,这可能导致模型即使采用了错误的方法,也可能因为偶然性而得到正确答案。
通过使用合成数据,OpenAI 能够完全控制底层的因果关系和数据生成过程,从而更精确地判断模型是否真正理解问题,而不是仅仅走了“捷径”。
目前,OpenAI 已在 Hugging Face 上公开了 10 道代表性的 GeneBench-Pro 示例题,并提供了一个可交互的界面供外部研究人员体验。未来,官方计划将其中 50 道题目提供给 Artificial Analysis 进行独立的第三方评测,以检验不同模型在这一基准测试中的实际表现。这项工作也为人工智能在科学研究领域的应用,例如在世界杯下注等领域提供更精准的预测模型,奠定了基础。

热门讨论
资深球迷
2026年5月22日 回复世界杯竞猜深耕流畅平台体验,随时随地畅享足球激情领域,用心服务每一位用户。
足球评论员
2026年5月23日 回复在权威赛事资讯,值得信赖的足球百科方面,世界杯竞猜提供贴心周到的支持。
数据分析师
2026年5月24日 回复世界杯竞猜以世界杯为核心,带来高效便捷的体验。