CahtGPT o1 超过了平均人类博士水平

原文:https://www.qiulin-dev.top/articles/2812d9ce-5f1c-4ae0-8e8c-7194133865b5

参考:https://openai.com/index/learning-to-reason-with-llms/

CahtGPT o1 性能显著提升

OpenAI的o1模型是一个高性能的AI模型,主要在几个方面表现出色:

  1. 编程能力:在代码竞赛平台Codeforces的编程问题上,o1模型的表现达到了前11%的水平(位列第89百分位),这表明它在编程和算法挑战中的能力优于大多数人类竞争者,特别是在复杂的算法设计和代码实现方面表现突出。

  2. 数学竞赛表现:o1模型在美国数学奥林匹克入围赛(AIME)中排名前500,AIME是进入美国数学奥林匹克(USAMO)的资格赛。AIME难度较高,能够进入前500说明o1具备接近顶尖的数学推理和解题能力。

  3. 科学理解能力:在一项包含物理、生物和化学问题的标准测试(GPQA)中,o1模型的表现超过了平均人类博士水平,说明它在科学知识、推理和问题解决方面具有非常高的准确性。

这些结果表明,o1模型在各学科中的推理和解题能力较为均衡,具备较高的多学科通用性和强大的知识应用能力。不过,目前o1-preview版还处于早期测试阶段,因此仍在逐步优化用户体验和易用性,当前已开放给ChatGPT和部分受信任的API用户进行测试

测试结果

Dataset Metric gpt-4o o1-preview o1
Competition Math cons@64 13.4 56.7 83.3
AIME (2024) pass@1 9.3 44.6 74.4
Competition Code Elo 808 1,258 1,673
CodeForces Percentile 11.0 62.0 89.0
GPQA Diamond cons@64 56.1 78.3 78.0
pass@1 50.6 73.3 77.3
Biology cons@64 63.2 73.7 68.4
pass@1 61.6 65.9 69.2
Chemistry cons@64 43.0 60.2 65.6
pass@1 40.2 59.9 64.7
Physics cons@64 68.6 89.5 94.2
pass@1 59.5 89.4 92.8
MATH pass@1 60.3 85.5 94.8
MMLU pass@1 88.0 92.3 90.8
MMMU (val) pass@1 69.1 n/a 78.2
MathVista (testmini) pass@1 63.8 n/a 73.9

测试内容和结果的解读:

  1. 数学竞赛能力:AIME (American Invitational Mathematics Examination)
  • cons@64pass@1 是衡量模型准确率的指标。其中,cons@64表示模型在64次尝试中的综合一致性,pass@1 代表模型在首次尝试中的正确率。
  • o1的表现:在AIME 2024上,o1的 cons@64 达到83.3,pass@1 为74.4,说明o1在数学竞赛问题上具有强大的解题能力,比gpt-4o显著提升,这表明它在高难度数学竞赛中具备更高的可靠性和准确性。
  1. 编程竞赛能力:CodeForces
  • Elo:编程能力评级系统,数值越高表示在编程任务上的整体实力越强。
  • Percentile:模型在所有参赛者中的相对排名。
  • o1的表现:CodeForces的 Elo 为1673,排名在前89%,这表明o1模型在代码竞赛和算法挑战中的表现相当优越,与较为顶尖的程序员水平接近。而o1-preview的 Elo 为1258,排名62%,表明其有明显进步但还未达到o1的最终效果。
  1. 科学知识:GPQA、Biology、Chemistry、Physics
  • GPQA (Generalized Physics, Biology, Chemistry Questions Assessment):这是一个包含物理、生物和化学问题的基准测试,考察模型在科学领域的推理能力。
  • cons@64pass@1:指标如上解释,测试了在多学科问题上的答题一致性和准确性。
  • o1的表现:在物理和化学上,o1表现非常出色,cons@64 在物理问题上达到94.2,显示出其卓越的科学推理能力。其在生物和化学方面的表现略逊于物理,但仍然明显优于gpt-4o,表明其在科学应用上的可靠性较高。
  1. 数学和语言能力:MATH, MMLU, MMMU, MathVista
  • MATH:考察数学解决问题的能力,pass@1值的提升显示o1模型在一般数学问题上的准确性(94.8)非常高。
  • MMLU (Massive Multitask Language Understanding):测量模型在语言理解方面的能力,o1的pass@1为90.8,表示该模型在多任务语言理解上较为稳健。
  • MMMU和MathVista:则是语言和数学混合能力的验证数据集,MathVista主要用于数学推理能力的检验。o1的 pass@1 为78.2和73.9,表现优于gpt-4o,说明o1在特定的数学语言理解和推理任务上具备强大的应用潜力。