近日,OpenAI再次陷入了舆论风波。
事件源于 LessWrong论坛上的一则爆料。一位名为“Meemi”的 Epoch AI承包商透露,OpenAI不仅为 FrontierMath基准测试提供资金支持,还获得了测试题库的特权访问权。(下图)
而这或许也是 o3的成绩在短时间内获得极大提高的重要原因。但这个信息直到去年12月20日 o3发布时,才由 Epoch AI对外公布。
消息一出,瞬间在 AI圈引起轩然大波,因为这很难不让网友怀疑 OpenAI是既当裁判,也当选手。
吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。
去年12月,OpenAI正式发布了新一代号称突破 AI极限的 o3模型。
在其中一项名为 FrontierMath的 AI数学基准测试(成绩单)中,OpenAI以25.2%的准确率遥遥领先,远超 GPT-4和 Gemini等模型不足2%的成绩。
FrontierMath是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI联手60多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。
该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。
2006年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath的问题“极其具有挑战性”,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。
本表明 o3在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI副主任兼联合创始人之一 Tamay Besiroglu很快在 X平台承认了此事。
我们犯了一个错误,没有更早披露 OpenAI在 FrontierMath中的参与。我们的合同在 o3发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。
事态进一步发酵,斯坦福大学数学博士生 Carina Hong声称,在 Epoch AI的安排下,OpenAI拥有对 FrontierMath的特权访问权。
“对 FrontierMath基准测试做出重大贡献的六位数学家向我证实,他们并不知道 OpenAI会独占该基准测试的访问权限,而其他人无法获得,多数人表示,如果他们事先知情,可能不会选择参与。”
面对质疑声浪,Tamay Besiroglu也通过博客表达歉意,承诺将在未来采用更高的透明度标准。
博客强调 OpenAI的资金支持仅限于 FrontierMath的开发,并未干预测试内容,同时声明所有数据和问题均来自独立贡献者并经过独立专家审核。
关于训练使用:我们承认 OpenAI确实可以访问大部分 FrontierMath问题和解决方案,但不包括 OpenAI无法访问的保留集,这使我们能够独立验证模型功能。此外,我们有一个口头协议,这些材料不会用于模型训练。
相关 OpenAI员工的公开沟通将 FrontierMath描述为“严格保留”的评估集。虽然这种公开立场与我们的理解一致,但我还要进一步强调,实验室从拥有真正未受污染的数据集中获益匪浅。
OpenAI也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。
[编辑:澄清了 OpenAI的数据访问–他们无权访问作为独立验证额外保护措施的单独保留集。]
Epoch AI的首席数学家 Elliot Glazer承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。
关于 o3成绩,他表示相信 OpenAI报告的分数准确性,但强调 Epoch AI需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。
当被质疑保留集状态时,Glazer澄清这个测试集仍在开发中,而不是已经完成。
但这些解释并未能平息事件的争议,更多批评风浪涌向 Epoch AI以及身处舆论漩涡的 OpenAI。
计算机科学家 Subbarao Kambhampati表示,他此前就对 OpenAI声称未预先接触奥林匹克数学和 FrontierMath数据的说法持怀疑态度。在他看来,OpenAI禁止相关方披露协议内容的做法本身就极具可疑性。
知名 AI专家 Gary Marcus对此事件提出了猛烈的批评。
他将 OpenAI的 o3演示描述为一场“绝望的、操纵的、误导性的、科学上粗制滥造的展示”,认为这更像是一次过度炒作而非真实突破。
一个生动的打比方是,如果有人提前获得了试题和答案,而其他人只能靠实力应考,这样的比较显然缺乏公平性。OpenAI不仅获得了问题和解决方案的访问权,而其他竞争对手如 xai、DeepMind以及学术团队却无法获得相同资源。
更重要的是,Gary Marcus认为 OpenAI对这一关键背景事实只字未提。
并且在展示过程中,OpenAI选择性地隐藏了关键信息,既未公布在具体问题上的成功与失败案例,也没有提供相应的推理过程记录,更未说明哪些问题出现在训练集中。同时,他们也没有允许 Epoch对保留测试集进行验证。
而回归到这场愈演愈烈的风波,很大程度上源于网友们对 OpenAI无休止炒作的厌倦。疑似“刷榜”的行为,也再次触及了许多网友敏感的神经。
就在舆论持续发酵之际,OpenAI又宣布其“Operator”项目取得突破,CEO Altman预计将于1月30日向美国政府进行闭门简报。
据悉,“Operator”是 OpenAI开发的一种具有博士级别能力的自主 AI智能体,能够在浏览器中独立执行任务,比如编写代码、预订旅行、管理日程等。
当然,在这个节骨眼上,或许最好的危机公关策略就是立即发布 o3。而这也是最好的过年礼物。
截至发稿前,OpenAI尚未进一步作出声明。