爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题 - 综合 -

当前位置:首页  >  综合  > 正文

爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题

爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
2023-06-19 11:14:27 来源:机器之心

这两天,一篇关于 GPT-4 满分通过 MIT EECS 和数学本科考试的论文在推特上疯传。

论文地址:https://arxiv.org/pdf/2306.08997.pdf


(资料图片仅供参考)

简单概括,一个来自 MIT 的研究团队从自己学校的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包含 4550 个问题和解决方案的综合数据集。

然后,研究团队让各种大语言模型去完成这个数据集的题目,结果太吓人:GPT-3.5 能做对 1/3,GPT-4 几乎满分通过。

论文作者表示,提升模型表现主要靠「四件套」:Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示,加持 GPT-4 的手法越多,模型的答题正确率就越高。原始的 GPT-4 本来就能拿到 90% 的正确率得分,一番运作之后,甚至直接拿到满分。

但大部分讨论得很激烈的网友可能没注意到,这个分数本身就是用 GPT-4 打的……

三位同样来自 MIT 的学生第一时间发现了这篇论文,作为险些被 GPT-4 赶超的群体,他们想立即领会一下爆款论文的方法论。

研究了一小时后,他们对该论文的方法产生了怀疑。

两小时后,他们意识到:数据集本身有问题。

尽管原论文的作者宣称已手动审查了发布的数据集质量,但三人发现,有明显的迹象表明,测试数据集的很大一部分被污染了。

也就是说,模型就像一个学生在考试前被告知了答案,这是赤裸裸的「作弊」。

产生质疑后,他们立即着手在数据集上完成了零样本 GPT-4 的运行,并对数据的前 30% 进行了手动评分,结果与原论文相差甚远,应该说是一个天上、一个地下。

「作为麻省理工学院的本科生,至少根据我们的经验,这个测试集并不能准确地代表在麻省理工学院获得 EECS 学位所需的理解广度和深度。」三人在博客中这么写道。

最新进展:零样本 GPT-4 的准确率能达到 62.5% 了,但还是和论文里宣称的 90% 差很多。

三人还质疑了「过度宣传」的风潮:「这些论文通常在任何合法的同行评审之前就被上传到 Arxiv,并在 Twitter 上广泛分享。在这种情况下,可能会传播不良信息,并为未来的工作树立一个糟糕的先例。」

「深度学习」斗士 Gary Marcus 也不出意料地声援了这波质疑:

同时,三人也在博客中指出一点:《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》论文上列出的几个作者都是本科生研究人员,让这些人对工作中出现的任何失误负责是不合适的。相反,责任应该在指导作者身上 —— 他们才是被期望确保工作符合其领域内公共学术标准的人。

接下来让我们看下,这篇「爆火」论文都有哪些问题。

数据集到底有什么问题?

首先,从原论文中得知,研究者收集的数据集包含获得 MIT 学位考试所需的 30 门数学和 EECS 课程的 4550 个问题和相应的解决方案,涵盖核心课程和选修课程。

论文中写道:「在没有图像和有解决方案的问题中随机选择了 288 个问题的测试集。」

这个数据集(不包括用于微调开源 LLM 的训练集)随着论文的公开也被发布到 GitHub 上,同时发布的还有用于生成报告的测试性能的代码。然而,作者 Drori 教授在最近的一次提交中已经将其删除。

经过检查、对比,三人确信这个被删掉的文件代表了论文中分析的测试集,因为评估代码中的所有数据的文件路径都指向它,没有提供任何修改其内容的代码,而且它在最初发布的 GitHub 仓库中是可用的。此外,该文件满足了论文中规定的所有模式要求(行数等)。这些证据似乎非常有力地支持了下面的所有主张,

「但我们要承认,这个文件有可能被换成了一个用于测试的不同文件。如果是这样的话,我们认为证明的责任在于作者公开发布这个数据和用它做的所有分析。」

那么,被掩盖的问题究竟是什么呢?三人给出了自己的分析。

无法解决的问题(约占测试集的 4%)

鉴于原论文表示,任何形式的 GPT-4 都能在测试集上产生一个完美的分数,三人开始检查个别数据点。他们很快就发现,根本不可能有满分,因为数据集中至少有 10 个问题是无法用所提供的信息解决的,另外几个问题在这种情况下根本就不是有效的问题。

像这种「有问题的问题」,至少占据了测试集的 4%。

在一个扩展的 excel 文档里,三人对已经发现有问题的数据集例子进行了注释。「红色」代表用提供的信息无法解决的问题,「黄色」代表一部分不太合理的问题。

页面地址:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重复的问题(约占测试集的 5%)

使用文本相似性检测,三人发现有 14 个问题(7 对)在 288 个问题的测试集中是重复的,在这些情况下,问题串之间的唯一区别是极小的字符级噪音,甚至完全相同。

鉴于这些无法解决的问题,GPT-4 能够通过任何方式获得 100% 的准确率,也是难以置信。要么是在某个阶段出现了答案泄漏到 prompt 中,要么是问题没有被正确打分。

这些初步的发现促使他们从少样本示例开始进一步调查(如果模型在零样本正确率方面失败的话),最终发现,既有解题信息的泄露,也有用于对模型输出进行分级的方法问题。具体情况如下:

少样本示例中的信息泄露

值得注意的是,原论文中还提到了「少样本示例」这个事。

简而言之,论文对 OpenAI 嵌入的数据集内的类似问题进行余弦相似度搜索,并将这些问题和解决方案作为额外的上下文纳入模型的 prompt,帮助模型解决问题。

这个方法本身是没问题的,只要这些示例与有关问题有足够的差异,且避免暴露不公平的信息。

只是随机扫描已发布的测试数据集时,三人注意到一些奇怪的事情:许多提供给模型的「少样本示例」与问题本身几乎一字不差。

为了进一步了解这一点,他们写了一个简单的脚本,查看了所提供的几个示例的问题陈述和所列出的问题之间的重叠情况,并绘出了直方图:

许多提供的少样本与问题本身几乎相同,这意味着模型得到的是问题的答案或与问题非常相似的问题。通常情况下,这来自于大量的共享背景的多环节问题的重复。

他们认为,为了正确评估 GPT 的解题能力,多环节问题的其他部分应该被完全排除在某一问题的少样本示例之外。事实上,他们发现这些多环节问题的解决方案,往往直接提到或给出了模型被要求解决的另一部分问题的答案。

不仅如此,在对这些数据的挖掘中,他们还发现了整个问题被重复的样本。比如:

在这两种情况下,答案是完全相同的。很难说不算信息泄漏了。

GPT-4 自动打分,有问题

此外,三人还在原论文开源的打分机制中发现了问题:

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):    df = pd.read_csv(input_path)    df = df.iloc[most_recent_q:]    for index, row in df.iterrows():        print("Completing question", index)        question_output = row.values.tolist()        course_name = row["Course Name"]        question = row["Question"]        solution = row["Solution"]        fs_qs = [[row["Few shot question 1"], row["Few shot solution 1"]], [row["Few shot question 2"], row["Few shot solution 2"]], [row["Few shot question 3"], row["Few shot solution 3"]]]        experts = get_experts(course_name, question, num_experts).split(", ")        prompts = [lambda expert: zero_shot_response(question, expert),                    lambda expert: few_shot_response(expert, question, fs_qs),                    lambda expert: few_shot_response(expert, question, fs_qs, True)        ]        critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]        for expert in experts:            print("Using expert", expert)            question_output.append(expert)            crit = True            for prompt in prompts:                prompt_response = prompt(expert) # calls fresh ChatCompletion.create                prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution                question_output+=[prompt_response, prompt_grade]                if correct(prompt_grade):                    crit = False                    break            if crit:                for critique in critiques:                    crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # calls fresh ChatCompletion.create                    crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 auto-grading comparing answer to solution                    question_output+=[crit_response,crit_grade]                    if correct(crit_grade):                        breakrepeat_grading("MIT_test_set.csv", "MIT_test_set_graded.csv")

在代码中,能看出流程上处理分级存在严重的问题:论文是用 GPT-4 去评估检查的,包括 a)原始问题,b)解决方案,c)GPT 自己的答案,作为分级 prompt 中的参数。

在更多的技术领域,GPT 更有可能出现隐性误解,这种自动评分更有可能出现「自我欺骗」的结果。

此外,虽然 prompt 级联是最近许多 GPT 论文中常见的技术,但这里有大量数据泄漏的可能性。每一级不仅提供基于 ground truth 的二元信息,而且还在继续 prompt,直到达到正确答案。

尽管这些创建的 prompt 并没有看到实际的答案,但重新 prompt 直到达到正确答案的形式已经足够了,尤其是在占测试集 16% 的多选题中,无限次的尝试(几乎)保证了正确答案一定会出现。

这就好比有人拿着答题纸,告诉正在考试的学生答得对不对,一直提示到学生得到正确答案。

总结

在博客的最后,三位这样写道:

这篇论文道出了最近人工智能领域研究的一个更大趋势。随着该领域的进展越来越快,新发现的时间节奏似乎在缩短,这往往伴随着捷径。一个特别令人担忧的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。

虽然是一个有用的工具,但它的结论绝不应该被夸大,也不应该被当作 ground truth。最近的工作表明,如果没有准确的 ground truth 信息,GPT-4 评估器就不能可靠地用于验证。至少,应该选择一个随机的数据集子集,将 GPT-4 的性能与人类的评估进行比较。语言模型还不能被当作产生 ground truth 的神谕。

此外,在使用数据之前,无论是用于训练、推理、基准测试还是其他方面,重新评估每一个数据点并进行基本的检查是极其重要的。鉴于有关数据集的规模较小,简单的人工验证很容易在工作范围内完成。

我们的批评主要是针对这项研究的方法和严谨性,而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见,只是认为本文未能以科学严谨的方式证明这一点。

标签:

(责任编辑:news01)
口腔医学技术可以考哪些大学 口腔医学技术学校排名

口腔医学技术可以考哪些大学 口腔医学技术学校排名

口腔医学技术专业的高校排名1、四川大学2、武汉大学3、上海交通大学医
06-17 05:02:48
环球视讯!最火顶流却不是人?麦当劳、汉堡王、雀巢都请它代言

环球视讯!最火顶流却不是人?麦当劳、汉堡王、雀巢都请它代言

同为快餐界的巨头,麦当劳和汉堡王「相爱相杀」的例子可太多了。60多年
06-17 02:58:48
双面打印怎么放纸惠普(双面打印怎么放纸) 聚看点

双面打印怎么放纸惠普(双面打印怎么放纸) 聚看点

导读1、点击桌面左下角的搜索框搜索控制面板,然后点击打开。2、2、进
06-17 01:10:41
世界信息:腰疼的直不起腰是什么原因_腰疼直不起腰是什么原因引起的

世界信息:腰疼的直不起腰是什么原因_腰疼直不起腰是什么原因引起的

1、指导意见:你好,扭伤,尿路感染,结石。2、肾炎等都会导致腰痛,需
06-16 23:54:31
【报资讯】酱肉怎么蒸最好吃_酱肉蒸多久时间

【报资讯】酱肉怎么蒸最好吃_酱肉蒸多久时间

酱肉蒸20分钟即可。酱肉蒸的时间长短与酱肉的厚度有关,一般酱肉切薄片
06-16 22:55:10
aj4鞋带怎么绑到侧边_aj4鞋带怎么绑

aj4鞋带怎么绑到侧边_aj4鞋带怎么绑

你们好,最近小活发现有诸多的小伙伴们对于aj4鞋带怎么绑到侧边,aj4鞋
06-16 22:01:36
即时焦点:中金公司(03908)股东海尔金盈累计减持 5232.72万股A股 减持数量已过半

即时焦点:中金公司(03908)股东海尔金盈累计减持 5232.72万股A股 减持数量已过半

中金公司(03908)公布股东减持股份进展,2023年5月12日至20
06-16 21:55:50
中国交建(601800.SH):附属公司拟6801.55万美元投资开发亚的斯未来项目(一期)

中国交建(601800.SH):附属公司拟6801.55万美元投资开发亚的斯未来项目(一期)

格隆汇6月16日丨中国交建601800601800SH公布董事会同意公司附属中交一
06-16 20:46:21
传Rivian(RIVN.US)收购电动汽车路线规划公司ABRP

传Rivian(RIVN.US)收购电动汽车路线规划公司ABRP

亚汇网获悉,据报道,RiviaAutootiv(RIV U)将宣布收购电动汽车路线规划
06-16 20:32:33
新疆人大代表联络站:民众解忧“万事屋” 播报

新疆人大代表联络站:民众解忧“万事屋” 播报

武华齐在人大代表联络站与居民交流。喇小飞摄中新网新疆克州6月16日电(
06-16 20:13:14
[路演]八一钢铁:世界首座工业级富氢碳循环氧气高炉已建成投运|环球实时

[路演]八一钢铁:世界首座工业级富氢碳循环氧气高炉已建成投运|环球实时

6月16日下午,八一钢铁(600581)在全景网参加主题为“全面注册制改革
06-16 19:40:57
津市市生物制造(深圳)科创平台签约揭牌

津市市生物制造(深圳)科创平台签约揭牌

6月16日上午,津市市生物制造(深圳)科创平台签约仪式在深圳时代高科
06-16 19:08:13
穿越星际木系异能鱼之水_穿越星际之水系异能

穿越星际木系异能鱼之水_穿越星际之水系异能

1、破片之谜作者:坠空简介:一个神秘的碎片,掉落到了地球上,引发了
06-16 18:43:43
全球今头条!论语作者朝代(论语作者)

全球今头条!论语作者朝代(论语作者)

关于论语作者朝代,论语作者这个很多人还不知道,现在让我们一起来看看
06-16 18:15:35
壁挂炉水压2到3正常吗为什么_壁挂炉水压2到3正常吗

壁挂炉水压2到3正常吗为什么_壁挂炉水压2到3正常吗

一、壁挂炉水压2到3正常吗壁炉挂在正常工作时,水压基本控制在1-1 2Mpa
06-16 18:08:16
商家用华为汽车宣传问界M5被罚   商家用华为宣传问界M5被认定虚假广告 天天短讯

商家用华为汽车宣传问界M5被罚 商家用华为宣传问界M5被认定虚假广告 天天短讯

天眼查App显示,近日,平顶山合众汇赢汽车销售服务有限公司因发布虚假
06-16 17:54:15
环球聚焦:夸克发布2023年高考志愿报告:AI相关专业关注度上升最快

环球聚焦:夸克发布2023年高考志愿报告:AI相关专业关注度上升最快

6月14日下午,夸克发布基于夸克搜索及志愿表数据的《2023高考志愿报告
06-16 17:29:32
河北高阳举办首届武术散打比赛_每日聚焦

河北高阳举办首届武术散打比赛_每日聚焦

6月10日,河北省高阳县首届武术散打比赛在县人民公园举行,来自周边县
06-16 17:06:29
美团开展夏季骑手关怀活动 先期投入7亿元高温关怀金|全球快看点

美团开展夏季骑手关怀活动 先期投入7亿元高温关怀金|全球快看点

中国青年报客户端讯(中青报·中青网记者张均斌)随着各地陆续入夏,为
06-16 16:53:16
6月16日国内黄金期货涨0.1%_全球动态

6月16日国内黄金期货涨0.1%_全球动态

今日,上海期货交易所日间盘黄金期货合约震荡上行,成交活跃,持仓减少
06-16 16:22:12
前5个月审批核准固定资产总投资6672亿元 环球新视野

前5个月审批核准固定资产总投资6672亿元 环球新视野

央视网消息:国家发展改革委6月16日发布数据显示,5月份,全国规模以上
06-16 16:10:15
守住“老字号” 开拓“新赛道”

守住“老字号” 开拓“新赛道”

新华社广州6月14日电(记者陈凯星周科刘宏宇孙飞)提起广东佛山,武术
06-16 16:01:54
2022年国内发明专利授权量TOP10出炉:华为第一,OPPO、京东方上榜

2022年国内发明专利授权量TOP10出炉:华为第一,OPPO、京东方上榜

近日,国家知识产权局发布了《2022年度报告》,其中提到,2022年,授权
06-16 15:21:03
全球快讯:【星岛热评】医疗失误一宗嫌多,低级错误不容犯

全球快讯:【星岛热评】医疗失误一宗嫌多,低级错误不容犯

​威尔斯亲王医院发生医疗失误事件,一名早产婴儿需输注强心药,但输注
06-16 15:09:14
还海还岸还景于民  大连长兴岛清理海域近2万亩 全球快播报

还海还岸还景于民 大连长兴岛清理海域近2万亩 全球快播报

央广网大连6月16日消息(记者王松)5月24日大连市全面开展非法违规占用
06-16 14:36:26
江南百景图桃花坞宝箱(桃花坞宝箱位置一览)-天天热闻

江南百景图桃花坞宝箱(桃花坞宝箱位置一览)-天天热闻

1、希望下面的江南苏州探险宝箱百景图能帮到大家。感兴趣的朋友来和边
06-16 14:06:36
通讯!N- 甲基吡咯烷酮商品报价动态(2023-06-16)

通讯!N- 甲基吡咯烷酮商品报价动态(2023-06-16)

交易商品牌 产地交货地最新报价N-甲基吡咯烷酮 99 9%潍坊义信化工有限
06-16 13:53:38
未定事件簿BW2023参展决定 未定事件簿BW2023参展活动介绍|环球时快讯

未定事件簿BW2023参展决定 未定事件簿BW2023参展活动介绍|环球时快讯

未定事件簿今天正式确认将参加BW2023大家知道此次参展活动的具体信息吗
06-16 13:17:43
京东618推出华硕战杀27显示器20周年礼盒 华硕高管为用户送货上门-环球速看料

京东618推出华硕战杀27显示器20周年礼盒 华硕高管为用户送货上门-环球速看料

“有了它,再也不用担心‘打野’被抓”。最近,住在上海宝园六路的肖先
06-16 12:42:28
热点!竞拍155轮 建发8.41亿摘得龙岩首个“第四代住宅”地块

热点!竞拍155轮 建发8.41亿摘得龙岩首个“第四代住宅”地块

观点网讯:6月16日,福建省龙岩市第二场土拍登场,推出2023拍-6地块,
06-16 12:39:10

为您推荐

精彩推送