OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度

首页 > 科技

OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度

来源:幽默段子 发布时间:2023-06-01 13:56

OpenAI要为GPT-4解决数学题目了:奖励模型指错,解题水平达到新高度

机器之心报道

机器之心编辑部

对于具有挑战性的 step-by-step 数学推理题目,是在每一步给予奖励仍是在最后给予单个奖励更有效呢?OpenAI 的最新研究给出了他们的谜底。

现在,大语言模型迎来了「无所不能」的时代,其中在执行复杂多步推理方面的能力也有了很大进步。不外,即使是最进步前辈的大模型也会产生逻辑错误,通常称为幻觉。因此,减轻幻觉是构建对齐 AGI 的枢纽一步。

为了练习更可靠的模型,目前可以选择两种不同的方法来练习奖励模型,一种是结果监视,另一种是过程监视。结果监视奖励模型(ORMs)仅使用模型思维链的终极结果来练习,而过程监视奖励模型(PRMs)则接受思维链中每个步骤的奖励。

考虑到练习可靠模型的重要性以及人工反馈的高本钱,仔细比较结果监视与过程监视非常重要。固然最近的工作已经开展了这种比较,但仍旧存在许多题目。

在本文中,OpenAI 进行了调研,结果发现在练习模型解决 MATH 数据集的题目时,过程监视明显优于结果监视。OpenAI 使用自己的 PRM 模型解决了 MATH 测试集中代表性子集的 78% 的题目。

此外为了支持相关研究,OpenAI 还开源了 PRM800K,它是一个包含 800K 个步级人类反馈标签的完整数据集,用于练习它们的最佳奖励模型。

如下为一个真正(True positive)的问答示例。该题目以及 OpenAI 列举的其他题目示例均来自 GPT-4。这个具有挑战性的三角学题目需要并不显著地连续应用多个恒等式。大多数解决方案尝试都失败了,由于很难知道哪些恒等式实际上有用。尽管 GPT-4 通常无法解决这个题目(正确率仅为 0.1% ),但本文的奖励模型准确地识别出了这个解决方案是有效的。

再看一个假正(False positive)的问答示例。在第四步中,GPT-4 错误地声称该序列每 12 个项重复一次,而实际上是每 10 个项重复一次。这种计数错误偶然会愚弄奖励模型。

论文作者之一、OpenAI Alignment 团队负责人 Jan Leike 表示,「使用 LLM 做数学题的真正有趣结果是:监视每一步比只检查谜底更有效。」

英伟达 AI 科学家 Jim Fan 以为,「这篇论文的观点很简朴:对于挑战性的逐步题目,要在每一步给予奖励,而不要在最后给予单个奖励。从根本上来说,密集奖励信号>稀疏。」

我们接下来细看 OpenAI 这篇论文的方法和结果。

上一篇:常进京美容的... 下一篇:积分兑换礼品...
猜你喜欢
热门阅读
同类推荐