GPT 4号又进化了!
用一个简单的方法,像GPT-4这样的大型语言模型可以学会自我反思,性能可以直接提升30% 。
在此之前,大语模答错了,往往什么都不说,直接先道歉,然后emmmmmm,继续猜。
现在,不会这样了。随着新方法的加入,GPT-4不仅会反思自己错在哪里,还会给出改进策略。
比如,它会自动分析为什么“在循环中”:
或者反思你有缺陷的搜索策略:
这是东北大学和麻省理工学院最新发表的论文中的方法:Reflexion。
它不仅适用于GPT-4,也适用于其他大型语言模型,使它们能够学习人类特有的反思能力。
目前论文已发表在预印本平台arxiv上。
这直接让网友大呼“AI进化的速度已经超过了我们的适应能力,我们要被毁灭了。”
有网友甚至向开发商发出了“饭碗警告”:
利用双重奖励机制实现反思
正如网友所说,Reflexion赋予了GPT-4反思的能力,与人类的思维过程相似:
可以简单总结为两个字:反馈。
在这个反馈过程中,可以分为三个主要步骤:
1.评估:测试当前生成的答案的准确性。
2,自我反思的产生:错误识别——实现修正
3.执行迭代反馈循环。
在第一次评测过程中,首先要体验的是LLM(大语言模型)自评。
也就是说,LLM在没有外界反馈的情况下,首先要反思答案本身。
那怎么反省自己呢?
研究小组使用了二元奖励机制来为LLM在当前状态下执行的操作赋值:
我们之所以用二进制而不用多值或连续输出,与缺乏外部输入有关。
如果你想在没有外界反馈的情况下反思自己,就必须把答案限定在一个二元状态。只有这样,才能迫使LLM做出有意义的推论。
自我评估后,如果二进制奖励机制的输出为1,则不会启动自我反思装置,如果为0,LLM将启动反思模式。
在反思的过程中,模型会触发一个启发函数H(如下图)。相对于人类的思维过程,H起着监督的作用。
但是LLM和人的思维一样,在反思的过程中也有局限性,这可以体现在函数中的ω和ε上。
ω表示重复连续动作的次数,这个值一般设置为3,表示在反思的过程中,一个步骤重复三次,就直接跳到下一步。
ε表示反射过程中允许的最大操作次数。
因为有监督,所以也必须进行校正。校正过程的功能如下:
其中,自反射模型通过“特定域的失效轨迹和理想反射对”进行训练,不允许访问数据集中给定问题的特定域解。
这样LLM才能在反思的过程中产生更多“创新”的东西。
反思后性能提升近30%。
既然LLM如GPT-4可以自我反省,具体效果如何?
研究小组在ALFWorld和HotpotQA基准上评估了这种方法。
在HotpotQA的100个问答对的测试中,使用Reflexion的LLM显示出了巨大的优势,经过几轮的反思和反复提问,LLM的性能提高了近30%。
而不是使用Reflexion,反复问答后性能没有变化。
在HotpotQA的134个问答对的测试中可以看出,在反射的加持下,LLM经过几轮反射后准确率一度达到了百分之九十七。
在另一篇博客中,团队成员还展示了他们的方法在GPT-4上的效果,测试范围是编写代码。
结果也很明显。有了Reflexion,GPT-4的编程能力直接提升了21%。
你已经“想到”了GPT 4号。(黄)你怎么看?(乐)你怎么看(马)?
纸张地址:
https://arxiv.org/abs/2303.11366
参考链接:
[1]https://nano thoughts . substack . com/p/reflecting-on-reflection
[2]https://www . Reddit . com/r/machine learning/comments/1215 dbl/r _ reflexion _ an _ autonomous _ agent _ with _ dynamic/