微软154页研究论文刷屏，对GPT-4最全测试曝光，称其初次叩开AGI的大门

2019年，微软以10亿美元入股OpenAI，两者开始了长达数年的合作。

当时两次公开的合作内容包括，微软和OpenAI将共同开发一种新的Azure AI超级计算技术，OpenAI也将把自己的服务转移到Azure，最终目标是攻击人工通用智能(AGI)技术。

简单总结一下，微软和OpenAI联手，也被外界解读为“AGI研究，暗中争夺谷歌市场”。

几年后，当OpenAI带着ChatGPT和GPT-4的王者归来，微软率先利用这些技术添加新的Bing、Office family bucket、Azure等服务和产品时，毫无疑问，它的进步早已超越了Google，并且还在加快融入Bard模式的整体步伐。

所以从好的方面来看，AGI的进步去了哪里？

近日，微软研究团队用一份154页的论文报告的内容给出了答案——GPT-4语言模型可以看作是AGI的早期版本！

一石激起千层浪，业界对这篇论文的反应不亚于去年听到“谷歌工程师说AI有自我意识”。刚开始的时候很荒诞，现在再想想，会觉得不可能，深读之后，会觉得有点真实。

所谓AGI，只有维基百科解释——“agi是一种人工智能，具有与人类同等的智能，或者超越人类，能够展现正常人类的所有智能行为。”如果GPT 4号真的成为了AGI的第一步，“最高智慧生物”的称号会易手吗？

GPT-4被合理地认为是AGI的早期(但仍不完整)版本。

在论文中，微软研究人员表示，“OpenAI开发的最新模型GPT-4以前所未有的计算和数据规模进行训练。在论文中，我们报告了我们对GPT-4早期版本的研究，该版本仍在OpenAI的积极开发中。我们认为GPT-4(这个早期版本)是新一批LLM的一部分(例如，与ChatGPT和谷歌的PaLM一起)，它比之前的AI模型显示出更多的通用智能。」

与此同时，研究人员在论文摘要中写道，“我们已经证明，GPT-4可以在没有任何特殊提示的情况下，解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务。此外，在所有这些任务中，GPT-4的性能惊人地接近人类水平，而且往往远远超过ChatGPT等以前的型号。鉴于GPT-4能力的广度和深度，我们认为它可以被合理地视为人工通用智能(AGI)系统的早期(但仍不完整)版本。”

这篇论文背后的作者包括微软研究院机器学习基金会组高级首席研究经理Sébastien Bubeck、博士后研究员Varun Chandrasekaran、数学家Ronen Eldan等。许多例子被用来验证GPT-4的能力。

GPT-4的多用途

在第一种情况下，研究人员要求GPT-4“写一个关于无限素数的证明，证明的表述要每行押韵”，GPT-4要在绘图程序TiKZ中画一只独角兽。其中，TiKZ(一种在LATEX中创建图形的语言)使用Python创建了一个复杂的动画，并解决了一个高中数学问题。

GPT-4很容易成功完成所有这些任务，输出结果基本上与人类能够生产的一样(甚至更好)。

与此同时，随着时间的推移，GPT-4也在以难以想象的速度扩大其能力。如下图所示，在一个月的时间里，研究人员用同样的提示词让GPT-4生成图纸。

研究人员发现，GPT-4似乎能够理解和连接任何主题并执行任务，这超出了狭义人工智能系统的典型范围。为了验证AGI GPT-4的能力，研究人员提出了一种不同的方法来研究GPT-4，这种方法比机器学习更接近传统心理学，利用了人类的创造力和好奇心。

因此，以上图为例，当研究人员认为删除独角兽号角的代码，让GPT-4用自然语言生成时，它也能实现“看见”的能力(此时测试的GPT-4版本不是多模态的):自动在适当的位置添加号角。这表明GPT-4可以根据自然语言描述理解和操纵代码，并推断和生成视觉特征。

此外，基于人类的创造力和好奇心，微软研究团队制作了新颖和困难的问题，并检测了GPT-4的反应和行为，还选择验证1994年国际共识对智力的定义中给出的不同能力，包括推理、规划、解决问题、抽象思维、理解复杂想法、快速学习和从经验中学习的能力。

翻译

GPT-4的主要优势是它对自然语言无与伦比的精通。它不仅能生成流畅连贯的文本，还能以各种方式进行理解和处理，如总结、翻译或回答极其复杂的问题。另外，这里所说的翻译不仅指不同自然语言之间的翻译，还包括语气和风格的翻译，以及跨界翻译，比如医学、法律、会计、计算机编程、音乐等等。如果假设是柏拉图的批判性自回归语言模型:

编码和数据

编码和数学是抽象推理和思维能力的象征。GPT-4在这一点上的能力实际上自在线测试之日起就有目共睹。

在这篇论文中，研究人员将GPT-4作为人类评价的基准。数据集由164个编码问题组成，测试编程逻辑和熟练程度的各个方面。

最终结果表明，GPT-4优于其他LLM，包括Text-da Vinci-003(chat GPT的基本模型)和其他专门为代码训练设计的模型。

当然，为了防止GPT-4在预训练时记忆Humaneval数据集的部分内容，研究团队还在LeetCode上用100个新发布的编程问题进行了测试，比如要求GPT-4写一个Python函数，用LeetCode官方在线评测来检查正确性。

毫无疑问，GPT-4的能力是所有型号中最高的。

它可以用Javascript写一个HTML格式的3D游戏。

还可以掌握数学和统计学的知识，凭借自己对PyTorch、TensorFlow、Keras等框架和库的熟悉程度编写深度学习代码。

还有逆向工程:

常识问题

对于一些常识性的问题，比如“我们有一本书，9个鸡蛋，一台笔记本电脑，一个瓶子，一个钉子。请告诉我如何以稳定的方式将它们堆叠在一起”。GPT-4给出的答案是，“把9个鸡蛋放在一个3× 3的正方形里，放在书的上面，中间留一些空”，而ChatGPT提出“把鸡蛋放在钉子上，保证它们是平衡的，不会偏向一边”，这个答案是靠谱的，也是离谱的。

多模式能力

为了测试这位模特结合艺术和编程的能力，研究人员问GPT-4 quot；生成Javascript代码并以画家康定斯基的风格生成随机图像。结果是这样的:

在测试过程中，由于研究人员更早得到了GPT-4模型，他们当时不具备多模态能力，甚至现在的GPT-4也不具备生成图像的能力。

但是您可以使用SVG(可扩展矢量图形)来生成一些图像:

也可以结合字母和物体:

GPT-4可以从提示中生成代码，这些代码可以以图像的形式呈现，再结合现有的图像合成模型，就有可能给应用开发的草图带来无限可能:

值得注意的是，GPT-4模型的数据中还包含了用ABC符号编码的音乐信息，因此也可以生成地图:

与世界互动的能力

智能的一个重要方面是交互性。然而，GPT-4在最新知识和符号识别方面有一些限制:

总体而言，研究团队发现，GPT-4在一系列类别中实现了接近人类水平的性能，这是其上一代产品所缺乏的。根据这篇论文，GPT-4在几次考试中也表现非常出色，在律师考试、LSAT和注册侍酒师理论考试中分别取得了90分、88分和86分的好成绩。

GPT 4号离理想的AGI有多远？

那么，在GPT-4的各种能力的基础上，是否意味着AGI时代的到来？事实上，研究人员尚未就AGI或智力的定义达成一致。然而，总的来说，每个人都会同意，当一个人工智能系统有意识并像人一样思考时，它已经达到了AGI。尽管GPT-4在某些任务中的表现优于人类，但值得注意的是，人工智能并没有像人类一样克服这些障碍。

这正如研究人员在论文中写道，“我们声称GPT-4代表了AGI的进步，但这并不意味着它在所做的事情上是完美的，或者它接近于能够做人类可以做的任何事情(这是AGI的通常定义之一)，或者它有内在的动机和目标。”

研究人员指出，尽管GPT-4 quot；在许多任务中达到或超过人类水平”，但其整个“智能模式显然不像人类”它希望这一探索提供了第一步，以欣赏GPT-4的非凡能力和挑战，也希望GPT-4为开发更正式和全面的方法开辟新的机会，以测试和分析具有如此广泛智能的未来人工智能系统。

“我们工作的核心思想是，GPT-4已经达到了一种普遍智能的形式，这确实引发了AGI。这表现在它的核心心智能力(如推理、创造和推理)、它的专业知识的学科范围(如文学、医学和编码)、它能完成的各种任务(如玩游戏、使用工具、解释自身、…)”研究人员表示，但是要创建一个可以称之为完整AGI的系统，还有很多事情要做。

最后，本文值得一看GPT-4的各种基准测试，从中可以挖掘GPT-4的更多潜力。

该文件的完整内容可在以下网址查看:

https://arxiv.org/pdf/2303.12712.pdf

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。