脸书母公司meta的人工智能研究人员推出了新的语言模型Toolformer,旨在处理自然语言处理案例中多个API的调用。
Toolformer基于GPT-J,这是一个开源语言模型,有67亿个参数。meta研究人员为模型配备了一系列工具,模型可以使用这些工具来完成任务,例如预测文本或回答数学问题。
Toolformer可以访问的工具包括一个计算器、一个问答系统、两个不同的搜索引擎、一个机器翻译系统和一个日历。
其中,使用的机器翻译系统是其NLLB模型的6亿参数版本,适用于200种语言。Toolformer使用calendar API返回当前日期,查询时不需要任何输入。答题系统采用meta的Atlas模型。
值得注意的是,其搜索引擎之一是维基百科搜索,在提示时会返回维基百科的短文本片段。
上面的例子展示了Toolformer的功能。该模型决定调用不同的API来获取完成一段文本所需的有用信息。meta论文中的这个例子表明,该模型使用了一个问答系统、一个计算器、一个机器翻译系统和一个维基百科搜索引擎。
尽管底层模型是基于GPT-2模型,meta发现Toolformer在一些零样本NLP任务上的表现优于GPT-3模型。虽然GPT-3在问答中表现更好,但Toolformer在大多数其他测试中击败了OpenAI model,包括数学推理和机器翻译。
Toolformer类似于OpenAI的ChatGPT。用户输入自然语言提示,系统生成响应。Toolformer的不同之处在于,它的各种工具可以用于通过搜索引擎功能等工具基于最近的事件生成响应。ChatGPT等是用某个时间点的数据集建立的,这意味着它们无法回应用户对最近事件的查询。
meta研究人员在他们的论文中承认,Toolformer比其同时代的ChatGPT更不完整,目前其使用仍有局限性。
关于工具以前的论文介绍网站:https://arxiv.org/abs/2302.04761