Reddit要收取API访问费,盯着AI厂商来薅羊毛

进入2023年后,或许很少有网友没听过ChatGPT这个名字。这个继元宇宙之后的“新浪潮”,突然成为今年科技圈的风口,包括海外市场的微软、谷歌、亚马逊,以及国内的百度、阿里、腾讯、字节跳动。几乎所有有一定技术实力的科技厂商也都走到了尽头,甚至技术实力不足的都是八仙过海各显神通,比如联合合伙人知乎,美国贴吧Reddit。

日前,Reddit宣布将开始向使用其应用编程接口(API)的企业收费,该接口为下载和处理人与人之间的对话提供相关数据。事实上,Reddit的API从2008年就开始以免费的方式向第三方开放。Reddit对突然转向收费的解释是限制其API用于训练人工智能工具,包括OpenAI的ChatGPT,Google的Bard,微软的Bing AI。

虽然Reddit尚未公布其API的具体收费标准,但官方已透露将“为需要额外功能、更高使用限制和更广泛使用权的第三方引入新的高级接入点”。为了避免被外界指责为“吃相难看”,Reddit还表示会免费提供一些访问API的用户,这类用户主要包括科研机构的研究人员或者从事非商业目的的研究人员。

Reddit为什么敢收钱?事实上,成立于2005年的Reddit已经是全球互联网中历史最悠久、最具活力的社区之一。截至2021年10月,Reddit官方披露的最后一次用户数据显示,其拥有5300万dau,超过4.3亿mau。根据Statista的统计,Reddit是美国访问量第六大的社交媒体,月活水平几乎与Instagram和Twitter持平。

如此庞大的用户数量也在Reddit中创建了超过14万个活跃社区,超过3.66亿条帖子,23亿条评论,这也意味着沉淀在Reddit中的内容已经成为一个极其惊人的语料库。在人工智能领域,语料库通常是具有一定数量和规模的文本资源的集合。作为一个以论坛形式开展业务的平台,Reddit显然是英语互联网中最时尚、最千变万化的语料库。比如OpenAI开发的ChatGPT和最新的GPT-4,很多训练数据已经被证明来自Reddit。

Reddit要收取API访问费,盯着AI厂商来薅羊毛

就像数据对于算法一样,语料库是ChatGPT等生成式AI智慧的基础。生成式AI的原理大概可以概括为通过大量的语料库进行训练,建立相应的模型,让AI对人类的问题做出相应的回答和决策,其核心逻辑是“猜谜游戏”。经过大量的训练,AI预测出问题的答案,并不等于拥有智慧,只是一次又一次的玩文字游戏和解谜,本质上和人类玩数独或者填字游戏是一样的。

那么为什么ChatGPT比Siri等之前的人工智能产品更智能呢?其实就是单纯因为语料库比较大。比如GPT-3有1750亿个参数,45TB的训练数据,训练费用高达1200万美元,这也是OpenAI构建ChatGPT的基础。ChatGPT聪明的关键在于它的突现能力,也就是说只需要在输入中增加几个例子就可以学习模型,而不需要更新参数。

突现能力从何而来?据谷歌;Deepmind联合发表的相关论文显示,模型在达到一定规模之前,性能是随机的,但是在突破规模临界点之后,性能会有很大的提升。

例如,在BIG-Bench上,当GPT-3和LaMDA没有达到临界点时,模型的性能接近于零。但在GPT-3规模突破2次10^22training FLOPs (13B参数)、LaMDA规模突破10^23training FLOPs (68B参数)后,性能开始快速上升。

Reddit要收取API访问费,盯着AI厂商来薅羊毛

“大砖头飞”是当前大语言模式的底层逻辑。在这种情况下,语料库基本上决定了大语言模型的上限。虽然语料库越多越好,但问题是没有更多高质量的数据供模型训练。

AI研究团队Epoch在今年年初发表的论文显示,AI将在不到5年的时间内用完所有高质量的人类语料库。而且这个结果是Epoch预测的结果,考虑了人类语言数据的增长速度,也就是未来五年全人类出版的书籍、写的论文、写的代码。

Epoch团队将语料库分为高质量和低质量两种。优质语料库指的是维基百科、新闻网站、GitHub上的代码、出版的书籍等。,而低质量的语料库来自Twitter、脸书和Reddit。

Reddit要收取API访问费,盯着AI厂商来薅羊毛

一般情况下,AI厂商自然更愿意使用高质量的语料库。毕竟这样可以最大程度避免被偏见和歧视性言论“污染”。但问题是,据统计,高质量语料库数据的存量只有4.6×10 ^ 12 ~ 1.7×10 ^ 13个单词左右,比目前最大的文本数据集大不到一个数量级。

所以在高质量语料库不够用的时候,低质量的语料库即使不好用也必须用,否则大语言模型怎么成长?对于低质量的语料库,充其量只是在数据标注和清洗上花费更多,所以OpenAI、Google、Amazon等公司别无选择。所以Reddit现在是靠语料库自重,预计AI厂商只能买。

本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系admin#jikehao.com删除。
(0)
极客号的头像极客号
上一篇 2023年 5月 2日
下一篇 2023年 5月 2日

相关推荐

合作联系:1152QQ041010