百“模”混战

“在人工智能时代,所有应用都值得用一个大模型重做。”

在4月11日的2023阿里云峰会上,阿里巴巴集团董事局主席兼首席执行官、阿里云智能事业群CEO张勇其实对别人说了一些话。APUS创始人李涛曾说过一句更鼓舞人心的话:几乎所有的行业都值得人工智能重做。

随后,阿里云智能首席技术官周正式宣布大语言模型“依桐”上线。他说,依桐钱文是一个非常大规模的语言模型,功能包括多轮对话、文案、逻辑推理、多模态理解和多语言支持。它可以和人类进行多轮交互,还集成了多模态知识理解,并且有非常强的文案能力,可以继续写小说,写邮件,可以大大增加我们的工作效率。

百“模”混战

随着阿里AI模型——依桐钱文的正式亮相,以及百度、华为、360等互联网头部企业纷纷推出自己的AI模型,属于AI,或者说属于AI模型的时代。但根本原因是大模式导致大厂商在ChatGPT的破圈效应下小步跑进市场,而且只是冷饭热饭。

早在2018年,Google就提出了超大规模预训练语言模型BERT。2020年,OpenAI推出GPT-3超大规模语言训练模型,参数达到1750亿。用了两年左右的时间,实现了模型规模从一亿到千亿的突破,可以实现写诗、聊天、生成代码等功能。

2021年,国产厂商也感受到了大机型的东风。华为云发布了盘古NLP超大规模预训练语言模型和盘古α超大规模预训练模型,阿里达摩院发布了拥有10万亿参数的多模态大规模模型,百度也推出了——文的前身ERNIE3.0Titan。如果说大模式元年,其实2021年可能更合适。

总的来说,这个阶段的大模型还是充满了“等风来”的阶段,只是当时的大AI模型还缺乏商业模型的支撑。比如盘古NLP模型在出现之初就确定了其to B的定位,直到ChatGPT以其出色的交互和开放的测试在全球范围内掀起了AI狂潮。

于是大厂们纷纷拿起自己经常性的成果,称之为云业务中的闲置计算能力,一步步跟进,希望能晚一步,先一步。

溢出的大模型

OpenAI找到了人人产品的落地之路,引发了很多大厂的抢购。

这轮“疯狂”的第一玩家是百度。百度在搜索领域和中文垂直知识领域浸淫多年,掌握了大量高质量的通用数据。早在2010年,它就成立了自然语言处理部门,这是第一批探索AI的大厂,现在它也是第一个推出类似GPT应用的大厂。

4月以来,大模型井喷,参观者陆续放出大模型的消息铺天盖地。

4月9日,360在2023数字安全与发展高峰论坛上发布了一款类似的机型“360智脑”,周亲切地称其为“初生的孩子”。4月10日,从学术圈进入商业圈的AI独角兽商汤科技发布“SenseNova”大模型系统,推出自然语言处理、内容生成、自动数据标注、定制模型训练等多种大模型和能力,并提供真机演示。

4月11日,阿里在2023云峰大会上发布“依桐钱文”大模型,并向社会企业开放,邀请企业参与打造自己的大模型。在发布会上,当张勇宣布将阿里应用接入大模型重做时,他用一种张扬的方式展示了阿里令人眼花缭乱的商业应用。完善的APP矩阵和数字商业积累显然成为了大模特培训的基石。

腾讯的“浑源”大模式和华为的“盘古”大模式紧随其后,一个守护着丰富的社交场景和信息流数据,一个也掌握着智能硬件的高频流量,两者都通过云服务的市场地位获得了极具商业价值的数据资产。

无论好坏,即使是“新生的孩子”,也要“捧出来给大家看”。众多厂商扎堆发布的大尺寸机型,有点像飞蛾扑火。

首先,建立一个大的模型很难快速产生商业价值。参考大的模式,渴望重现的openAI还没有实现盈利,虽然随着微软的投资,其公司估值越来越高。芯片、能耗、数据资产等刚性成本也会随着访客的增加而上升。在行业“乍暖还寒”、降本增效的当下,把宝贵的现金流投入到AI的无底洞,未必是个好主意。

其次,大模型不是强人工智能的必由之路。随着数据不断增长,计算能力不断提升,优化手段越来越好,模型也会越来越大。众多人工神经元分层排列,参数量描述神经元之间连接强度的可调值。模型的预训练就是在已知文本的基础上反复执行和调整这些参数,以便算法下次能做得更好,也就是我们所说的“调优”。

只是堆砌更多的文本,AI获得的语言模式并不能让它真正生出逻辑思维,模仿数学推理。目前跟随ChatGPT3.5的大机型也会遇到前者的困境。既然不是为了AI功能升级,那么消耗海量计算能力和“赚钱能力”的目的也很明显。ChatGPT为我们开启了AI大模型商业化的大幕,跟随它的人也一定会赚到同样的呐喊。

就像微软投资100亿美元的OpenAI,将GPT全面接入自己的应用,让广大的中小企业通过自己的大模型来构建自己的中小模型,是OpenAI所指明的商业落地路径。大模式的井喷就是这条路径的再现,遵循着同样的范式——花大价钱做一个“吃力不讨好”的大模式,争取市场地位。

这种范式实际上并不新鲜。比如数字时代,应用需要操作系统。微软凭借Windows占据PC头把交椅。即使后来者创造出无数体验更好的产品,也很难撼动微软的地位,因为这些产品的开发都是基于Windows的。

智能时代,也需要操作系统。在OpenAI无法进入国内的前提下,市场自然会寻求替代品。今天的大机型之争,本质上是下一代操作系统。面对目前国内大尺寸机型的喷涌,APUS李涛认为“大家都在争夺大尺寸机型的本质,其实就是在争夺操作系统的话语权。一旦任何人能够控制他们,他们将获得最大的商业回报”。

在他看来,中小型号对应的是业务场景,所以中小企业要致力于此;大模式对应行业标准,获得话语权意味着引领未来生态。

在AI浪潮之前,我们一起经历了数字化。平台作为流量的集中入口,主导了移动互联网业务的变现能力。在AI浪潮下,我们一起经历了智能。作为一个操作系统,大模型主导着云上的业务和应用。每个人都想成为下一个谷歌和微软,但这个过程不会很容易。

算力、场景、文字的积累,说到底就是一个钱字。飞蛾扑火的玩家很享受燃烧的过程,燃烧自己照亮别人,当然也向往光明。

正如李开复所说:“AI 2.0时代已经到来,它将催生一个比移动互联网大10倍的机会。”

大型号的主渠道在哪里?

更多是不同的。

AI大模型或许不是万能的,但在元素的积累下,大模型无疑兼容了更多的场景和领域。如果说大模式的第一步在各行各业通用,那么第二步就是在垂直场景下降本增效。

既然目标是星辰大海,玩家怎么能缺少恶魔之果呢?

计算能力是AI发展的三大基本要素之一,是训练AI反复、反复处理海量数据的能力。根据OpenAI的数据,自2012年以来,全球AI训练中使用的计算量呈指数级增长,平均每3.43个月翻一番。目前计算量已经膨胀了30万倍,远远超过了计算能力的增长速度。GPT的迭代足以形象地呈现计算能力需求的井喷。GPT-3模型的参数数量为1750亿,是GPT-2的100多倍。虽然下一代GPT-4模型的参数尚未公布,但业内人士预测其参数将是数万亿。

公开资料显示,GPT-3大模型需要训练355 GPU//年。假设企业用一个月的时间训练它的大模型,需要4260张AI加速卡才能让产品上市。这只是参与游戏的“入场券”要求。更重要的是,一般大模型在垂直场景下的表现,来源于大模型在高价值文本中的不断训练。

换句话说,谁的场景和数据更多、更有价值、更通用,谁就能做出更好的大模型。

首先,我们要恭喜那些在移动互联网时代掌握了巨大流量入口的企业。人们日常生活中的社交、电商、搜索等必然应用所产生的数据,有将大模型商业化为c的可能,其次也要恭喜数据库厂商。各种垂直数据库必然会成为大模型眼中的烫手山芋,但仍有一些问题需要解决,比如多个数据库之间缺乏互操作性,以及模型的导入、存储和使用等。

大模式是唯一正确的方式?

AI模型一定要更大吗?

著名杂志《自然》就此话题采访了许多专家,并出版了一本名为《在人工智能中,越大越好吗?一些科学家认为,更大的模型只是在回答训练数据的相关范围内的查询方面变得更好,而不能获得回答全新问题的能力。

人工智能前沿的争论并没有消失,只是目前通用的大模型还不能真正用于成千上万的行业。一位业内人士认为,大型号最有价值的是通用性,比如可以支持几万甚至几十万的小型号。

大型号虽然好,但这是个又贵又有耐心的东西。对于大模型的规模效应,庞大的计算能力成本背后的芯片和功耗成为阻碍AI进一步发展的链条。而且从目前训练大规模语言模型所涉及的数据、计算能力和成本来看,只有拥有庞大计算资源的公司才能做到。

以谷歌和柏林大学联合开发的用于对抗台湾GPT3的PaLM为例。在5400亿的恐怖参数下,研究人员估计其训练一次的成本将达数千万美元,而谷歌本身在训练PaLM的两个月内就消耗了3.4 GW的电力,相当于约300个美国家庭一年的能耗。

即使谷歌声称其89%的能源消耗是清洁能源,但中国的主流发电形式仍然是火电和水电。

芯片方面,由于国内自研芯片最高水平的14nm芯片只能覆盖云计算的计算能力需求,无法覆盖AI的计算能力需求,因此大模型的构建也面临“卡脖子”的问题。一方面,大模型计算能力需求的NVIDIA GPU芯片价格昂贵,单个1万到2万美元的价格体现在大模型的构建上,就是几十亿美元。国内大模特选手能有多少闲置的筹码用来培养大模特?比如阿里的粮食储备到底能有多大,甚至是大的模式,都值得探讨。

再者,中国现在的企业和个人不一定是大模特。即使我们忽略了大模型真正面向上千个行业后,在训练上的巨大功耗和成本,也不能忽视很多垂直行业数据匮乏,逻辑难以被AI理解和模仿的现状。

而且程序员一定知道多任务和多线程会互相打架。根据张勇在阿里云峰会上提出的“用大模型重做应用”,用各行各业相互冲突的数据进行训练,不一定能提高垂直行业使用模型的效率。在参数急剧增加的情况下,精度可能不会保持上升,甚至变压器架构也有其局限性。

同一个大模式“赋能”下的同质人才同样没有竞争力,而是AI覆盖的“时代的眼泪”。相反,如果AI能成为个人的个性化化身,那就是放大了自身能力的小模型,说不定能在大模型覆盖的世界里杀出一条血路。

那么,是否可以用大模型去提炼小模型,让大模型学习小模型的结果呢?目前这种方式面临着大小型号架构不同的问题,如何顺利沟通还是未知数。

不管AI的未来是多不同还是少就是多,通用模型中的“通用”这个词还是要打上问号的。

本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系admin#jikehao.com删除。
(0)
极客号的头像极客号
上一篇 2023年 4月 15日
下一篇 2023年 4月 15日

相关推荐

合作联系:1152QQ041010