百“模”混战

“在人工智能时代，所有应用都值得用一个大模型重做。”

在4月11日的2023阿里云峰会上，阿里巴巴集团董事局主席兼首席执行官、阿里云智能事业群CEO张勇其实对别人说了一些话。APUS创始人李涛曾说过一句更鼓舞人心的话:几乎所有的行业都值得人工智能重做。

随后，阿里云智能首席技术官周正式宣布大语言模型“依桐”上线。他说，依桐钱文是一个非常大规模的语言模型，功能包括多轮对话、文案、逻辑推理、多模态理解和多语言支持。它可以和人类进行多轮交互，还集成了多模态知识理解，并且有非常强的文案能力，可以继续写小说，写邮件，可以大大增加我们的工作效率。

随着阿里AI模型——依桐钱文的正式亮相，以及百度、华为、360等互联网头部企业纷纷推出自己的AI模型，属于AI，或者说属于AI模型的时代。但根本原因是大模式导致大厂商在ChatGPT的破圈效应下小步跑进市场，而且只是冷饭热饭。

早在2018年，Google就提出了超大规模预训练语言模型BERT。2020年，OpenAI推出GPT-3超大规模语言训练模型，参数达到1750亿。用了两年左右的时间，实现了模型规模从一亿到千亿的突破，可以实现写诗、聊天、生成代码等功能。

2021年，国产厂商也感受到了大机型的东风。华为云发布了盘古NLP超大规模预训练语言模型和盘古α超大规模预训练模型，阿里达摩院发布了拥有10万亿参数的多模态大规模模型，百度也推出了——文的前身ERNIE3.0Titan。如果说大模式元年，其实2021年可能更合适。

总的来说，这个阶段的大模型还是充满了“等风来”的阶段，只是当时的大AI模型还缺乏商业模型的支撑。比如盘古NLP模型在出现之初就确定了其to B的定位，直到ChatGPT以其出色的交互和开放的测试在全球范围内掀起了AI狂潮。

于是大厂们纷纷拿起自己经常性的成果，称之为云业务中的闲置计算能力，一步步跟进，希望能晚一步，先一步。

溢出的大模型

OpenAI找到了人人产品的落地之路，引发了很多大厂的抢购。

这轮“疯狂”的第一玩家是百度。百度在搜索领域和中文垂直知识领域浸淫多年，掌握了大量高质量的通用数据。早在2010年，它就成立了自然语言处理部门，这是第一批探索AI的大厂，现在它也是第一个推出类似GPT应用的大厂。

4月以来，大模型井喷，参观者陆续放出大模型的消息铺天盖地。

4月9日，360在2023数字安全与发展高峰论坛上发布了一款类似的机型“360智脑”，周亲切地称其为“初生的孩子”。4月10日，从学术圈进入商业圈的AI独角兽商汤科技发布“SenseNova”大模型系统，推出自然语言处理、内容生成、自动数据标注、定制模型训练等多种大模型和能力，并提供真机演示。

4月11日，阿里在2023云峰大会上发布“依桐钱文”大模型，并向社会企业开放，邀请企业参与打造自己的大模型。在发布会上，当张勇宣布将阿里应用接入大模型重做时，他用一种张扬的方式展示了阿里令人眼花缭乱的商业应用。完善的APP矩阵和数字商业积累显然成为了大模特培训的基石。

腾讯的“浑源”大模式和华为的“盘古”大模式紧随其后，一个守护着丰富的社交场景和信息流数据，一个也掌握着智能硬件的高频流量，两者都通过云服务的市场地位获得了极具商业价值的数据资产。

无论好坏，即使是“新生的孩子”，也要“捧出来给大家看”。众多厂商扎堆发布的大尺寸机型，有点像飞蛾扑火。

首先，建立一个大的模型很难快速产生商业价值。参考大的模式，渴望重现的openAI还没有实现盈利，虽然随着微软的投资，其公司估值越来越高。芯片、能耗、数据资产等刚性成本也会随着访客的增加而上升。在行业“乍暖还寒”、降本增效的当下，把宝贵的现金流投入到AI的无底洞，未必是个好主意。

其次，大模型不是强人工智能的必由之路。随着数据不断增长，计算能力不断提升，优化手段越来越好，模型也会越来越大。众多人工神经元分层排列，参数量描述神经元之间连接强度的可调值。模型的预训练就是在已知文本的基础上反复执行和调整这些参数，以便算法下次能做得更好，也就是我们所说的“调优”。

只是堆砌更多的文本，AI获得的语言模式并不能让它真正生出逻辑思维，模仿数学推理。目前跟随ChatGPT3.5的大机型也会遇到前者的困境。既然不是为了AI功能升级，那么消耗海量计算能力和“赚钱能力”的目的也很明显。ChatGPT为我们开启了AI大模型商业化的大幕，跟随它的人也一定会赚到同样的呐喊。

就像微软投资100亿美元的OpenAI，将GPT全面接入自己的应用，让广大的中小企业通过自己的大模型来构建自己的中小模型，是OpenAI所指明的商业落地路径。大模式的井喷就是这条路径的再现，遵循着同样的范式——花大价钱做一个“吃力不讨好”的大模式，争取市场地位。

这种范式实际上并不新鲜。比如数字时代，应用需要操作系统。微软凭借Windows占据PC头把交椅。即使后来者创造出无数体验更好的产品，也很难撼动微软的地位，因为这些产品的开发都是基于Windows的。

智能时代，也需要操作系统。在OpenAI无法进入国内的前提下，市场自然会寻求替代品。今天的大机型之争，本质上是下一代操作系统。面对目前国内大尺寸机型的喷涌，APUS李涛认为“大家都在争夺大尺寸机型的本质，其实就是在争夺操作系统的话语权。一旦任何人能够控制他们，他们将获得最大的商业回报”。

在他看来，中小型号对应的是业务场景，所以中小企业要致力于此；大模式对应行业标准，获得话语权意味着引领未来生态。

在AI浪潮之前，我们一起经历了数字化。平台作为流量的集中入口，主导了移动互联网业务的变现能力。在AI浪潮下，我们一起经历了智能。作为一个操作系统，大模型主导着云上的业务和应用。每个人都想成为下一个谷歌和微软，但这个过程不会很容易。

算力、场景、文字的积累，说到底就是一个钱字。飞蛾扑火的玩家很享受燃烧的过程，燃烧自己照亮别人，当然也向往光明。

正如李开复所说:“AI 2.0时代已经到来，它将催生一个比移动互联网大10倍的机会。”

大型号的主渠道在哪里？

更多是不同的。

AI大模型或许不是万能的，但在元素的积累下，大模型无疑兼容了更多的场景和领域。如果说大模式的第一步在各行各业通用，那么第二步就是在垂直场景下降本增效。

既然目标是星辰大海，玩家怎么能缺少恶魔之果呢？

计算能力是AI发展的三大基本要素之一，是训练AI反复、反复处理海量数据的能力。根据OpenAI的数据，自2012年以来，全球AI训练中使用的计算量呈指数级增长，平均每3.43个月翻一番。目前计算量已经膨胀了30万倍，远远超过了计算能力的增长速度。GPT的迭代足以形象地呈现计算能力需求的井喷。GPT-3模型的参数数量为1750亿，是GPT-2的100多倍。虽然下一代GPT-4模型的参数尚未公布，但业内人士预测其参数将是数万亿。

公开资料显示，GPT-3大模型需要训练355 GPU//年。假设企业用一个月的时间训练它的大模型，需要4260张AI加速卡才能让产品上市。这只是参与游戏的“入场券”要求。更重要的是，一般大模型在垂直场景下的表现，来源于大模型在高价值文本中的不断训练。

换句话说，谁的场景和数据更多、更有价值、更通用，谁就能做出更好的大模型。

首先，我们要恭喜那些在移动互联网时代掌握了巨大流量入口的企业。人们日常生活中的社交、电商、搜索等必然应用所产生的数据，有将大模型商业化为c的可能，其次也要恭喜数据库厂商。各种垂直数据库必然会成为大模型眼中的烫手山芋，但仍有一些问题需要解决，比如多个数据库之间缺乏互操作性，以及模型的导入、存储和使用等。

大模式是唯一正确的方式？

AI模型一定要更大吗？

著名杂志《自然》就此话题采访了许多专家，并出版了一本名为《在人工智能中，越大越好吗？一些科学家认为，更大的模型只是在回答训练数据的相关范围内的查询方面变得更好，而不能获得回答全新问题的能力。

人工智能前沿的争论并没有消失，只是目前通用的大模型还不能真正用于成千上万的行业。一位业内人士认为，大型号最有价值的是通用性，比如可以支持几万甚至几十万的小型号。

大型号虽然好，但这是个又贵又有耐心的东西。对于大模型的规模效应，庞大的计算能力成本背后的芯片和功耗成为阻碍AI进一步发展的链条。而且从目前训练大规模语言模型所涉及的数据、计算能力和成本来看，只有拥有庞大计算资源的公司才能做到。

以谷歌和柏林大学联合开发的用于对抗台湾GPT3的PaLM为例。在5400亿的恐怖参数下，研究人员估计其训练一次的成本将达数千万美元，而谷歌本身在训练PaLM的两个月内就消耗了3.4 GW的电力，相当于约300个美国家庭一年的能耗。

即使谷歌声称其89%的能源消耗是清洁能源，但中国的主流发电形式仍然是火电和水电。

芯片方面，由于国内自研芯片最高水平的14nm芯片只能覆盖云计算的计算能力需求，无法覆盖AI的计算能力需求，因此大模型的构建也面临“卡脖子”的问题。一方面，大模型计算能力需求的NVIDIA GPU芯片价格昂贵，单个1万到2万美元的价格体现在大模型的构建上，就是几十亿美元。国内大模特选手能有多少闲置的筹码用来培养大模特？比如阿里的粮食储备到底能有多大，甚至是大的模式，都值得探讨。

再者，中国现在的企业和个人不一定是大模特。即使我们忽略了大模型真正面向上千个行业后，在训练上的巨大功耗和成本，也不能忽视很多垂直行业数据匮乏，逻辑难以被AI理解和模仿的现状。

而且程序员一定知道多任务和多线程会互相打架。根据张勇在阿里云峰会上提出的“用大模型重做应用”，用各行各业相互冲突的数据进行训练，不一定能提高垂直行业使用模型的效率。在参数急剧增加的情况下，精度可能不会保持上升，甚至变压器架构也有其局限性。

同一个大模式“赋能”下的同质人才同样没有竞争力，而是AI覆盖的“时代的眼泪”。相反，如果AI能成为个人的个性化化身，那就是放大了自身能力的小模型，说不定能在大模型覆盖的世界里杀出一条血路。

那么，是否可以用大模型去提炼小模型，让大模型学习小模型的结果呢？目前这种方式面临着大小型号架构不同的问题，如何顺利沟通还是未知数。

不管AI的未来是多不同还是少就是多，通用模型中的“通用”这个词还是要打上问号的。

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。