重复造轮子的百模大战:两极热,中间空

“我不敢开始。现在中国还没有跑出一个有绝对优势的大模式。上层应用不能投,担心押错宝。”投资人金智敏(化名)告诉光锥智能,AI项目看得多,投得少,是这段时间VC的常态。

自从ChatGPT点燃AI大爆炸以来,中国已经等待他的GPT-3.5两个月了。

艾真的得罪了农民工。游戏团队更换了原来30%的画师,电商团队用AIGC生成低成本的数字人体模型,基础程序员也感受到了被降维打击的焦虑…..看到GPT不得不在国外重新做所有领域的趋势,技术颠覆带着金钱的味道滚滚而来。

所以,除了焦虑的农民工,企业渴望用大模式降本增效,创业者渴望接触大模式推出新产品,股市渴望用ChatGPT概念割韭菜,培训机构渴望先赚一波。

相比之下,似乎喜欢追逐风口的中国科技巨头们却比以往更加淡定。

果然,循环使人成长,公司也是如此。

终于,翘首以待,姗姗来迟。4月的第二周,中国也迎来了新一代大型车型的密集发布。

依桐钱文开放测试四天后,张勇接管阿里云后首次亮相,宣布未来阿里所有产品将接入“依桐钱文”模式进行全面转型;

在10日的技术交流会上,商汤科技展示了“逐日增长”大模型的能力:对话、AI绘画、编程、数字人,第二天上涨9%。

华为的盘古机型8日低调亮相,但10日发布了新品。

明星创业者王小川公开亮相,携手搜狗老搭档茹立云,正式开启AI创业新征程,并将于下半年推出百川智能大模型;

毫米发布了首款自动驾驶车型DriveGPT Xuehu海若,将人类反馈强化学习引入驾驶领域。

就连游戏公司昆仑万伟也来凑热闹,声称“中国第一款真正智能的新兴”国产大语言模型将于17日开始邀请测试,但后来被媒体质疑其利用热点炒作股价。

热闹归热闹,真真假假,大模型有点乱,一时半会儿看得入迷。中国的大模特是怎么雨后春笋般突然冒出来的?如果我们不再制造轮子,我们能做什么?

虽然摸着开放的AI过河,但中国的大模特们也进入了无人区。

01出现之前:跟风,分道扬镳。

如果要给AI大模型找一个时间节点,2019年应该是关键的一年。

今年2月,远在大洋彼岸的OpenAI发射GPT 2号,恰好是同一个时间点。微软慷慨投资10亿美元,将OpenAI从一个“非营利”组织变成了一个“利润上限”组织。

大约一个月后,在太平洋的另一边,百度发布了ERNIE1.0,成为国内首个正式开放的前期训练模式。

但这样的第一其实有很多,比如华为的盘古模型,业界首个千亿参数的汉语预训练模型;比如阿里的M6,中国首个千亿参数的多模态模型;再比如腾讯混元,国内第一个低成本,落地NLP万亿模型。…..

总之,只要加上足够多的定语,你总能在某个领域做到第一。那段时间,从硅谷到北京的Xi二七,再从五道口到上海的临港,所有有能力的企业,包括华为、阿里、腾讯、商汤,都开始涉足ai大模型的研究。

但中国出现第一波AI大模型是在两年后。

重复造轮子的百模大战:两极热,中间空

2021年,曾经担任微软亚洲工程院院长的张宏江被雷军亲自邀请到金山,接替求伯君出任CEO。张宏江领衔的致远研究院发布了“启蒙1.0”,包括国内首个面向中文的NLP大规模模型、首个面向中文通用图文的多模态模型、首个具有认知能力的超大规模预训练模型。

致远成立于2018年,比OpenAI发布GPT-1.0早5个月。作为北京和科技部牵头的研究机构,致远其实是中国较早探索AI大模式的代表。

可以说,“启蒙1.0”实际上是中国所有后来的AI模型的样本。此外,致远研究院还为中国搭建了大规模的预训练模型技术体系,开放了全球最大的中文语料库WuDaoCorpora,为后期其他企业开发AI模型奠定了基础。

也是在“启蒙1.0”之后,中国的大模式开始出现井喷。

2021年,华为联合鹏程实验室发布了基于盛腾AI的鹏程盘古模型。2022年,阿里发布“依桐”大模型系列,腾讯发布混合AI大模型。……

在国内AI大模型雨后春笋般涌现的同时,国外AI大模型也到了从量变到质变的节点。

2022年11月,OpenAI发布了基于GPT-3.5的ChatGPT,彻底打开了人工智能的盒子,随后AI2.0浪潮席卷全球。

事实上,如果以2018年GPT-1的发布为节点,中国AI大模型的发展一直与国外同步,但为什么中国没有出现ChatGPT?

这其实和国内外AI大模型的两种不同发展路径有关。

从目前国外有代表性的AI模型产品来看,如ChatGPT、Midjourney、concept AI或Stable diffusion等。,都是基于C端用户的产品。

另一方面,在中国,大模型的主要应用场景都在B端。

例如,阿里“依桐”大模型的典型应用场景包括电子商务跨模态搜索、AI辅助设计、开放领域人机对话、法律文档学习、医学文本理解等。,而腾讯的浑源-NLP-1T大模型应用于腾讯的广告、搜索、对话等内部产品,或者商汤的大模型为自动驾驶、机器人等一般场景任务提供感知和理解支持。

选择To B的一个重要原因是B端更容易商业化。

To B的行业特性导致中国的AI大模型不需要非常大的参数规模。即使在ChatGPT出来之后,国内公司讨论的一个重要方向就是如何“把现有的大模型变小”,并应用到具体的行业。

所以国内会有更多的AI大模型使用Google BERT路线,参数更小,效率更高,更适合垂直场景。

所以从某种程度上说,从诞生的第一天起,中国大模就一直承载着商业化的任务。

但是国外To C的大模式就不一样了。比如ChatGPT的用户量在短短两个月内就达到了1亿,其底层预训练大模型GPT-3.5是通用大模型,“大”成为参数的基本要求。

这在一定程度上推动了OpenAI不断给GPT添加参数,进而激发出更强大的“涌现”现象,最终实现了“大奇迹”的ChatGPT。

所以两种完全不同的发展路径,To B和To C,也将中国和美国的AI大模式引向了两种完全不同的发展方向。

不要再做轮子了,但是谁都想做轮子。

“基建狂人”的称号在大模型上再次得到验证。

到目前为止,中国已经发布了五款AI大模型产品,在此之后,还有五款AI大模型产品在路上。

重复造轮子的百模大战:两极热,中间空

模特大赛开始了。

国内大部分大型机型都是GPT-2的水平,但关注度却比GPT-2推出时高了很多,造成了一个尴尬的局面——明知还没有完全准备好,却要积极推动机型的发布,似乎晚一点就会错过整个市场。

事实上,市场和技术本身都要求企业更快地将大模型推向市场。

从技术上讲,越早进入市场,就能越早获得用户的使用数据,进而推动模型优化迭代。从市场的角度来看,当国外的AI大模型和产业结合带来更高的效率时,国内企业也有同样的需求。

比如,目前光锥智能调查了多家SaaS公司,发现几乎都接入了GPT-3.5,总之目前正在测试文新。

对于推出大型号的企业来说,此时抓住市场机会尤为重要。

一位总部负责AI的投资人告诉光锥智能,“中国现在被排除在ChatGPT生态之外是非常危险的。”

他认为,虽然应用层有更大的创业机会,但应用层的所有应用都依赖于大模型。就像PC互联网时代,所有的桌面应用都是基于Windows开发的,移动互联网时代所有的app都是基于Android或者iOS系统。在模型即服务的时代,还有一些“操作系统”级别的底层大型模型。

目前GPT-4在国外肯定是可以存在的,但是国内没有相应的大型型号。所以,在底层大模式格局不明确的情况下,一旦大模式的市场格局发生变化,基于大模式的应用也会被浪费。

这也成为了很多投资人现在不想离开的原因。他们想让这个市场重新运行,等待一个绝对可以成为“操作系统”级别的大底模型出现。

所以,无论是百度还是阿里,在大模式推出后,首先关注的是能否有更多的公司达成合作。

比如,在2月份明确了文心易医的上线计划后,百度就开始积极推动不同行业的企业接入文心易医。到3月16日百度发布文心易医的时候,已经有超过650家企业宣布接入文心易医生态。4月7日,阿里正式宣布“依桐钱文”后,第一件事就是向企业开放测试邀请。

如今国内AI大模型正处于“谁能成为底层操作系统”的比拼阶段。各家积极推出自己的大模型,开放内测,引导企业入驻。一个核心目标就是围绕大模型建立自己的模型生态。

这是下一个时代大厂能否继续做大厂的关键。下一个AI时代的门票不是大模型,而是围绕大模型构建的生态。

所以,即使大家口口声声说不要重复造轮子,浪费资源造同一个大模型,但目前大家都在重复造轮子。

但现在,从百度到阿里,再从华为到商汤,底层大模式的战争才刚刚开始。毕竟,不仅是腾讯和字节跳动这样的科技巨头,还有企业家大亨王力可小川、王会文和李开复也在虎视眈眈。

王小川、王会文相继入驻搜狐网络科技大厦,五道口似乎重现了往日的辉煌。

毕竟很多人都觉得“这是复兴”。

到目前为止,更具竞争力的玩家还没有完全打完,但底层大模式的“百团大战”一触即发。

03AI热极化,中间真实空

大模式让AI公司越来越重。

4月10日,商汤公布了“SenseNova”大模型系统,但同时其实也提到了另一个重点,即依托SenseCore这一AI大设备,实现“大模型+大算力”的RD系统。

为了满足大规模模型海量数据训练的需求,原本可以轻装上阵的算法公司开始自建云,建设自己的人工智能数据中心(AIDC)。

另一个例子是Millicent。为了用大模型训练数据,这家自动驾驶公司还自建了智能计算中心。

这些垂直AI巨头和独角兽之所以要自己做这么多,很重要的一个原因就是市面上几乎没有高性能的现成产品。

近年来,大规模模型的参数呈指数级增长,随着多模式的引入,数据量也将大规模增加,这必然导致对计算能力的需求急剧增加。比如,近五年来,超大参数AI模型的参数几乎每年都有一个数量级的增长。过去10年,最好的AI算法对计算能力的需求增长了100多万倍。

一位来自商汤的员工表示,AIDC在商汤上海临港的服务器机柜设计功耗为10千瓦至25千瓦,大约可以同时容纳4台英伟达A100服务器。而普通服务器机柜一般设计功耗多为5 kW,单台A100服务器功耗高达4.5 kW。

科技巨头更是如此。每个巨头都想在自己的生态里形成闭环,部分原因是国内整个开源生态还不够强大。

目前大模型产业链大致可以分为数据准备、模型构建、模型产品三个层次。在国外,AI大模型的产业链已经比较成熟,已经形成了大量的AI Infra(架构)公司,但是这个市场在国内还是比较空白的。

在国内,豪门有自己的训练框架。

比如华为的模型采用三层架构,底层属于通用模型,具有超强的健壮性和通用性。在此之上,它是一个行业模型和特定场景和工作流的部署模型。这种架构的好处是,当训练好的大模型部署到垂直行业时,不需要重复训练,成本仅为上一层的5%~7%。

阿里为AI搭建了一个统一的基地。CV,NLP,文圣图模型都可以放入这个统一的基地进行训练。阿里训练M6模型的能耗只有GPT-3的1%。

百度和腾讯也有相应的布局。百度拥有覆盖50多亿实体的中文知识图谱。腾讯热启动课程学习可以将万亿模型的培训成本降低到冷启动的八分之一。

整体来看,虽然各大厂侧重点不同,但主要特点都是降本增效,而要做到这一点,很大程度上得益于“单枪匹马”的闭环培训体系。

虽然这种模式在单个大型工厂内有优势,但从行业角度来看也存在一些问题。

国外成熟的人工智能产业链中已经形成了大量的人工智能基础设施公司,其中一些公司专门从事数据标签、数据质量或模型架构。

这些企业的专业性,可以让他们在单个环节上,在效率、成本、质量上做得比大厂自己更好。

例如,数据质量公司Anomalo是谷歌云和概念的供应商。它可以通过ML自动评估和广义数据质量检测能力实现数据深度观察和数据质量检测。

这些公司就像汽车行业的第一梯队。大型模型企业通过专业分工,整合供应商资源,快速搭建自己的模型框架,从而降低成本。

而中国在这方面并不成熟,因为:一方面,国内大机型的主力都是大厂,都有自己的培训体系,外部供应商几乎没有机会进入;另一方面,国内也缺乏足够大的创业生态和中小企业,AI供应商很难在大厂之外找到生存空的空间。

以谷歌为例,谷歌愿意将其培训的数据成果分享给其数据质量供应商,帮助其提高数据处理能力。供应商的能力提升后,又会反过来为谷歌提供更多的高质量数据,从而形成良性循环。

国内AI基础生态的缺失,直接导致大模特创业门槛高。

王会文在刚离开光年的时候就提出了5000万美元的投资。这笔钱其实是李志飞替他算的,可以分成2000万美元算力,2000万美元找人,1000万美元数据。这反映了一个直接的问题。如果把在中国做一个大模型比作吃一顿热饭,那必须从挖坑种菜开始。

目前在AI2.0的热潮中,一个重要的特点就是“两极分化”:最受欢迎的要么是大型模型层,要么是应用层。而类似AI Infra(架构)的中间层则有很大的道理空。

不要盯着做轮子,做好螺丝也很重要。

04结论:巨人;改革者

王小川与百度空的口水战,成为近期大模特混战中的热闹插曲。

“高富帅”李彦宏认为中国基本不会再开放ai,所以用巨人的就可以了。

“直男”王小川说,一些业内人士(李彦宏)从未正确判断未来,一直生活在平行宇宙中。

抛开旧怨不谈,这大体可以看作是巨头和企业家的对立:巨头喜欢包办一切,而企业家喜欢打破常规。

科技行业的成功似乎更依赖于创新。毕竟从打造AlophaGo的DeepMind,到发布ChatGPT的OpenAI,都不是从巨头中孵化出来的。

这就是创新者的困境。

对于科技巨头来说,打造自己的轮子固然重要,但找到并孵化下一个OpenAI也不错。

本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系admin#jikehao.com删除。
(0)
极客号的头像极客号
上一篇 2023年 4月 14日
下一篇 2023年 4月 14日

相关推荐

合作联系:1152QQ041010