市值暴涨10519%，原来全世界搞大模型的企业都在给这位华人打工！

英伟达过去近20年间一直积蓄着软硬件力量，为2023年 AI 大爆发这一历史性时刻做好了准备。他们能够成为这场风暴的核心绝非偶然。

乘着 AI 这股东风，

英伟达“赢麻了”

英伟达是一家主要生产图形处理单元（简称 GPU）的厂商。但今时今日看来，“图形”这个表述已经不太准确，GPU 真正擅长的其实是工作量巨大的浮点数学运算。其早期用途就是支撑起计算机上搭配的高帧率与高分辨率显示器，也是图形处理这种说法的由来。毕竟在那个时代，这就是 GPU 最常见的应用场景。

大约在2005年左右，英伟达敏锐意识到图形虽然确实在疯狂吞噬浮点算力，但却绝对不是唯一的实际应用场景。于是他们踏上了一段漫长的研发旅程，积蓄下的力量也让他们成为如今这场 AI 风暴的绝对核心。从2007年的 CUDA 开始，英伟达开发的软件允许更多人使用 GPU 处理图形之外的更多工作负载。

2012年，英伟达的投入得到了初步回报。全球首个高质量图像识别 AI，也就是 AlexNet，正是建立在英伟达的 GPU 加软件之上，还成功在一年一度的 ImageNet 竞赛中碾压其他竞争对手。从那时起，英伟达的软硬件组合就成为除谷歌之外，所有厂商开展 AI 研究时的默认配置。

接下来，英伟达又把后续 GPU 研发划分成两条赛道:其一是 PC 端与加密货币采矿设备，其二则是数据中心 GPU。PC 端的 GPU 产品相当昂贵，最高售价可达1600美元左右;数据中心 GPU 的价格则更加夸张，往往高达1万到1.5万美元，甚至出现过4万美元的旗舰单卡。英伟达的数据中心 GPU 拥有约75% 的毛利空间，在硬件领域简直是前所未闻。

但这也是一家厂商在 AI 软硬件领域获得实质性垄断地位后，自然能够摘取的胜利果实。2012年之后还有另一件大事，就是英伟达的 GPU 和软件让 AI 模型的体量获得了指数级增长。

这里的 Y 轴递增为对数尺度，因此在右端的“现代”部分呈现出的其实是恐怖的指数级增长。

在2012年之前的几年间，模型体量大致按照摩尔定律每两年增加一倍。但从2012年开始，每家技术企业都开始用英伟达 GPU 研究机器学习，模型体量折线也开始一路飙升，每3到4个月就翻一番。这样的速度一路持续到 ChatGPT 亮相。期间出现的最大模型就是 AlphaGo，它最擅长的是在棋坪之上狂虐人类选手。甚至一直到2021年，当时最大的 AI 模型还只能玩玩游戏。

模型大小很重要，因为在生产环境中构建和运行这些模型的成本，也随着模型体量呈现出指数级增长。GPT-4的体量就是同族大哥 GPT-3.5的3到6倍。但 OpenAI 为 GPT-4API 开出的订阅费却要高出15到60倍。另外需要强调，OpenAI 开放的并不是 GPT-4的最佳版本。负责托管 OpenAI 大语言模型的微软 Azure 拿不出足够的 GPU 来支撑这项业务，所以大部分手头拮据的客户暂时还与最强大语言模型无缘。不止如此，GPU 供应短缺还阻碍着其他种种服务的实现。

我们举个简单的例子。请 ChatGPT 为即将召开的美联储会议写首诗，输入3句提示词，让它输出一首28行诗。看看这样一项简单任务，在 OpenAI API 上要花多少钱:

谷歌上一次公布搜索指数还是在2012年，当时的搜索量为1.2万亿次。这里采取较为保守的数字:3万亿次。（采用 ChatGPT Plus、token 计算软件、OpenAI API 计费标准）

价格之所以大幅上涨，原因就在于英伟达的数据中心 GPU 太过紧俏。受资源所限，第三列中的 GPT-432k 服务目前仍无法全面推开。

虽然大语言模型在最初的研究阶段，就已经确立了体量越大、成本越高的基本趋势，但生产层面的大规模推理带来了更加夸张的资源需求和设施开销。于是突然之间，AI 技术的基本经济逻辑发生了变化。过去十年间，每个人都在用英伟达的软硬件搞模型研究，所以如今钱都被英伟达给赚走了。

是的，我是说所有的钱:

微软季度财报

多年以来，随着收入的快速增长，微软在其智能云领域建立起强大的市场影响力。但随着被迫大量采购 GPU 以支撑 ChatGPT 的生产应用时，好日子正式宣告结束。微软的云运营利润率已经连续四个季度下降，原因自然就是英伟达数据中心 GPU 那高达75% 的毛利率。

面对英伟达 DGX H100这样一台 AI 服务器时，我们会发现其中的利润分配极其不均衡。

英伟达产品中各第三方组件的估算成本

作为 AI 服务器领域的绝对主力，英伟达 DGX H100总体销售额的约九成都落进了芯片巨头的口袋。这甚至还没算英伟达认证授权设备的钱。

如果大家碰巧想打造自己的高性能服务器，可以选择回避英伟达认证、搭载廉价 CPU，或者压缩内存 / 存储空间的方式来降低成本。当然，回避英伟达网络 DPU，换成博通或者 Mellanox（好像也跟英伟达有关系）等更便宜的硬件似乎也行，但这可能会导致性能瓶颈。但无论怎么节约，8个 H100GPU 和负责 GPU 互连的4个 NVSwitch 肯定躲不掉，光这些就要花掉你近18万美元。

钱确实都被英伟达给赚了，他们花了近20年时间为2023年的 AI 大爆发积蓄力量。虽然巨额利润让英伟达成为市场上的众矢之的，但其捍卫 AI 硬件主导权的护城河就是英伟达掌握着唯一完整的软硬件组合，而且这套组合是研究人员们自2012年以来就长期依赖的默认选项。随着我们将这些超大体量模型投入生产，这个默认选项正令每家参与厂商都“血流不止”。

那么，业界又有怎样的应对之道?目前来看主要分三点:

硬件:采用“AI 加速器”这类替代性硬件，以低得多的成本执行相同的工作。

模型体量:在近期开发中，研究人员正努力在更小的模型上达成更好的效果，借此显著降低对 GPU 算力的需求。

软件:将训练和推理负载从硬件上剥离出来，抽干英伟达的护城河。

AI 加速器:暗渡陈仓之策

AI 加速器其实是多种不同硬件类型的松散组合。这项技术始于2015年，当时谷歌的 AI 训练需求已经超过了英伟达的 GPU 供应能力。因此在同年，谷歌首次公布了供内部使用的张量处理单元（TPU）。目前 TPU2、3和4版已经在 Google Cloud 上开放租用，在执行相同工作负载时能比云 GPU 节约40% 到50% 成本。

这些加速器拥有多种设计方式，但底层技术逻辑是相同的——以计算成本更低的整数运算，模拟处理成本极高的浮点运算。这虽然会导致数学精度降低，但大量研究表明除科学应用之外，大多数 AI 模型并不需要英伟达 GPU 提供的极高精度。

所以这就像是在作弊，但效果似乎不错。现在我们已经看到了 AMD/Xilinx、高通和英特尔等厂商的 AI 加速器，再加上 Google Cloud 的原研 TPU。亚马逊旗下的 AWS 也开发出了自己的加速顺。另据报道，微软也打算为 Azure 研发加速器，可能会与 AMD 合作分担 OpenAI 的工作负载。但这一步也得走得小心谨慎。一方面，厂商们希望慢慢从英伟达手中夺回业务利润;另一方面，在可预见的未来，各厂商仍须采购大量英伟达 GPU。只有长袖善舞者才能在这样微妙的局面下始终占据主动地位。

在后文中，我们还会聊聊阻碍硬件发展的最大因素——英伟达的软件护城河。

模型体量:小即是美

2012年以来，AI 模型的体量开始迅速膨胀，每3到4个月就翻一番。经过多年积累，模型体量已经极为惊人。以 OpenAI 为例:

GPT-1（2018年）: 多达1.17亿参数

GPT-2（2019年）: 多达15亿参数

GPT-3（2020年）: 多达1750亿参数

GPT-4（2023年）: OpenAI 没有公布，但可能已经达到万亿级别

这样的体量在研究阶段还能承受，但到生产应用阶段已经开始产生恐怖的成本。受到 Azure 设施端 GPU 供应能力的限制，OpenAI 甚至无法将 GPT-4的最佳版本对外开放。

这些根本就不是秘密，从去年秋季开始，每个人都已经感受到了新的发展方向。“越大越好”在商业环境中没有任何意义，“小即是美”才是 AI 时代的新母题。

而这一切的开端，就是 ChatGPT 公布的那一刻。之前不少大大小小的公司都在做自然语言处理，ChatGPT 如同一记响亮的耳光，昭示世人什么叫更大更好、什么叫引领时代。恐慌情绪也由此开始蔓延。

去年，Stability AI 的开源 Stable Diffusion 图像生成模型得到了人们的普遍关注。不少厂商很快决定开源自家模型，看看能不能在社区的支持下更上一层楼。Facebook 就是其中之一，他们开源了自家 LLaMA 语言模型，其参数规模高达650亿，约为 GPT-3的三分之一，比 GPT-4小9到18倍。之后，斯坦福大学的研究人员又开发出了 Alpaca 版本，能够在几乎所有硬件上运行。转机就此出现。

只有拥有关注和热度，社区的开源开发速度往往相当惊人。如今，已经有大量应用程序被构建在 Alpaca 和其他开放模型之上。人们还在努力提升模型性能的同时，想办法控制它们的参数体量。

最重要的是，这些模型已经开始在消费级硬件，包括个人电脑甚至是智能手机上运行。而且它们完全免费，于是基础模型领域的分界线不再按企业划分，而是呈现出商业与开源两大阵营。谷歌当然也注意到了这股趋势。本届 I/O 大会上，他们就公布了一套比前代更小、但性能却更强的语言模型。

LaMDA （2021年）: 多达1370亿参数

PaLM （2022年）: 多达5400亿参数

PaLM2（2023年）: 根据未经证实的内部消息，参数多达3400亿，基本符合谷歌所谓比上代模型“明显更小”的说法

这是我印象中 AI 模型第一次小型化转变。其中最小的 PaLM2模型甚至能够运行在 PC 或智能手机之上。

必须承认，GPT-4仍然是最好最强的语言模型，但也是体量最大、运行成本最高的方案。这对英伟达有利，但也激起了业界打造高性能小模型的热情。谷歌已经迈出了第一步，开源贡献者也在微调自己的领域模型，而且主要以 LLaMA/Alpaca 为底材。

随着更多工作负载运行在消费级硬件之上，英伟达也必须接受市场对 GPU 算力的依赖度日益降低的现实。

软件:抽干护城河

非英伟达阵营的 AI 软件基础设施既不够完善又有严重的碎片化问题，在这样的硬件上构建系统往往会把人带进死胡同。唯一的例外就是谷歌，他们自2015年开始就在围绕 TPU 构建内部工具，并用实际行动证明这条路绝对走得通。

对英伟达来说，目前业务优势中最重要的部分并不是硬件——那只是表象，只是赚钱的载体。真正的核心，是他们研究了近20年的软件。软硬件之间的紧密结合，才形成了英伟达如今这坚不可摧的技术护城河。然而，高昂的生产运营开销已经令客户们不堪重负。

多年以来，非英伟达研究人员会各自根据需求编写软件，这种一盘散沙的组织形式根本拿不出统一且稳定的生产环境，也是颠覆英伟达霸权中最困难的一环。

目前同类最佳方案来自 Chris Lattner 创立的 Modular 公司。Lattner 在软件行业可谓是传奇人物，在研究生期间编写的 LLVM 成为目前各类主流软件编译器的基础。LLVM 的创新核心在于其模块化结构，能够扩展至任意编程语言和硬件平台。他曾在苹果主导创立了 Swift 编程语言团队，随后又在谷歌、特斯拉和 SiFive 任职。Modular 公司也在 A 轮融资中获得了谷歌的资助。

Modular 目前的一大工作重点是打造推理引擎，也就是负责在生产环境中运行模型的部分，且同样采用 LLVM 那样的模块化设计。它能够扩展至一切开发框架、云或硬件平台。无论模型本身如何构建，都可被放入模块化推理引擎之内，并在云端的任意硬件上运行……至少 Modular 公司承诺如此。

此举堪称釜底抽薪，誓要抽干英伟达的护城河，攻下皇城夺其鸟位。

英伟达的反击之战

英伟达正独力对抗整个世界，对手不只有自己的客户，还有客户的客户。而英伟达的思路非常简单——永不自满、永不止步。关注英伟达近期展会的朋友，一定都能感受到这种居安思危的强烈信念。

但有时候倾覆可能就有一瞬之间，而且真正的对手并不是看得见的洪水猛兽，而是看不见的涓流渗透——也就是那些更便宜、性能极差但却无处不在的普通硬件。

历史上类似的经典案例是 IBM 与英特尔之争。1970年代，IBM 的客户发现英特尔等厂商正着手打造“微型计算机”，但因为性能太差而表示不感兴趣。IBM 相信了客户的判断，认为不必管它。可英特尔的芯片在业余爱好者群体中掀起狂潮，健康的现金流也支撑起芯片巨头不断投资并改进自家 CPU。

随着首款 PC 电子表格软件 Visicalc 的面世，英特尔的微型计算机突然间足以胜任商业应用。IBM 客户立马改旗易帜，就连 IBM 自己也成为英特尔的第一位大客户。之后的故事，大家应该都知道了。