AI 内存论题

惯常的看法

怀疑者相信什么

“内存有周期性,这谁都知道,近来内存股的这波上涨明摆着是个泡沫。”

这个判断以前赚过钱,以后大概率还会再赚。在科技行业里,内存让成长型投资者亏掉的钱,几乎比任何产品都多。内存通常会经历这样的周期:

一次需求冲击袭击行业,把内存价格推高。
内存厂商争相扩产以满足需求。
产能过冲,市场倒向供给过剩。
过剩令价格崩塌 — 迫使亏损、整合以及投资收缩,而这又埋下下一轮上行的种子。

"在狂热中做空内存"几十年来都是条可靠的法则。但法则不等于论证。过去每一轮周期靠的都是同一个需求基础(PC、手机、服务器等),你可以按设备数量去数它,而供给通常都追得上。把内存称作"周期性",默认的前提是这个基础没有变。AI 正是需要重新核对这个前提的理由。

在足够长的时间尺度上,每家公司都是周期性的;差别只在周期的长短。这里真正新鲜的,是 AI 需求的规模与持久性,撞上了一个无法快速补上对口供给的行业。

重新框定

内存需求的三台引擎

归根结底是 DRAM 比特。HBM 建立在它之上,而比特这笔账是最简单的切入点 — 尽管随着前沿 AI 的门槛抬高,这些比特可以说已不再可以互相替代。

2022 年 GPT-3.5 让大语言模型走进大众时,它们还是聊天机器人:一问一答。此后它们变成了会采取行动、能完成任务的智能体系统,这一转变直到 2025 年底才真正加速。这正是内存需求的拐点所在,而它通过三种各自影响需求方式不同的动态来实现。

引擎 1

用量更大 →

最大、也最显而易见的一台。对 token 的需求正在暴涨。高盛估计,到 2030 年 token 需求将增长 24 倍。而一个智能体不会只回答一次;它会阅读、规划、调用工具、检查结果、再重试,有时无人值守地连续运行数小时。于是用量与每个任务的工作量一起攀升。

引擎 2

每个任务的状态更多 →

智能体系统每次查询所需的 token 大幅增加。智能体工作得越久,它保留在上下文里的东西就越多 — 一整个代码库、一组合同、一份研究资料 — 并在每一轮对话中都保持活跃。这份逐任务运行的记忆,是缓存,不是权重,而它会急剧膨胀。

引擎 3

更大、更强的模型 →

扩大规模似乎仍能买到能力,于是前沿系统不断增加参数和专家数。这意味着要常驻更多权重,而更深的模型也让每一个被缓存的 token 都变得更重,因此规模同时挤压两个内存池。

这几台引擎并非简单相加。用量更大意味着收入更多,从而为扩大规模提供资金。扩大规模带来更强的智能,进而解锁深度研究、智能体编程等新的长时运行能力。长时任务又需要更大的上下文,如此循环。三条上行曲线,其中数条相互叠加,加起来就是一张陡峭而非渐进攀升的内存账单。接下来看它是如何抵达 HBM 的。

历史战绩

这里大部分已经发生过了

在相信任何 2030 年的数字之前,先看看这些引擎已经走到哪儿 — 已在生产中,有公开记录。需求驱动因素在短短几年里已经跑出了 50 倍到 1000 倍。而它们底下的硬件,即 HBM 供给,过去一年只做到大约翻一番。这道差距已经写在后视镜里,而且不太可能缩小。

AI token / 月谷歌全线产品

9.7T2024年5月→480T2025年5月→3.2Q2026年5月

~330×两年内

前沿上下文窗口最大 token 数

2K’20→128K’23→2M’24

~1,000×四年内

最大前沿模型参数量

1.5B’19→175B’20→~1.8T*’23

~1,000×四年内

每块旗舰 GPU 的 HBMNVIDIA 规格

16GBP100 ’16→80H100 ’22→288B300 ’25

18×九年内

HBM 比特供给每年

1.5 EB’23→2.8 EB’24

~2×一年内

* GPT-4 级别的参数量是被报道的,并非官方披露,而稀疏混合专家(MoE)架构让原始参数计数只能近似。已确认的规格以蓝色标出。来源:Google I/O 2026(每月 3.2 千万亿 token);OpenAI、Anthropic 与谷歌模型卡;NVIDIA 数据手册;Yole Group。

我们并不依赖这种持续的天文级增长率来得出看多结论。我们假设每个因素都会急剧放缓:token 增速降到 5 年内 24 倍(来自高盛的数字),上下文的克制/效率成为常态,各种效率提升逐一兑现,由此得到的前瞻数字远比后视镜里克制。即便如此,三条减速的曲线加在一起,仍然压垮供给。过去四年不需要重演;它们只需优雅地放缓,而算术依旧倒向短缺。你可以在计算器里设定自己的假设。

运作机制

这份需求如何变成内存

AI 推理跑在 GPU 上,而模型"保留在上下文里"的每一个 token,都是必须紧贴芯片放在高速内存里、每次前向传播都要读取的字节。所以这三台引擎大体归结为三件决定内存账单的事:同时运行多少任务、每个任务保留多少上下文、模型有多大。把三者都推上去 — 更多智能体会话、更长的会话、更大的模型 — 账单就飞快攀升。

一块加速器芯片旁携带 80 到 192 GB 高速内存:NVIDIA H100 是 80 GB,H200 是 141 GB,Blackwell B200 是 180 GB,AMD 的 MI300X 是 192 GB。权重最先吃掉这块内存,而且是固定占用。DeepSeek-R1 有 6710 亿参数;即便用它原生的 8 位格式,那也是 671 GB,所以这个模型在回答任何一个请求之前,就已横跨九块 H100。

然后上下文再往上叠。智能体模型每个"回合"都需要越来越多的上下文,以记住自己在做什么。在 Llama-3.1-405B 上,你保留的每个 token 都会给 KV 缓存 — 对话的运行记忆 — 增加约 504 KB,因此一次完整的 128K token 会话大约是 68 GB,而这份缓存在每次前向传播时都要重新读取。更大的模型同时挤压两个内存池:更多的层和注意力头意味着更重的权重,也意味着更重的被缓存 token。一个 70B 模型每 token 缓存 320 KB;405B 则每 token 缓存 504 KB。

总体而言,模型越大,每个 token 的缓存所需就越多。

权重  = 1.75 EB × replicaIndex × modelScale / weightEff
kv      = 1.27 EB × traffic^0.55 × contextBucket
临时 = (权重 + kv) × 0.15
需求  = (权重 + kv + 临时) × redundancy / 0.74

这些旋钮,用大白话说: replicaIndex = 承接这些流量需要多少个服务副本 · modelScale = 前沿模型相对 2026 年的大小 · weightEff = 压缩后每个参数占多少字节 · contextBucket = 每个 token 汇总起来的缓存压力。

基准情形

基准情形是 3.2× 短缺,而供需平衡很难达到

我们看全球 2030 年能造出的 HBM 量,并与 2030 年对 HBM 的预期需求作对比。有几个假设格外重要。第一是缓存效率:到 2030 年,分页、量化和复用能把上下文缓存的占用挤回来多少。我们假设 3 倍,高于历史水平,但低于研究论文提出的理论峰值。第二是模型组合:多少推理跑在大型前沿模型上,又有多少跑在更小、更便宜的模型上。今天,前沿级模型约占推理需求的 70%;把这个比例调高或调低,只会挪动常驻权重那一块,所以它是微调总量,而非左右总量。最后是供给:2030 年全球实际能造出多少 HBM。我们的基准情形假设翻一番,依据的是 TrendForce 的分析。这里还有若干旋钮,包括中国产能的预测,你都可以在计算器里拨动。

3.2×

2030 需求 24.3 vs 供给 7.6 EB/年

即便给出现实的效率提升和适度的路由分流,三台引擎仍要吃掉全球一年能造出量的大约三倍,而且这个比值逐年扩大。

需求

24.3

供给

7.6

你可以在计算器一节里拨弄模型,但有几点很突出。把缓存效率推到 4 倍,需求也只降到 约 19 EB/年,对比 7.6 EB 的产量,仍是 2.5× 的短缺 — 而把大笔支出路由到更小的模型上,几乎改变不了这一点,因为权重只占账单的大约六分之一。

这道缺口似乎也逐年扩大。到 2030 年需求叠加约 5×,而产量翻番,于是每一年开局都比上一年更宽:

2026

4.8

2027

6.7

2028

9.8

2029

15.1

2030

24.3

权重KV 缓存临时内存

缓存是最大的一块,占 71%,因为用量和状态都在给它添料,但权重一路攀升,整个堆栈同步上移。对比约 7.6 EB 的年产量,2026 年 1.28× 的紧张 — 已足以让市场售罄 — 到 2030 年扩大到 3.2×。这看起来是一个结构性的、不断扩大的、以产能速率衡量的短缺,也是本页余下部分的出发点。

空头情形

要靠优化摆脱这局面,需要什么

有两招能把市场推向平衡:压低需求,或者让供给增长得比行业自己说的更快。

缓存效率旋钮(相对今天衡量)是最主要的模型效率提升,因为它直接针对 HBM 需求的最大贡献者。

HBM 年产量旋钮调节 2030 年供给会比今天高多少。

前沿 vs 低端组合旋钮设定有多少 token 需求使用大型、常驻 HBM 的模型(今天约 70%)。很多人误以为中国模型或其他开源模型能解决内存供给问题,但真正起决定作用的,似乎是智能体工作本身的性质,而非模型的大小。

可交互 · 实时重算

供给爬坡旋钮

用你选定的 HBM 年产量对比 2030 年年度需求,每拨一下都按公开的分档公式重新计算。

到 2030 年的 KV 缓存效率 3.0×

2.0×(悲观)3.0× 基准6.0×(已解决)

2030 年 HBM 年产量 7.6 EB · 2.0×

2.0×(真实路径)3.0×(激进)6.5×(过剩)

前沿 vs 低端模型支出 70% 前沿

50%(大量路由)70% 当下100%(全前沿)

2030 需求/年24.3

2030 供给/年7.6

需求 ÷ 供给3.2×

1.5× 3.5×

结论:结构性短缺

过剩 < 1.0× · 紧张 1.0–1.5× · 短缺 1.5–3.5× · 严重 > 3.5×。把需求杠杆拉到最大(6× 缓存效率),需求也只降到 ~14 EB — 在真实供给路径下仍是 2× 短缺。让需求保持在基准,要达到平衡需要产量在 2030 年前增长约 6.4×;即便把需求杠杆拉满,也仍需约 3.8× — 远超行业指引的约 2×。想用完整的仪表?在计算器里打开基准情形 →

在保持现实供给假设的前提下,这些旋钮很难拨出一个过剩的结果。

结果的分布区间

六种情形,以及各自留下的缺口

每一档都是一个完整、可打开的情形 — 对决定结果的两个杠杆(需求效率与供给爬坡)的一种不同解读。注意要清除这道短缺需要什么:唯一一档能追上的情形,需要效率被解决并且产量以行业指引两倍的速度爬坡,两者同时发生。几乎所有其他可信的情形都落在 2× 到 5× 的短缺。点击任意一档,即可把它精确的旋钮设置载入计算器。

空头全线获胜KV 效率解决到 5.5× 且产量爬坡 4×+ — 若一切顺利,供给略微领先

0.95×

优化取胜KV 效率被解决,但产量以真实的约 2× 速度增长

2.00×

空头下限可辩护的最大效率,4× KV — 仍是 2.5× 短缺

2.54×

基准情形KV 3×,真实约 2× 供给爬坡 — 现实主义者的解读

3.20×

KV 悲观KV 效率停在 2.5×,每个 token 都留在 HBM 上

3.91×

供给停滞基准需求,但封装把产量卡在接近今天的速度

4.86×

没有哪个格外舒服的情形可以退守。缓存效率,这个单一最优的需求杠杆,也只能把基准从 3.2× 拉到大约 2×;要补上其余部分,还得在此之上叠加一次快速的供给爬坡。整条阶梯都该摆上台面,而不是只留一个招牌数字。

下图展示了拨动每个旋钮,能把整体局面挪动多少。

供给爬坡2× → 6.5× 2030 年产量 — 唯一能补上缺口的杠杆

上下文 / KV 压力需求复合项 — 能压弯,补不平

Token 需求每月 50Q → 180Q

常驻模型占用1.2× → 5.0×

HBM 服务路由50% → 100% 份额

权重内存效率压缩 — 几乎挪不动它

每根横条把一个杠杆扫过其合理区间;深色竖线标出 3.2× 基准。越往右 = 短缺越大。

以速率衡量,排序会翻转:供给 — 全球能多快造出 HBM — 占据主导,因为它是最能补上产能缺口的杠杆。需求端的旋钮能压弯这条线;单独几乎没有一个能达到平衡,即便叠加,也只有在最激进的边缘才勉强做到。这就是一张图里的全部论点。

供给端

产能扩张速度有真实的物理极限

大多数人承认 AI 需求会爆发,但怀疑者要么押注效率突破(我们的计算器提示它力有不逮),要么押注大规模的供给释放。供给几乎肯定会继续上线,问题在于有多快。行业 HBM 产量在 2024 年约为 2.8 EB,到 2030 年达到每年约 7.6 EB,六年间约 2.7×,相对模型的 2026 年基数勉强翻番,而且一路减速(Yole Group 比特供给数据)。这是整个地球的年产量,对比想要约 5× 的需求。产量不太可能再次翻番就追上,因为对前沿 AI 而言可用的 HBM 不是一个原始比特数 — 它是一片要闯过四道关卡的晶圆:

01晶圆分配

在不饿死那个仍在支付账单的传统市场的前提下,有多少 DRAM 产能能转向 HBM?

02堆叠与良率

其中有多少产出能在可接受的良率下达到正确的堆叠层高、速度和质量?

03封装

这些堆栈能否规模化地集成进加速器和 ASIC 封装?这才是真正的瓶颈。

04认证

它能否通过进入决定前沿产能的那些特定系统?一个合格的第二供应源要以季度计,而非以周计。

供给爬坡是最响亮的旋钮

这个建造速率究竟能长多快?

把需求固定在 24.3 EB/年的基准。真实路径到 2030 年大致把产量翻番到约 7.6 EB。假设一个比任何人指引都更快的爬坡,短缺会缓解 — 但要补平需要一个几乎无法想象的爬坡:即便高度乐观的 4× 也仍落后于从已然紧张的基数上增长约 5× 的需求,而你需要约 6.4× 才能打平:

7.6 EB/年 2.0× · 真实

3.2×

9.4 EB/年 2.5×

2.6×

11.3 EB/年 3.0×

2.2×

15 EB/年 4.0× · 幻想

1.6×

TrendForce 预计,前三大供应商的 HBM 晶圆投入将从 2025 年约占 DRAM 晶圆的 18% 攀升至 2027 年底的 30%,每颗 AI 芯片的容量从 96/192 GB 升至 216/288 GB,Rubin Ultra 预计达 384 GB。那是一次产能再分配,而非补库存,而再分配在两个方向上都很黏。

美光 2026 财年第三季度最近的财报也把这一点推到聚光灯下:他们签了 16 份跨越 2026–2030 年的战略客户(长期)协议,超过 1000 亿美元处于最低价格条款下的收入,约 220 亿美元的客户预付款,HBM4 的爬坡跑在 HBM3E 之前,而管理层仍指引紧张状况会延续到 2027 日历年之后。超大规模云厂商愿意签订长期内存合同,说明他们看到了同样的东西。

DRAM 大体上是大宗商品,而 HBM 的制造要难得多。最清楚的证据是,连在位者都会栽跟头:三星,三大 DRAM 厂商之一,花了大约 18 个月反复送样、失败、重新提交它的 12 层 HBM3E 以求通过 NVIDIA 认证,直到 2025 年底才终于过关(TrendForce),而 NVIDIA 已经在把 HBM4 的规格推得更高(Tom's Hardware)。如果一个前三的在位者都要花十八个月才能认证一个部件,那么一个全新进入者 — 无论在中国还是别处 — 都不太可能按时缓解 2030 年的短缺。

我们的计算器把中国当作一个独立的池:你可以设定它的晶圆厂达到量产的年份,以及它到 2030 年触及的全球 HBM 比特份额 — 而很难看出它能缓解全球的短缺。

内存厂商

短缺看起来几乎已成定局。它对损益表意味着什么?

这个模型的设计只为预测一个数字:2030 年全球每年会短缺多少艾字节。但这个数字如何流向内存厂商的股票,并不一定立即清晰。

01售罄的订单簿

这里的"紧张"不是预测,而是已签约 — 1000 亿美元以上处于最低价格条款下,并已收取 220 亿美元预付款。2030 年的赤字往往会把这本订单簿朝稀缺、而非宽松的方向重新定价。

02定价权

当约束性投入是合格的 HBM,而需求跑到能造出量的数倍之外,边际比特往往会像稀缺的资本品、而非大宗商品那样定价。供应商往往会获得设定条款的筹码。这一条相当直接地指向那道缺口。

03利润率扩张

一座 HBM 晶圆厂主要是固定成本。让它在坚挺价格下满产运转,增量收入往往会重重砸向利润底部。毛利率和自由现金流往往比收入拉伸得更快 — 经营杠杆,指向上方。

04估值重估

一个周期性更弱、利润率更高、能产生现金的特许经营,往往能赢得大宗商品 DRAM 从未能获得的估值倍数。这才是多头真正在为之付费的东西 — 也是模型唯一无法直接交给你的那一步。

3 倍的供需失衡很可能会流经上述全部四步 — 短缺不会止步于售罄的订单簿;它往往会一路渗入定价、利润率,并最终渗入估值倍数。

第 1 步已经签约且公开;美光的预付款和最低价格协议今天就在账上。第 2 步往往从持续的赤字中生出,而我们正看到 DRAM 价格一路爬升,几乎没有放缓的迹象。第 3 步往往从第 2 步中掉出来,而第 4 步正是长时间供需失衡在历史上所指向的地方。

结论

一个售罄的市场很少崩盘。它会重新定价。

这次巨大的需求激增,叠加在仅有三家供应商的格局下认证新 HBM 供给的难度,正是市场历史上往往迟迟未能定价的那类局面。

美光近期的强势,很可能是市场开始为这些基本面定价:创纪录的季度、1000 亿美元以上的最低价格协议、指引至 2027 年之后的紧张。它读起来像是那场残酷的下行周期,倒着放了一遍。

链条很短。缺口看起来是结构性的。

回到旋钮打开完整计算器 →

动态监测

论题应当被打分,而非被辩护

信号 · 旋钮基准情形与可证伪的触发条件最新读数

KV 效率需求端杠杆

基准设为 3.0×。空头触发:生产级技术栈(MLA、KV 量化、跨请求复用)可信地突破 5×+ → 把需求线朝 2× 供给方向削减,但单靠它无法补平速率缺口。

观察中2026 年 6 月 — MLA、KV 量化和跨请求复用正在落地(Dynamo、vLLM),但生产端的收益仍在约 2–3× — 短于能压弯需求线的 5×+。符合模型。

路由HBM 服务份额

基准设为 70%。空头触发:大多数增量 token 明确地在内存轻量的模型或 ASIC 上服务,且无质量损失。

偏空2026 年 6 月 — 廉价推理正在抢占 token 份额,但廉价的赢家是大型 MoE(DeepSeek 级),它们仍然活在 HBM 上 — 尚未出现质量中性地转向内存轻量服务的迹象。组合维持在约 70%。

上下文平均常驻状态

工作负载趋向有状态(智能体、编程、研究)。空头触发:尽管宣传的窗口更大,实测的平均常驻上下文却朝 1.0× 回落。

偏多2026 年 6 月 — 工作负载持续趋向更有状态(智能体、编程、长研究会话);平均常驻上下文在上升,而非压缩。倾向于反对基准。

供给爬坡年产量,EB/年 — 主导杠杆

到 2030 年 HBM 年产量约 7.6 EB/年,约 2× 爬坡;封装是关卡。空头触发:年产量可信地朝 3×+ 爬坡(>11 EB/年)推进,且不饿死传统 DRAM → 短缺实质性缓解。

观察中2026 年 6 月 — Yole/TrendForce 仍映射出到 2030 年约 2× 的比特爬坡;美光的 HBM4 跑在 HBM3E 之前,但封装和认证仍是关卡。符合模型。

纪律模型之外 — 周期性押注

三供应商定价权完好;战略客户协议锁定最低价格。空头触发:任一供应商为抢份额新增合格产能,或合约价格保护明显松动。

未建模风险2026 年 6 月 — 三供应商定价权完好,战略客户协议锁定最低价格(美光 FQ3);无为抢份额新增的合格产能。模型之外的周期风险,未变。

如果基准情形错了,它不会以"内存果然还是有周期性"的方式出现。它会以这些旋钮中的某一个越过这些触发条件的方式出现 — 这正是让它成为一个你可以被证明为错的论题、而非一句口号的原因。

来源

这些数字从何而来

每个来源只被用于它实际能证明的东西,一手发布均已追溯核对至原文。

一手高盛研究 — 到 2030 年 token 增长 24× 至每月约 120 千万亿的框架。仅用于流量曲线;为单一分析师的预测,并如此标注。
一手NVIDIA Rubin 与 H100 规格 — 从 80 GB HBM3 到最高 288 GB HBM4。历史战绩和供给爬坡背后每块加速器的 HBM 阶梯上移。
一手TrendForce — 晶圆投入 18%→30% 与 Rubin Ultra 384 GB,以及三星的 18 个月 HBM3E 认证;约 2.8→7.6 EB 的年产量路径来自 Yole Group 比特供给数据。供给端。
一手美光 FQ3 2026 — 415 亿美元营收、16 份战略客户协议、1000 亿美元以上最低价格、220 亿美元预付款、HBM4 领先、紧张延续至 2027 年之后。已签约、售罄的订单簿。
建模Dynamo 与 vLLM PagedAttention — 为什么上下文缓存是真实的服务状态,以及为什么它同时也在被优化。

免责声明

「内存分析」是一个独立研究站点,由一个人撰写,用于讨论、教育,坦白说,还有娱乐。它不是财务、投资、法律、税务、会计或采购建议,不针对你个人,也不考虑你的目标、风险承受能力或处境。这里的任何内容都不是买卖任何证券的推荐、招揽或要约,也不构成任何顾问、受托或客户关系。「Alex Corrino」以尽力而为的业余身份独立写作,就本站而言,并非以注册投资顾问、经纪商或持牌专业人士的身份行事。如果你想要建议,请聘请有牌照的人来提供。本站仅供信息和娱乐用途。

现在是最重要的部分:作者持有此处讨论的部分公司的仓位,可能做多和/或做空。这里提到的名字 — 美光、SK 海力士、三星、NVIDIA、AMD 及其他 — 是被覆盖内容的示例,并非当前持仓清单,也不代表作者在任何特定时刻所持有的东西。作者本人及其家人或关联账户的仓位可随时改变,恕不另行通知,且没有披露、更新或纠正的义务。作者未收取任何被提及公司的报酬,也与之没有联属或赞助关系。请假设存在真实且内建的利益冲突,假设内容可能是自利的,并如此阅读它。

本文、计算器、图表、监测面板及模型输出,都是基于公开信息、估算、简化、AI 辅助工具,以及你或作者恰好选定的假设所构建的情景分析。它们可能有误、过时、不完整或自相矛盾,而 HBM 供给、AI 需求、模型架构、出口管制、定价、良率、封装产能与服务效率都在快速变化。所有内容均按现状提供,不作任何形式的保证,也不承担准确或完整的义务;内容乃至本站本身都可能随时更改或消失,恕不通知。前瞻性陈述与估算是猜测,而非保证。过往表现和先前的判断不预示未来结果,任何盈利都不具代表性,而投资涉及真实风险,包括可能损失你全部本金。

请自己做功课,核对一手来源,并在依据任何内容采取行动之前咨询你自己持牌的财务、法律和税务专业人士;外部链接和引用既不代表认可,也不由作者负责。你做出的任何决定,后果由你独自承担、风险自负。在法律允许的最大范围内,作者对因你使用本站或依赖本站而产生的任何损失或损害概不负责,你也同意就因你使用本站而引起的索赔使作者免责。本站仅供在阅读它属合法之处使用,并以美国视角撰写。若本声明任何部分不可执行,其余部分仍然有效。使用风险自负,等等。

内存有周期性。但需求的拐点来得比供给更快。