惯常的看法
怀疑者相信什么
“内存有周期性,这谁都知道,近来内存股的这波上涨明摆着是个泡沫。”
这个判断以前赚过钱,以后大概率还会再赚。在科技行业里,内存让成长型投资者亏掉的钱,几乎比任何产品都多。内存通常会经历这样的周期:
- 一次需求冲击袭击行业,把内存价格推高。
- 内存厂商争相扩产以满足需求。
- 产能过冲,市场倒向供给过剩。
- 过剩令价格崩塌 — 迫使亏损、整合以及投资收缩,而这又埋下下一轮上行的种子。
"在狂热中做空内存"几十年来都是条可靠的法则。但法则不等于论证。过去每一轮周期靠的都是同一个需求基础(PC、手机、服务器等),你可以按设备数量去数它,而供给通常都追得上。把内存称作"周期性",默认的前提是这个基础没有变。AI 正是需要重新核对这个前提的理由。
在足够长的时间尺度上,每家公司都是周期性的;差别只在周期的长短。这里真正新鲜的,是 AI 需求的规模与持久性,撞上了一个无法快速补上对口供给的行业。
重新框定
内存需求的三台引擎
归根结底是 DRAM 比特。HBM 建立在它之上,而比特这笔账是最简单的切入点 — 尽管随着前沿 AI 的门槛抬高,这些比特可以说已不再可以互相替代。
2022 年 GPT-3.5 让大语言模型走进大众时,它们还是聊天机器人:一问一答。此后它们变成了会采取行动、能完成任务的智能体系统,这一转变直到 2025 年底才真正加速。这正是内存需求的拐点所在,而它通过三种各自影响需求方式不同的动态来实现。
引擎 1
用量更大 →
最大、也最显而易见的一台。对 token 的需求正在暴涨。高盛估计,到 2030 年 token 需求将增长 24 倍。而一个智能体不会只回答一次;它会阅读、规划、调用工具、检查结果、再重试,有时无人值守地连续运行数小时。于是用量与每个任务的工作量一起攀升。
引擎 2
每个任务的状态更多 →
智能体系统每次查询所需的 token 大幅增加。智能体工作得越久,它保留在上下文里的东西就越多 — 一整个代码库、一组合同、一份研究资料 — 并在每一轮对话中都保持活跃。这份逐任务运行的记忆,是缓存,不是权重,而它会急剧膨胀。
引擎 3
更大、更强的模型 →
扩大规模似乎仍能买到能力,于是前沿系统不断增加参数和专家数。这意味着要常驻更多权重,而更深的模型也让每一个被缓存的 token 都变得更重,因此规模同时挤压两个内存池。
这几台引擎并非简单相加。用量更大意味着收入更多,从而为扩大规模提供资金。扩大规模带来更强的智能,进而解锁深度研究、智能体编程等新的长时运行能力。长时任务又需要更大的上下文,如此循环。三条上行曲线,其中数条相互叠加,加起来就是一张陡峭而非渐进攀升的内存账单。接下来看它是如何抵达 HBM 的。
历史战绩
这里大部分已经发生过了
在相信任何 2030 年的数字之前,先看看这些引擎已经走到哪儿 — 已在生产中,有公开记录。需求驱动因素在短短几年里已经跑出了 50 倍到 1000 倍。而它们底下的硬件,即 HBM 供给,过去一年只做到大约翻一番。这道差距已经写在后视镜里,而且不太可能缩小。
* GPT-4 级别的参数量是被报道的,并非官方披露,而稀疏混合专家(MoE)架构让原始参数计数只能近似。已确认的规格以蓝色标出。来源:Google I/O 2026(每月 3.2 千万亿 token);OpenAI、Anthropic 与谷歌模型卡;NVIDIA 数据手册;Yole Group。
我们并不依赖这种持续的天文级增长率来得出看多结论。我们假设每个因素都会急剧放缓:token 增速降到 5 年内 24 倍(来自高盛的数字),上下文的克制/效率成为常态,各种效率提升逐一兑现,由此得到的前瞻数字远比后视镜里克制。即便如此,三条减速的曲线加在一起,仍然压垮供给。过去四年不需要重演;它们只需优雅地放缓,而算术依旧倒向短缺。你可以在计算器里设定自己的假设。
运作机制
这份需求如何变成内存
AI 推理跑在 GPU 上,而模型"保留在上下文里"的每一个 token,都是必须紧贴芯片放在高速内存里、每次前向传播都要读取的字节。所以这三台引擎大体归结为三件决定内存账单的事:同时运行多少任务、每个任务保留多少上下文、模型有多大。把三者都推上去 — 更多智能体会话、更长的会话、更大的模型 — 账单就飞快攀升。
一块加速器芯片旁携带 80 到 192 GB 高速内存:NVIDIA H100 是 80 GB,H200 是 141 GB,Blackwell B200 是 180 GB,AMD 的 MI300X 是 192 GB。权重最先吃掉这块内存,而且是固定占用。DeepSeek-R1 有 6710 亿参数;即便用它原生的 8 位格式,那也是 671 GB,所以这个模型在回答任何一个请求之前,就已横跨九块 H100。
然后上下文再往上叠。智能体模型每个"回合"都需要越来越多的上下文,以记住自己在做什么。在 Llama-3.1-405B 上,你保留的每个 token 都会给 KV 缓存 — 对话的运行记忆 — 增加约 504 KB,因此一次完整的 128K token 会话大约是 68 GB,而这份缓存在每次前向传播时都要重新读取。更大的模型同时挤压两个内存池:更多的层和注意力头意味着更重的权重,也意味着更重的被缓存 token。一个 70B 模型每 token 缓存 320 KB;405B 则每 token 缓存 504 KB。
总体而言,模型越大,每个 token 的缓存所需就越多。
kv = 1.27 EB × traffic^0.55 × contextBucket
临时 = (权重 + kv) × 0.15
需求 = (权重 + kv + 临时) × redundancy / 0.74
这些旋钮,用大白话说: replicaIndex = 承接这些流量需要多少个服务副本 · modelScale = 前沿模型相对 2026 年的大小 · weightEff = 压缩后每个参数占多少字节 · contextBucket = 每个 token 汇总起来的缓存压力。
基准情形
基准情形是 3.2× 短缺,而供需平衡很难达到
我们看全球 2030 年能造出的 HBM 量,并与 2030 年对 HBM 的预期需求作对比。有几个假设格外重要。第一是缓存效率:到 2030 年,分页、量化和复用能把上下文缓存的占用挤回来多少。我们假设 3 倍,高于历史水平,但低于研究论文提出的理论峰值。第二是模型组合:多少推理跑在大型前沿模型上,又有多少跑在更小、更便宜的模型上。今天,前沿级模型约占推理需求的 70%;把这个比例调高或调低,只会挪动常驻权重那一块,所以它是微调总量,而非左右总量。最后是供给:2030 年全球实际能造出多少 HBM。我们的基准情形假设翻一番,依据的是 TrendForce 的分析。这里还有若干旋钮,包括中国产能的预测,你都可以在计算器里拨动。
即便给出现实的效率提升和适度的路由分流,三台引擎仍要吃掉全球一年能造出量的大约三倍,而且这个比值逐年扩大。
你可以在计算器一节里拨弄模型,但有几点很突出。把缓存效率推到 4 倍,需求也只降到 约 19 EB/年,对比 7.6 EB 的产量,仍是 2.5× 的短缺 — 而把大笔支出路由到更小的模型上,几乎改变不了这一点,因为权重只占账单的大约六分之一。
这道缺口似乎也逐年扩大。到 2030 年需求叠加约 5×,而产量翻番,于是每一年开局都比上一年更宽:
缓存是最大的一块,占 71%,因为用量和状态都在给它添料,但权重一路攀升,整个堆栈同步上移。对比约 7.6 EB 的年产量,2026 年 1.28× 的紧张 — 已足以让市场售罄 — 到 2030 年扩大到 3.2×。这看起来是一个结构性的、不断扩大的、以产能速率衡量的短缺,也是本页余下部分的出发点。
空头情形
要靠优化摆脱这局面,需要什么
有两招能把市场推向平衡:压低需求,或者让供给增长得比行业自己说的更快。
缓存效率旋钮(相对今天衡量)是最主要的模型效率提升,因为它直接针对 HBM 需求的最大贡献者。
HBM 年产量旋钮调节 2030 年供给会比今天高多少。
前沿 vs 低端组合旋钮设定有多少 token 需求使用大型、常驻 HBM 的模型(今天约 70%)。很多人误以为中国模型或其他开源模型能解决内存供给问题,但真正起决定作用的,似乎是智能体工作本身的性质,而非模型的大小。
供给爬坡旋钮
用你选定的 HBM 年产量对比 2030 年年度需求,每拨一下都按公开的分档公式重新计算。
结论:结构性短缺
过剩 < 1.0× · 紧张 1.0–1.5× · 短缺 1.5–3.5× · 严重 > 3.5×。把需求杠杆拉到最大(6× 缓存效率),需求也只降到 ~14 EB — 在真实供给路径下仍是 2× 短缺。让需求保持在基准,要达到平衡需要产量在 2030 年前增长约 6.4×;即便把需求杠杆拉满,也仍需约 3.8× — 远超行业指引的约 2×。想用完整的仪表?在计算器里打开基准情形 →
在保持现实供给假设的前提下,这些旋钮很难拨出一个过剩的结果。
结果的分布区间
六种情形,以及各自留下的缺口
每一档都是一个完整、可打开的情形 — 对决定结果的两个杠杆(需求效率与供给爬坡)的一种不同解读。注意要清除这道短缺需要什么:唯一一档能追上的情形,需要效率被解决并且产量以行业指引两倍的速度爬坡,两者同时发生。几乎所有其他可信的情形都落在 2× 到 5× 的短缺。点击任意一档,即可把它精确的旋钮设置载入计算器。
没有哪个格外舒服的情形可以退守。缓存效率,这个单一最优的需求杠杆,也只能把基准从 3.2× 拉到大约 2×;要补上其余部分,还得在此之上叠加一次快速的供给爬坡。整条阶梯都该摆上台面,而不是只留一个招牌数字。
下图展示了拨动每个旋钮,能把整体局面挪动多少。
每根横条把一个杠杆扫过其合理区间;深色竖线标出 3.2× 基准。越往右 = 短缺越大。
以速率衡量,排序会翻转:供给 — 全球能多快造出 HBM — 占据主导,因为它是最能补上产能缺口的杠杆。需求端的旋钮能压弯这条线;单独几乎没有一个能达到平衡,即便叠加,也只有在最激进的边缘才勉强做到。这就是一张图里的全部论点。
供给端
产能扩张速度有真实的物理极限
大多数人承认 AI 需求会爆发,但怀疑者要么押注效率突破(我们的计算器提示它力有不逮),要么押注大规模的供给释放。供给几乎肯定会继续上线,问题在于有多快。行业 HBM 产量在 2024 年约为 2.8 EB,到 2030 年达到每年约 7.6 EB,六年间约 2.7×,相对模型的 2026 年基数勉强翻番,而且一路减速(Yole Group 比特供给数据)。这是整个地球的年产量,对比想要约 5× 的需求。产量不太可能再次翻番就追上,因为对前沿 AI 而言可用的 HBM 不是一个原始比特数 — 它是一片要闯过四道关卡的晶圆:
在不饿死那个仍在支付账单的传统市场的前提下,有多少 DRAM 产能能转向 HBM?
其中有多少产出能在可接受的良率下达到正确的堆叠层高、速度和质量?
这些堆栈能否规模化地集成进加速器和 ASIC 封装?这才是真正的瓶颈。
它能否通过进入决定前沿产能的那些特定系统?一个合格的第二供应源要以季度计,而非以周计。
供给爬坡是最响亮的旋钮
这个建造速率究竟能长多快?
把需求固定在 24.3 EB/年 的基准。真实路径到 2030 年大致把产量翻番到约 7.6 EB。假设一个比任何人指引都更快的爬坡,短缺会缓解 — 但要补平需要一个几乎无法想象的爬坡:即便高度乐观的 4× 也仍落后于从已然紧张的基数上增长约 5× 的需求,而你需要约 6.4× 才能打平:
TrendForce 预计,前三大供应商的 HBM 晶圆投入将从 2025 年约占 DRAM 晶圆的 18% 攀升至 2027 年底的 30%,每颗 AI 芯片的容量从 96/192 GB 升至 216/288 GB,Rubin Ultra 预计达 384 GB。那是一次产能再分配,而非补库存,而再分配在两个方向上都很黏。
美光 2026 财年第三季度最近的财报也把这一点推到聚光灯下:他们签了 16 份跨越 2026–2030 年的战略客户(长期)协议,超过 1000 亿美元处于最低价格条款下的收入,约 220 亿美元的客户预付款,HBM4 的爬坡跑在 HBM3E 之前,而管理层仍指引紧张状况会延续到 2027 日历年之后。超大规模云厂商愿意签订长期内存合同,说明他们看到了同样的东西。
DRAM 大体上是大宗商品,而 HBM 的制造要难得多。最清楚的证据是,连在位者都会栽跟头:三星,三大 DRAM 厂商之一,花了大约 18 个月反复送样、失败、重新提交它的 12 层 HBM3E 以求通过 NVIDIA 认证,直到 2025 年底才终于过关(TrendForce),而 NVIDIA 已经在把 HBM4 的规格推得更高(Tom's Hardware)。如果一个前三的在位者都要花十八个月才能认证一个部件,那么一个全新进入者 — 无论在中国还是别处 — 都不太可能按时缓解 2030 年的短缺。
我们的计算器把中国当作一个独立的池:你可以设定它的晶圆厂达到量产的年份,以及它到 2030 年触及的全球 HBM 比特份额 — 而很难看出它能缓解全球的短缺。
内存厂商
短缺看起来几乎已成定局。它对损益表意味着什么?
这个模型的设计只为预测一个数字:2030 年全球每年会短缺多少艾字节。但这个数字如何流向内存厂商的股票,并不一定立即清晰。
这里的"紧张"不是预测,而是已签约 — 1000 亿美元以上处于最低价格条款下,并已收取 220 亿美元预付款。2030 年的赤字往往会把这本订单簿朝稀缺、而非宽松的方向重新定价。
当约束性投入是合格的 HBM,而需求跑到能造出量的数倍之外,边际比特往往会像稀缺的资本品、而非大宗商品那样定价。供应商往往会获得设定条款的筹码。这一条相当直接地指向那道缺口。
一座 HBM 晶圆厂主要是固定成本。让它在坚挺价格下满产运转,增量收入往往会重重砸向利润底部。毛利率和自由现金流往往比收入拉伸得更快 — 经营杠杆,指向上方。
一个周期性更弱、利润率更高、能产生现金的特许经营,往往能赢得大宗商品 DRAM 从未能获得的估值倍数。这才是多头真正在为之付费的东西 — 也是模型唯一无法直接交给你的那一步。
3 倍的供需失衡很可能会流经上述全部四步 — 短缺不会止步于售罄的订单簿;它往往会一路渗入定价、利润率,并最终渗入估值倍数。
第 1 步已经签约且公开;美光的预付款和最低价格协议今天就在账上。第 2 步往往从持续的赤字中生出,而我们正看到 DRAM 价格一路爬升,几乎没有放缓的迹象。第 3 步往往从第 2 步中掉出来,而第 4 步正是长时间供需失衡在历史上所指向的地方。
结论
一个售罄的市场很少崩盘。它会重新定价。
这次巨大的需求激增,叠加在仅有三家供应商的格局下认证新 HBM 供给的难度,正是市场历史上往往迟迟未能定价的那类局面。
美光近期的强势,很可能是市场开始为这些基本面定价:创纪录的季度、1000 亿美元以上的最低价格协议、指引至 2027 年之后的紧张。它读起来像是那场残酷的下行周期,倒着放了一遍。
链条很短。缺口看起来是结构性的。
动态监测
论题应当被打分,而非被辩护
如果基准情形错了,它不会以"内存果然还是有周期性"的方式出现。它会以这些旋钮中的某一个越过这些触发条件的方式出现 — 这正是让它成为一个你可以被证明为错的论题、而非一句口号的原因。
来源
这些数字从何而来
每个来源只被用于它实际能证明的东西,一手发布均已追溯核对至原文。
- 一手高盛研究 — 到 2030 年 token 增长 24× 至每月约 120 千万亿的框架。仅用于流量曲线;为单一分析师的预测,并如此标注。
- 一手NVIDIA Rubin 与 H100 规格 — 从 80 GB HBM3 到最高 288 GB HBM4。历史战绩和供给爬坡背后每块加速器的 HBM 阶梯上移。
- 一手TrendForce — 晶圆投入 18%→30% 与 Rubin Ultra 384 GB,以及三星的 18 个月 HBM3E 认证;约 2.8→7.6 EB 的年产量路径来自 Yole Group 比特供给数据。供给端。
- 一手美光 FQ3 2026 — 415 亿美元营收、16 份战略客户协议、1000 亿美元以上最低价格、220 亿美元预付款、HBM4 领先、紧张延续至 2027 年之后。已签约、售罄的订单簿。
- 建模Dynamo 与 vLLM PagedAttention — 为什么上下文缓存是真实的服务状态,以及为什么它同时也在被优化。
免责声明
「内存分析」是一个独立研究站点,由一个人撰写,用于讨论、教育,坦白说,还有娱乐。它不是财务、投资、法律、税务、会计或采购建议,不针对你个人,也不考虑你的目标、风险承受能力或处境。这里的任何内容都不是买卖任何证券的推荐、招揽或要约,也不构成任何顾问、受托或客户关系。「Alex Corrino」以尽力而为的业余身份独立写作,就本站而言,并非以注册投资顾问、经纪商或持牌专业人士的身份行事。如果你想要建议,请聘请有牌照的人来提供。本站仅供信息和娱乐用途。
现在是最重要的部分:作者持有此处讨论的部分公司的仓位,可能做多和/或做空。这里提到的名字 — 美光、SK 海力士、三星、NVIDIA、AMD 及其他 — 是被覆盖内容的示例,并非当前持仓清单,也不代表作者在任何特定时刻所持有的东西。作者本人及其家人或关联账户的仓位可随时改变,恕不另行通知,且没有披露、更新或纠正的义务。作者未收取任何被提及公司的报酬,也与之没有联属或赞助关系。请假设存在真实且内建的利益冲突,假设内容可能是自利的,并如此阅读它。
本文、计算器、图表、监测面板及模型输出,都是基于公开信息、估算、简化、AI 辅助工具,以及你或作者恰好选定的假设所构建的情景分析。它们可能有误、过时、不完整或自相矛盾,而 HBM 供给、AI 需求、模型架构、出口管制、定价、良率、封装产能与服务效率都在快速变化。所有内容均按现状提供,不作任何形式的保证,也不承担准确或完整的义务;内容乃至本站本身都可能随时更改或消失,恕不通知。前瞻性陈述与估算是猜测,而非保证。过往表现和先前的判断不预示未来结果,任何盈利都不具代表性,而投资涉及真实风险,包括可能损失你全部本金。
请自己做功课,核对一手来源,并在依据任何内容采取行动之前咨询你自己持牌的财务、法律和税务专业人士;外部链接和引用既不代表认可,也不由作者负责。你做出的任何决定,后果由你独自承担、风险自负。在法律允许的最大范围内,作者对因你使用本站或依赖本站而产生的任何损失或损害概不负责,你也同意就因你使用本站而引起的索赔使作者免责。本站仅供在阅读它属合法之处使用,并以美国视角撰写。若本声明任何部分不可执行,其余部分仍然有效。使用风险自负,等等。