Skip to content

4.5 小时 AI 深度对谈:我从 Lex Fridman #490 中学到了什么

一期播客听了三遍,一张思维导图画了两天,一段 Gemini 对话打了上万字。这不是笔记,是我用好奇心兑换的认知升级。

为什么要花这么多时间在一期播客上?

2026 年 2 月,Lex Fridman 发布了第 490 期播客——"State of AI in 2026",请来了两位我一直在关注的人:

  • Sebastian Raschka:《Build a Large Language Model (From Scratch)》作者,机器学习研究者和教育者
  • Nathan Lambert:Allen Institute for AI(Ai2)后训练负责人,《The RLHF Book》作者

4.5 小时的对话,覆盖了从 Scaling Laws 到 AGI 时间线、从中美 AI 竞争到开源闭源之争的几乎所有前沿话题。

我不是随便听听就过的人。听完第一遍,我发现自己有太多概念只知其名不知其实。 于是我做了一件事:打开 Gemini,从第一个不确定的概念开始追问,直到每个知识点都能用自己的话说清楚。


我的学习方法:播客 + AI 辅导 + 思维导图

第一遍:完整听完,标记不懂的概念

Gemini 对话:逐个追问,补齐认知盲区

第二遍:带着新认知重听,关注嘉宾的观点碰撞

画思维导图:梳理知识结构

第三遍:验证理解,提炼个人洞察

这套方法的核心是:不放过任何一个"好像懂了"的时刻。 "好像懂了"是学习的最大敌人——它让你以为自己理解了,实际上在知识链条上留下了断点。


播客核心脉络:一张思维导图

听完三遍后,我把 4.5 小时的内容压缩成一张思维导图:

                          State of AI 2026

         ┌──────────┬──────────┼──────────┬──────────┐
         │          │          │          │          │
      模型格局      架构演进     训练范式     推理革命     产业生态
         │          │          │          │          │
    ┌────┴────┐  ┌──┴──┐   ┌──┴──┐   ┌──┴──┐   ┌──┴──┐
    │         │  │     │   │     │   │     │   │     │
  五大巨头  中国力量 MoE  MLA 预训练 后训练  System1 开源vs
  OpenAI  DeepSeek DSA  GQA RLHF  RLVR  System2  闭源
  Google  Qwen          Linear       Inference  算力竞争
  Anthropic Kimi         Attention    Scaling   AGI时间线
  xAI
  Meta

下面展开每个分支中最触动我的部分。


第一章:知识 vs. 推理 —— Nathan 和 Sebastian 的核心分歧

整期播客最精彩的交锋,发生在一个看似简单的问题上:AI 的"聪明"到底从哪里来?

Nathan Lambert 的观点(红方)

"知识来自预训练,推理来自后训练。"

Nathan 认为,预训练阶段模型吸收了海量知识,但真正让模型"学会思考"的是后训练——特别是 RLHF 和 RLVR。他举了一个直觉性的例子:把 DeepSeek R1 的推理能力蒸馏到更小的模型上,推理能力会保留,但世界知识会丢失。 这说明"知识"和"推理"是可以分离的两种能力。

他的核心论点:

  • 模型在预训练中获得的是 "事实基础"(Knowledge/Pre-training)
  • 推理能力是通过 RL(强化学习)后天习得的 "思维方式"(Reasoning/Inference)
  • 这就是为什么 DeepSeek R1 如此重要——它证明了 RL with Verifiable Rewards 能让模型学会真正的推理

Sebastian Raschka 的观点(蓝方)

"别低估 In-context Learning 的力量。"

Sebastian 不完全同意这种二分法。他认为通过精心设计的 Prompt,模型可以在推理时展现出超越其训练的能力——这就是 In-context Learning。一个模型能力的上限,不仅取决于训练了什么,还取决于你如何"询问"它。

我的理解

听完双方的争论,我用一个通俗的比喻来理解:

Nathan 的视角Sebastian 的视角
知识图书馆里的藏书图书馆里的藏书
推理需要专门训练的"思维体操"会读书的人自然会思考
关键分歧推理能力必须通过 RL 显式训练好的提问方式就能激发推理

这不是谁对谁错的问题,而是同一枚硬币的两面。 Nathan 关注的是能力的"注入",Sebastian 关注的是能力的"激发"。实际上两者共同决定了模型的表现上限。


第二章:Scaling Laws 到底死没死?

这是 AI 圈 2025-2026 年最热的争论之一。播客中两位嘉宾给出了清晰的回答:

没死,但兴奋点转移了。

2023-2024:预训练 Scaling 的黄金时代
    "模型越大越强" → 但投入产出比在下降

2025-2026:后训练 + 推理时 Scaling 的新前沿
    "训练不变,推理更强" → Inference-time Scaling

Nathan 的原话让我印象深刻:"Pre-training hasn't stopped; the excitement is elsewhere." 预训练的低垂果实已经被摘完了,但 Scaling Laws 本身并没有数学上失效——只是继续堆预训练的边际收益在下降。

真正让行业兴奋的是两个新方向:

  1. 后训练 Scaling:RLHF/RLVR 带来的能力提升,尤其是工具使用(CLI 命令、API 调用、Git 操作)——一年前没人觉得这能通过 RL 训练出来
  2. 推理时 Scaling:让模型在回答时"多想一会儿"(thinking tokens),产生了阶跃式的能力提升

第三章:AI 版图 —— 我的 Gemini 学习笔记

听播客时,嘉宾们快速扫过了当前的 AI 格局。我发现自己对很多公司和模型的认知只停留在名字层面,于是打开 Gemini 开始系统性地补课。

五大巨头(The Five Giants)

公司代表模型核心优势
OpenAIGPT-5、o1先发优势,定义了行业标准
Google/DeepMindGemini 2.0多模态生态,搜索分发
AnthropicClaude 3.7/4.5 Sonnet安全研究,代码能力突出
xAIGrok 3/4实时数据(X/Twitter),敢于冒险
MetaLlama 4开源先锋,生态影响力

中国力量(The Chinese Challengers)

DeepSeek 是这一年最大的惊喜。Nathan 和 Sebastian 都对它给予了高度评价——不是因为它"便宜",而是因为它证明了用更少的资源可以达到同等甚至更优的性能

这触发了我用 Gemini 深入研究 DeepSeek 的架构:

MoE(混合专家模型) —— DeepSeek 的核心架构。不是让所有参数都参与每次计算,而是用 Router 动态选择最相关的"专家"子网络。结果:参数量 671B,但每次推理只激活 37B。

MLA(多头潜在注意力) —— DeepSeek 对标准 Multi-Head Attention 的优化。通过将 Key 和 Value 压缩到一个低维"潜在向量"(Latent Vector),大幅减少 KV Cache 占用。代价是多了一步解压缩计算,但在长上下文场景中收益巨大。

DSA(DeepSeek Sparse Attention) —— 不是所有 token 都值得同等关注。DSA 将注意力分为三个策略:

  • 分块处理:把长文本切成块,块内密集注意力
  • 智能筛选:Top-k 选择最相关的 token
  • 混合机制:全局注意力 + 局部滑动窗口 + 随机稀疏采样

架构演进全景

GPT-2 (2019)          Dense, MHA           ← 起点

GPT-3/3.5 (2020-23)   Dense, MHA, RLHF    ← 对齐革命

DeepSeek V2 (2024)     MoE, MLA            ← 效率革命

DeepSeek V3 (2025)     MoE, MLA, DSA       ← 稀疏注意力

Qwen Next (2026)       DeltaNet, Linear    ← 线性注意力探索

第四章:RLHF 和 RLVR —— 后训练的两把钥匙

Nathan Lambert 是这个领域的权威,他的讲解让我第一次真正理解了后训练的技术细节。

RLHF(基于人类反馈的强化学习)

模型生成回答 → 人类评分排序 → 训练奖励模型 → 用 RL 优化生成策略

核心问题:人类反馈昂贵且主观。标注者的偏好可能不一致,奖励模型可能学到人类偏见而非真实质量。

RLVR(基于可验证奖励的强化学习)

模型尝试解题 → 自动验证答案对错 → 直接给奖励信号 → RL 优化

RLVR 是 DeepSeek R1 的核心突破。不需要人类标注,让模型在数学、编码、逻辑推理等有明确正确答案的领域自我进化。Nathan 的评价:"这是一年前没人预料到的能力解锁。"


第五章:开源 vs. 闭源 —— 一个有趣的悖论

播客中揭示了一个反直觉的现象:

中国公司在大量开源,美国公司在守着闭源。

阵营代表策略
闭源OpenAI, AnthropicAPI 付费,技术壁垒
开源Meta (Llama), DeepSeek, Qwen开放权重,生态扩张

Sebastian 指出:"Ideas aren't proprietary; resources are."(创意不是专利,资源才是。)DeepSeek 用更少的算力达到了接近闭源模型的性能,这对整个行业产生了加速效应——如果你能用更少的钱做到同样的事,闭源的护城河就在缩窄。


认知升级:听完之后我改变了什么

1. 从"用模型"到"理解模型"

听这期播客之前,我对 AI 的认知停留在"会用 ChatGPT/Claude"的层面。听完之后,我决定真正理解底层原理——这直接促使我用一周时间,跟着 Sebastian Raschka 的书从零构建了一个 GPT 模型。

2. 建立了 AI 版图的全局视角

不再是零散地知道"OpenAI 很强"、"DeepSeek 很火",而是理解了每家公司的技术路线、差异化策略和竞争格局。这张地图让我在读任何 AI 新闻时都能快速定位。

3. 学会了"用 AI 学 AI"

我的 Gemini 对话记录超过上万字——每遇到一个不懂的概念就追问,从 MoE 的 Router 机制到 MLA 的 KV Cache 压缩,每个知识点都反复确认直到能用自己的话复述。AI 不仅是学习对象,更是最好的学习伙伴。


推荐的学习路径

如果你也想深入这个领域,这是我走过的路:

1. 听播客:建立全景认知
   └→ Lex Fridman #490 "State of AI in 2026"
       (YouTube / Spotify / Apple Podcasts)

2. 用 AI 辅导:补齐知识盲区
   └→ 每遇到不懂的概念,向 AI 追问到能自己解释为止

3. 动手实践:从零构建
   └→ Sebastian Raschka《Build a Large Language Model (From Scratch)》

4. 持续跟踪:保持前沿感知
   └→ Nathan Lambert 的 RLHF 相关文章
   └→ Sebastian Raschka 的博客和新书

写在最后

4.5 小时的播客,我花了大概 20 小时去消化——听三遍、打上万字 Gemini 对话、画思维导图、写这篇博客。

有人可能觉得这样"太慢了"。但我的经验是:深度学习的 ROI 远高于浅层浏览。 一期高质量播客深入吃透后获得的认知框架,比刷 100 条 AI 新闻摘要有用得多。

这期播客最终把我引向了 Sebastian Raschka 的那本书,而那本书让我花了一周时间从零构建了一个 GPT——这是下一篇博客的故事

好奇心是最好的老师,而深度对谈是好奇心最好的燃料。