LLM、视频生成模型、Diffusion、Flow、Latent 笔记

1. LLM 的基本生成方式

LLM 的核心过程可以理解为:

  1. 输入文本
  2. 把文本切成 token
  3. 每个 token 变成向量表示
  4. 经过多层 Transformer 做矩阵运算
  5. 输出对整个词表的概率分布
  6. 选出下一个最合适的 token
  7. 把这个 token 接回输入,继续生成

本质上,LLM 是:

自回归生成(autoregressive) 也就是:

一次预测一个下一个 token,直到输出结束。


2. 现在的视频生成模型是不是 Transformer

可以说:

Transformer 仍然很重要,但视频生成模型通常不是“像 LLM 那样纯自回归地预测下一个 token”。

当前主流视频生成模型更常见的是:

Diffusion / Flow + Transformer

也就是:

  • Transformer 负责建模复杂关系
  • Diffusion 或 Flow 负责真正的生成过程

所以视频模型不是简单地:

  • 从词表里选一个 token

而更像是:

  • 从一团噪声开始
  • 一步步把整段视频“修出来”

3. 视频模型和 LLM 的核心区别

LLM

像写文章:

  • 一个 token 一个 token 往后写

视频生成模型

像修图或雕塑:

  • 从随机噪声开始
  • 反复整体修改
  • 最后得到一段完整视频

所以:

  • LLM 是离散序列生成
  • 视频模型通常是连续空间中的迭代生成

4. Diffusion 是什么

Diffusion 可以理解为:

先把数据加噪,再学习如何一步步去噪。

生成时的思路是:

  1. 从随机噪声开始
  2. 模型根据文本条件和当前状态
  3. 每一步去掉一点噪声
  4. 经过很多步后,得到清晰结果

直觉上它像:

从一张雪花噪点图,慢慢冲洗出图像或视频。

Diffusion 的特点

  • 强项是高维连续数据生成
  • 很适合图像、视频这类内容
  • 生成过程通常是多步迭代

5. Flow 是什么

Flow 也属于“从噪声生成数据”的路线。

它和 Diffusion 很像,但更像是在学:

“如何把噪声沿着一条连续路径,平滑地变成目标数据。”

如果说 Diffusion 更像:

  • 每一步去掉一点噪声

那么 Flow 更像:

  • 学习一条从噪声走向结果的路线
  • 每一步告诉你应该往哪个方向移动

可以这样理解

  • Diffusion:强调“去噪”
  • Flow:强调“沿连续路径变换”

6. 视频模型通常是怎么生成视频的

以主流 text-to-video 模型为例,大致流程是:

第一步:理解文本提示词

例如: “一只橘猫坐在窗边,阳光照进来,镜头缓慢推进”

模型先把文本编码成条件向量。

第二步:不直接生成像素,而是在 latent 空间里生成

直接生成原始像素视频计算量太大,所以通常先处理压缩后的表示,也就是 latent。

第三步:从随机噪声 latent 开始

初始化一段随机视频噪声。

第四步:把视频切成时空块

把视频表示切成很多小块,叫做 spatiotemporal patches 或 video tokens。

第五步:送入 Transformer

模型在空间和时间两个维度上建模这些块之间的关系。

第六步:输出连续修正

模型输出的通常不是“词表 token”,而是:

  • 噪声估计
  • 修正量
  • 更新方向

第七步:反复迭代

经过很多轮后,latent 会越来越像目标视频。

第八步:解码成视频

最后通过 decoder 把 latent 还原成可见视频。


7. Latent 是什么

Latent 可以理解为:

原始图像/视频经过压缩后的内部表示。

它不是给人直接看的,而是给模型计算用的。

一句话理解

  • 像素是“成品”
  • latent 是“模型内部的半成品表示”

为什么需要 latent

因为原始视频太大,直接在像素空间中生成非常昂贵。

所以模型会先把视频压缩成一个更小、更抽象的表示,再在这个表示上生成。


8. Latent 长什么样

Latent 通常不是一个单独数字,也不是一个单独向量,而更像一个张量,例如:

text
[时间, 高, 宽, 通道]

也就是:

  • 有时间维度
  • 有空间维度
  • 每个位置还有多个特征通道

所以 latent 本质上是:

一个带有时空结构的高维特征表示。


9. Latent 和文本向量的关系

这个类比是成立的:

  • 文本 token 会变成 embedding 向量
  • 视频会变成 latent 表示

所以可以说:

latent 有点像视频的“向量化内部表示”。

但更准确地说:

  • 文本 embedding 往往是“一个 token 对应一个向量”
  • 视频 latent 往往是“整段视频对应一个高维张量”

所以二者相似,但不完全一样。

更准确的表述

latent 可以理解为视频在模型内部的连续向量化表示;只不过它通常不是单个向量,而是带有时空结构的高维特征张量。


10. Embedding、Latent、Token 的区别

文本里

  • 原始文本 → token
  • token → embedding 向量
  • embedding 输入 Transformer

视频里

  • 原始视频 → encoder 压缩 → latent
  • latent 再切成 patch / token
  • 这些 patch/token 再送进 Transformer

所以可以这样对应:

  • 文本 token 的 embedding:文本的内部数值表示
  • 视频 latent:视频的内部数值表示
  • video tokens / patches:把 latent 切块后送入 Transformer 的基本处理单元

11. LLM 和视频模型的最关键差别

LLM

输出的是:

  • 离散 token

视频模型

输出的是:

  • 连续值修正
  • latent 的更新方向
  • 噪声估计

所以视频模型不是在“选词”,而是在:

不断修改一个巨大的视频 latent 张量,直到它收敛成完整视频。


12. 最终总结

关于 LLM

LLM 的本质是:

自回归地预测下一个 token。

关于视频生成模型

视频生成模型的主流方式是:

在 latent 空间中,从噪声出发,通过 diffusion 或 flow 逐步生成视频。

关于 Transformer

Transformer 在视频模型里仍然很重要,但它不一定负责“下一个 token 预测”,而更多负责:

对时空信息做建模。

关于 latent

latent 可以理解为:

视频被翻译成模型内部语言后的压缩表示。

它和文本 embedding 类似,但通常更大、更有结构,不是单个向量,而是一个带时间和空间结构的高维张量。


13. 一段最短总结

可以用这段话快速记忆:

LLM 是一个 token 一个 token 地写;视频模型通常不是按 token 续写,而是在 latent 空间中,从随机噪声开始,借助 Transformer 和 diffusion/flow,反复对整段视频表示做连续修正,最后解码成视频。latent 就是视频在模型内部的压缩表示,有点像视频的向量化形式,但通常是带时空结构的高维张量。