LLM、视频生成模型、Diffusion、Flow、Latent 笔记

1. LLM 的基本生成方式

LLM 的核心过程可以理解为：

输入文本
把文本切成 token
每个 token 变成向量表示
经过多层 Transformer 做矩阵运算
输出对整个词表的概率分布
选出下一个最合适的 token
把这个 token 接回输入，继续生成

本质上，LLM 是：

自回归生成（autoregressive） 也就是：

一次预测一个下一个 token，直到输出结束。

2. 现在的视频生成模型是不是 Transformer

可以说：

Transformer 仍然很重要，但视频生成模型通常不是“像 LLM 那样纯自回归地预测下一个 token”。

当前主流视频生成模型更常见的是：

Diffusion / Flow + Transformer

也就是：

Transformer 负责建模复杂关系
Diffusion 或 Flow 负责真正的生成过程

所以视频模型不是简单地：

从词表里选一个 token

而更像是：

从一团噪声开始
一步步把整段视频“修出来”

3. 视频模型和 LLM 的核心区别

LLM

像写文章：

一个 token 一个 token 往后写

视频生成模型

像修图或雕塑：

从随机噪声开始
反复整体修改
最后得到一段完整视频

所以：

LLM 是离散序列生成
视频模型通常是连续空间中的迭代生成

4. Diffusion 是什么

Diffusion 可以理解为：

先把数据加噪，再学习如何一步步去噪。

生成时的思路是：

从随机噪声开始
模型根据文本条件和当前状态
每一步去掉一点噪声
经过很多步后，得到清晰结果

直觉上它像：

从一张雪花噪点图，慢慢冲洗出图像或视频。

Diffusion 的特点

强项是高维连续数据生成
很适合图像、视频这类内容
生成过程通常是多步迭代

5. Flow 是什么

Flow 也属于“从噪声生成数据”的路线。

它和 Diffusion 很像，但更像是在学：

“如何把噪声沿着一条连续路径，平滑地变成目标数据。”

如果说 Diffusion 更像：

每一步去掉一点噪声

那么 Flow 更像：

学习一条从噪声走向结果的路线
每一步告诉你应该往哪个方向移动

可以这样理解

Diffusion：强调“去噪”
Flow：强调“沿连续路径变换”

6. 视频模型通常是怎么生成视频的

以主流 text-to-video 模型为例，大致流程是：

第一步：理解文本提示词

例如： “一只橘猫坐在窗边，阳光照进来，镜头缓慢推进”

模型先把文本编码成条件向量。

第二步：不直接生成像素，而是在 latent 空间里生成

直接生成原始像素视频计算量太大，所以通常先处理压缩后的表示，也就是 latent。

第三步：从随机噪声 latent 开始

初始化一段随机视频噪声。

第四步：把视频切成时空块

把视频表示切成很多小块，叫做 spatiotemporal patches 或 video tokens。

第五步：送入 Transformer

模型在空间和时间两个维度上建模这些块之间的关系。

第六步：输出连续修正

模型输出的通常不是“词表 token”，而是：

噪声估计
修正量
更新方向

第七步：反复迭代

经过很多轮后，latent 会越来越像目标视频。

第八步：解码成视频

最后通过 decoder 把 latent 还原成可见视频。

7. Latent 是什么

Latent 可以理解为：

原始图像/视频经过压缩后的内部表示。

它不是给人直接看的，而是给模型计算用的。

一句话理解

像素是“成品”
latent 是“模型内部的半成品表示”

为什么需要 latent

因为原始视频太大，直接在像素空间中生成非常昂贵。

所以模型会先把视频压缩成一个更小、更抽象的表示，再在这个表示上生成。

8. Latent 长什么样

Latent 通常不是一个单独数字，也不是一个单独向量，而更像一个张量，例如：

text

[时间, 高, 宽, 通道]

也就是：

有时间维度
有空间维度
每个位置还有多个特征通道

所以 latent 本质上是：

一个带有时空结构的高维特征表示。

9. Latent 和文本向量的关系

这个类比是成立的：

文本 token 会变成 embedding 向量
视频会变成 latent 表示

所以可以说：

latent 有点像视频的“向量化内部表示”。

但更准确地说：

文本 embedding 往往是“一个 token 对应一个向量”
视频 latent 往往是“整段视频对应一个高维张量”

所以二者相似，但不完全一样。

更准确的表述

latent 可以理解为视频在模型内部的连续向量化表示；只不过它通常不是单个向量，而是带有时空结构的高维特征张量。

10. Embedding、Latent、Token 的区别

文本里

原始文本 → token
token → embedding 向量
embedding 输入 Transformer

视频里

原始视频 → encoder 压缩 → latent
latent 再切成 patch / token
这些 patch/token 再送进 Transformer

所以可以这样对应：

文本 token 的 embedding：文本的内部数值表示
视频 latent：视频的内部数值表示
video tokens / patches：把 latent 切块后送入 Transformer 的基本处理单元

11. LLM 和视频模型的最关键差别

LLM

输出的是：

离散 token

视频模型

输出的是：

连续值修正
latent 的更新方向
噪声估计

所以视频模型不是在“选词”，而是在：

不断修改一个巨大的视频 latent 张量，直到它收敛成完整视频。

12. 最终总结

关于 LLM

LLM 的本质是：

自回归地预测下一个 token。

关于视频生成模型

视频生成模型的主流方式是：

在 latent 空间中，从噪声出发，通过 diffusion 或 flow 逐步生成视频。

关于 Transformer

Transformer 在视频模型里仍然很重要，但它不一定负责“下一个 token 预测”，而更多负责：

对时空信息做建模。

关于 latent

latent 可以理解为：

视频被翻译成模型内部语言后的压缩表示。

它和文本 embedding 类似，但通常更大、更有结构，不是单个向量，而是一个带时间和空间结构的高维张量。

13. 一段最短总结

可以用这段话快速记忆：

LLM 是一个 token 一个 token 地写；视频模型通常不是按 token 续写，而是在 latent 空间中，从随机噪声开始，借助 Transformer 和 diffusion/flow，反复对整段视频表示做连续修正，最后解码成视频。latent 就是视频在模型内部的压缩表示，有点像视频的向量化形式，但通常是带时空结构的高维张量。