LLM、视频生成模型、Diffusion、Flow、Latent 笔记
1. LLM 的基本生成方式
LLM 的核心过程可以理解为:
- 输入文本
- 把文本切成 token
- 每个 token 变成向量表示
- 经过多层 Transformer 做矩阵运算
- 输出对整个词表的概率分布
- 选出下一个最合适的 token
- 把这个 token 接回输入,继续生成
本质上,LLM 是:
自回归生成(autoregressive) 也就是:
一次预测一个下一个 token,直到输出结束。
2. 现在的视频生成模型是不是 Transformer
可以说:
Transformer 仍然很重要,但视频生成模型通常不是“像 LLM 那样纯自回归地预测下一个 token”。
当前主流视频生成模型更常见的是:
Diffusion / Flow + Transformer
也就是:
- Transformer 负责建模复杂关系
- Diffusion 或 Flow 负责真正的生成过程
所以视频模型不是简单地:
- 从词表里选一个 token
而更像是:
- 从一团噪声开始
- 一步步把整段视频“修出来”
3. 视频模型和 LLM 的核心区别
LLM
像写文章:
- 一个 token 一个 token 往后写
视频生成模型
像修图或雕塑:
- 从随机噪声开始
- 反复整体修改
- 最后得到一段完整视频
所以:
- LLM 是离散序列生成
- 视频模型通常是连续空间中的迭代生成
4. Diffusion 是什么
Diffusion 可以理解为:
先把数据加噪,再学习如何一步步去噪。
生成时的思路是:
- 从随机噪声开始
- 模型根据文本条件和当前状态
- 每一步去掉一点噪声
- 经过很多步后,得到清晰结果
直觉上它像:
从一张雪花噪点图,慢慢冲洗出图像或视频。
Diffusion 的特点
- 强项是高维连续数据生成
- 很适合图像、视频这类内容
- 生成过程通常是多步迭代
5. Flow 是什么
Flow 也属于“从噪声生成数据”的路线。
它和 Diffusion 很像,但更像是在学:
“如何把噪声沿着一条连续路径,平滑地变成目标数据。”
如果说 Diffusion 更像:
- 每一步去掉一点噪声
那么 Flow 更像:
- 学习一条从噪声走向结果的路线
- 每一步告诉你应该往哪个方向移动
可以这样理解
- Diffusion:强调“去噪”
- Flow:强调“沿连续路径变换”
6. 视频模型通常是怎么生成视频的
以主流 text-to-video 模型为例,大致流程是:
第一步:理解文本提示词
例如: “一只橘猫坐在窗边,阳光照进来,镜头缓慢推进”
模型先把文本编码成条件向量。
第二步:不直接生成像素,而是在 latent 空间里生成
直接生成原始像素视频计算量太大,所以通常先处理压缩后的表示,也就是 latent。
第三步:从随机噪声 latent 开始
初始化一段随机视频噪声。
第四步:把视频切成时空块
把视频表示切成很多小块,叫做 spatiotemporal patches 或 video tokens。
第五步:送入 Transformer
模型在空间和时间两个维度上建模这些块之间的关系。
第六步:输出连续修正
模型输出的通常不是“词表 token”,而是:
- 噪声估计
- 修正量
- 更新方向
第七步:反复迭代
经过很多轮后,latent 会越来越像目标视频。
第八步:解码成视频
最后通过 decoder 把 latent 还原成可见视频。
7. Latent 是什么
Latent 可以理解为:
原始图像/视频经过压缩后的内部表示。
它不是给人直接看的,而是给模型计算用的。
一句话理解
- 像素是“成品”
- latent 是“模型内部的半成品表示”
为什么需要 latent
因为原始视频太大,直接在像素空间中生成非常昂贵。
所以模型会先把视频压缩成一个更小、更抽象的表示,再在这个表示上生成。
8. Latent 长什么样
Latent 通常不是一个单独数字,也不是一个单独向量,而更像一个张量,例如:
[时间, 高, 宽, 通道]
也就是:
- 有时间维度
- 有空间维度
- 每个位置还有多个特征通道
所以 latent 本质上是:
一个带有时空结构的高维特征表示。
9. Latent 和文本向量的关系
这个类比是成立的:
- 文本 token 会变成 embedding 向量
- 视频会变成 latent 表示
所以可以说:
latent 有点像视频的“向量化内部表示”。
但更准确地说:
- 文本 embedding 往往是“一个 token 对应一个向量”
- 视频 latent 往往是“整段视频对应一个高维张量”
所以二者相似,但不完全一样。
更准确的表述
latent 可以理解为视频在模型内部的连续向量化表示;只不过它通常不是单个向量,而是带有时空结构的高维特征张量。
10. Embedding、Latent、Token 的区别
文本里
- 原始文本 → token
- token → embedding 向量
- embedding 输入 Transformer
视频里
- 原始视频 → encoder 压缩 → latent
- latent 再切成 patch / token
- 这些 patch/token 再送进 Transformer
所以可以这样对应:
- 文本 token 的 embedding:文本的内部数值表示
- 视频 latent:视频的内部数值表示
- video tokens / patches:把 latent 切块后送入 Transformer 的基本处理单元
11. LLM 和视频模型的最关键差别
LLM
输出的是:
- 离散 token
视频模型
输出的是:
- 连续值修正
- latent 的更新方向
- 噪声估计
所以视频模型不是在“选词”,而是在:
不断修改一个巨大的视频 latent 张量,直到它收敛成完整视频。
12. 最终总结
关于 LLM
LLM 的本质是:
自回归地预测下一个 token。
关于视频生成模型
视频生成模型的主流方式是:
在 latent 空间中,从噪声出发,通过 diffusion 或 flow 逐步生成视频。
关于 Transformer
Transformer 在视频模型里仍然很重要,但它不一定负责“下一个 token 预测”,而更多负责:
对时空信息做建模。
关于 latent
latent 可以理解为:
视频被翻译成模型内部语言后的压缩表示。
它和文本 embedding 类似,但通常更大、更有结构,不是单个向量,而是一个带时间和空间结构的高维张量。
13. 一段最短总结
可以用这段话快速记忆:
LLM 是一个 token 一个 token 地写;视频模型通常不是按 token 续写,而是在 latent 空间中,从随机噪声开始,借助 Transformer 和 diffusion/flow,反复对整段视频表示做连续修正,最后解码成视频。latent 就是视频在模型内部的压缩表示,有点像视频的向量化形式,但通常是带时空结构的高维张量。
评论
欢迎留下反馈,评论发布后会立即显示。