从Transformer到多Token预测

如果你用过早期的ChatGPT，一定对那种“打字机”式的体验记忆犹新——一个字、一个字地往外蹦，看着都替它着急。但最近，你可能发现很多AI模型（比如GPT-4o或最新的开源模型）说话越来越快，甚至能像机关枪一样“突突突”地输出。

这背后发生了什么？是AI变聪明了，还是它学会了“背答案”？

今天，我们就结合最新的多Token预测技术，把Transformer的老底彻底揭穿。

在之前的文章里，我们把Transformer比作一个“翻译工厂”。左边是理解车间（编码器），右边是写作车间（解码器）。

在很长一段时间里，这个工厂有一个铁律：因果律。

这就好比你在走夜路，手里只有一个手电筒。你必须先迈出一步，照亮脚下的路（生成第一个词），确认安全后，才能迈出下一步（生成第二个词）。你不能在没看清中间的路时，直接跳到终点。

这就是自回归的本质：预测第3个词“China”，必须先确定第2个词是“love”。如果模型想一次性预测“love China”，它在逻辑上就卡住了——因为预测“China”依赖于“love”，而“love”还没生出来呢。

所以，传统的推理过程是串行的、缓慢的。

虽然聊天时它装得很慢，但在训练阶段，这个模型其实是个“并行处理”的高手。

还记得我们说过的**“老师强制”**吗？训练时，我们手里有标准答案。我们会把整句话I love China直接喂给模型。这时候，模型其实是在同时计算：

这就像考试时的“开卷模式”，老师直接把整篇课文放在桌上，让学生同时检查每一个空填得对不对。所以，模型的大脑其实具备同时处理多个位置的能力，只是在推理（闭卷考试）时被规则限制住了。

既然模型脑子够快，只是被规则限制了，那工程师们就想：能不能打破这个规则，或者绕过它？

最近（2024-2026年），像Meta、高通、英伟达等机构提出了很多多Token预测技术，让AI的推理速度提升了2-5倍。主要有两派玩法：

这是目前最主流的方法。

原理：
找一个小弟（小模型）先快速猜出后面5个词（比如“love China today”），然后让大哥（大模型）一次性检查这5个词对不对。

结果：
如果大哥觉得小弟猜得对，这5个词就瞬间生成出来了！如果不对，大哥再修正。

比喻：
就像你走夜路时，带了个眼神好的小弟。小弟跑在前面大喊“前面路是平的！”，你只需要确认一眼，就可以放心大胆地连走五步。

这是更新的技术（如MARS、TiDAR等）。

原理：
在模型输出端加好几个“头”，或者通过特殊的训练（比如掩码训练），让模型学会同时预测未来。

结果：
模型在生成“love”的同时，其实已经顺便把“China”也算出来了。

比喻：
这就像你走路时，不仅看脚下，还能用余光看到前面五米的路。既然心里已经有数了，干嘛不一步跨过去呢？

为了让你更直观地理解，我做了一个简单的对比表：

所以，回到你的问题：它不能一下预测多个词吗？

答案是：逻辑上它必须一步步来（为了保证准确），但工程上我们正在逼着它“跳着走”！

下次当你看到AI飞快输出一大段文字时，你就知道，这不仅仅是算力变强了，更是因为它学会了如何更聪明地“作弊”。