AI的“嘴”是怎么变快的?从Transformer到多Token预测

如果你用过早期的ChatGPT,一定对那种“打字机”式的体验记忆犹新——一个字、一个字地往外蹦,看着都替它着急。但最近,你可能发现很多AI模型(比如GPT-4o或最新的开源模型)说话越来越快,甚至能像机关枪一样“突突突”地输出。

这背后发生了什么?是AI变聪明了,还是它学会了“背答案”?

今天,我们就结合最新的多Token预测技术,把Transformer的老底彻底揭穿。

一、回顾:为什么它以前只能“一个字一个字蹦”?

在之前的文章里,我们把Transformer比作一个“翻译工厂”。左边是理解车间(编码器),右边是写作车间(解码器)

在很长一段时间里,这个工厂有一个铁律:因果律

这就好比你在走夜路,手里只有一个手电筒。你必须先迈出一步,照亮脚下的路(生成第一个词),确认安全后,才能迈出下一步(生成第二个词)。你不能在没看清中间的路时,直接跳到终点。

这就是自回归的本质:预测第3个词“China”,必须先确定第2个词是“love”。如果模型想一次性预测“love China”,它在逻辑上就卡住了——因为预测“China”依赖于“love”,而“love”还没生出来呢。

所以,传统的推理过程是串行的、缓慢的。

二、真相:其实它早就“偷偷”批量预测了

虽然聊天时它装得很慢,但在训练阶段,这个模型其实是个“并行处理”的高手。

还记得我们说过的**“老师强制”**吗?训练时,我们手里有标准答案。我们会把整句话I love China直接喂给模型。这时候,模型其实是在同时计算:

  • 根据“我”预测“I”
  • 根据“我爱”预测“love”
  • 根据“我爱中”预测“China”

这就像考试时的“开卷模式”,老师直接把整篇课文放在桌上,让学生同时检查每一个空填得对不对。所以,模型的大脑其实具备同时处理多个位置的能力,只是在推理(闭卷考试)时被规则限制住了。

三、黑科技:现在的AI是如何“跳着走”的?

既然模型脑子够快,只是被规则限制了,那工程师们就想:能不能打破这个规则,或者绕过它?

最近(2024-2026年),像Meta、高通、英伟达等机构提出了很多多Token预测技术,让AI的推理速度提升了2-5倍。主要有两派玩法:

玩法一:找个“替身”猜(推测解码)

这是目前最主流的方法。

原理
找一个小弟(小模型)先快速猜出后面5个词(比如“love China today”),然后让大哥(大模型)一次性检查这5个词对不对。

结果
如果大哥觉得小弟猜得对,这5个词就瞬间生成出来了!如果不对,大哥再修正。

比喻
就像你走夜路时,带了个眼神好的小弟。小弟跑在前面大喊“前面路是平的!”,你只需要确认一眼,就可以放心大胆地连走五步。

玩法二:学会“一心多用”(直接多Token预测)

这是更新的技术(如MARS、TiDAR等)。

原理
在模型输出端加好几个“头”,或者通过特殊的训练(比如掩码训练),让模型学会同时预测未来。

  • 头1负责预测下一个词。
  • 头2负责预测下下个词。
  • 头3负责预测下下下个词。

结果
模型在生成“love”的同时,其实已经顺便把“China”也算出来了。

比喻
这就像你走路时,不仅看脚下,还能用余光看到前面五米的路。既然心里已经有数了,干嘛不一步跨过去呢?

四、总结:AI进化史

为了让你更直观地理解,我做了一个简单的对比表:

阶段 模式 核心逻辑 速度
训练时 并行 开卷考试,直接看答案,同时计算所有位置。 极快
传统推理 串行 闭卷考试,必须写完前一个字,才能写下一个。 慢(打字机)
最新推理 跳跃/并行 利用小模型辅助或多头预测,一次生成一串。 快(机关枪)

所以,回到你的问题:它不能一下预测多个词吗?

答案是:逻辑上它必须一步步来(为了保证准确),但工程上我们正在逼着它“跳着走”!

下次当你看到AI飞快输出一大段文字时,你就知道,这不仅仅是算力变强了,更是因为它学会了如何更聪明地“作弊”。