从Transformer到多Token预测
AI的“嘴”是怎么变快的?从Transformer到多Token预测
如果你用过早期的ChatGPT,一定对那种“打字机”式的体验记忆犹新——一个字、一个字地往外蹦,看着都替它着急。但最近,你可能发现很多AI模型(比如GPT-4o或最新的开源模型)说话越来越快,甚至能像机关枪一样“突突突”地输出。
这背后发生了什么?是AI变聪明了,还是它学会了“背答案”?
今天,我们就结合最新的多Token预测技术,把Transformer的老底彻底揭穿。
一、回顾:为什么它以前只能“一个字一个字蹦”?
在之前的文章里,我们把Transformer比作一个“翻译工厂”。左边是理解车间(编码器),右边是写作车间(解码器)。
在很长一段时间里,这个工厂有一个铁律:因果律。
这就好比你在走夜路,手里只有一个手电筒。你必须先迈出一步,照亮脚下的路(生成第一个词),确认安全后,才能迈出下一步(生成第二个词)。你不能在没看清中间的路时,直接跳到终点。
这就是自回归的本质:预测第3个词“China”,必须先确定第2个词是“love”。如果模型想一次性预测“love China”,它在逻辑上就卡住了——因为预测“China”依赖于“love”,而“love”还没生出来呢。
所以,传统的推理过程是串行的、缓慢的。
二、真相:其实它早就“偷偷”批量预测了
虽然聊天时它装得很慢,但在训练阶段,这个模型其实是个“并行处理”的高手。
还记得我们说过的**“老师强制”**吗?训练时,我们手里有标准答案。我们会把整句话I love China直接喂给模型。这时候,模型其实是在同时计算:
- 根据“我”预测“I”
- 根据“我爱”预测“love”
- 根据“我爱中”预测“China”
这就像考试时的“开卷模式”,老师直接把整篇课文放在桌上,让学生同时检查每一个空填得对不对。所以,模型的大脑其实具备同时处理多个位置的能力,只是在推理(闭卷考试)时被规则限制住了。
三、黑科技:现在的AI是如何“跳着走”的?
既然模型脑子够快,只是被规则限制了,那工程师们就想:能不能打破这个规则,或者绕过它?
最近(2024-2026年),像Meta、高通、英伟达等机构提出了很多多Token预测技术,让AI的推理速度提升了2-5倍。主要有两派玩法:
玩法一:找个“替身”猜(推测解码)
这是目前最主流的方法。
原理:
找一个小弟(小模型)先快速猜出后面5个词(比如“love China today”),然后让大哥(大模型)一次性检查这5个词对不对。
结果:
如果大哥觉得小弟猜得对,这5个词就瞬间生成出来了!如果不对,大哥再修正。
比喻:
就像你走夜路时,带了个眼神好的小弟。小弟跑在前面大喊“前面路是平的!”,你只需要确认一眼,就可以放心大胆地连走五步。
玩法二:学会“一心多用”(直接多Token预测)
这是更新的技术(如MARS、TiDAR等)。
原理:
在模型输出端加好几个“头”,或者通过特殊的训练(比如掩码训练),让模型学会同时预测未来。
- 头1负责预测下一个词。
- 头2负责预测下下个词。
- 头3负责预测下下下个词。
结果:
模型在生成“love”的同时,其实已经顺便把“China”也算出来了。
比喻:
这就像你走路时,不仅看脚下,还能用余光看到前面五米的路。既然心里已经有数了,干嘛不一步跨过去呢?
四、总结:AI进化史
为了让你更直观地理解,我做了一个简单的对比表:
| 阶段 | 模式 | 核心逻辑 | 速度 |
|---|---|---|---|
| 训练时 | 并行 | 开卷考试,直接看答案,同时计算所有位置。 | 极快 |
| 传统推理 | 串行 | 闭卷考试,必须写完前一个字,才能写下一个。 | 慢(打字机) |
| 最新推理 | 跳跃/并行 | 利用小模型辅助或多头预测,一次生成一串。 | 快(机关枪) |
所以,回到你的问题:它不能一下预测多个词吗?
答案是:逻辑上它必须一步步来(为了保证准确),但工程上我们正在逼着它“跳着走”!
下次当你看到AI飞快输出一大段文字时,你就知道,这不仅仅是算力变强了,更是因为它学会了如何更聪明地“作弊”。