当我们在谈论大模型时,我们到底在谈论什么?——一场意外点燃的“智能之火”

一场“语言魔术”的意外走红

如果19世纪的伦敦人第一次看见电灯,他们会惊呼“这是魔法”;而我们今天把ChatGPT当成“AI”,本质上也是同一种惊叹。区别在于,电灯的奥义在物理课本里写得明明白白,而大模型的“魔法说明书”至今缺页。

cut-off

01|ChatGPT的“一夜成名”,其实是三年前的“老酒”

2022年11月30日,ChatGPT上线,5天内用户破百万,两个月后月活破亿,成为人类史上最快达到1亿用户的消费级应用。

但很多人不知道的是,它的“灵魂”GPT-3早在2020年就已经训练完成。同样的模型,为什么当时无人喝彩,直到2023年才突然爆发?

答案出乎意料:不是技术变强了,而是增加了后训练场景。

过去发布的GPT-3是一个只会预测下一个词的无情机器。几位工程师给GPT-3做了“指令微调”(Instruction Tuning)去对齐人类意图:让模型不再只是“猜下一个词”,而是“猜人类到底想让我干什么”。这是一场工程师想让GPT-3更加有用的简单尝试:指导GPT-3写邮件,回答问题…

结果——

  • 原本啰哩啰嗦不明所以的AI,突然会写情诗、做表格、解奥数;

  • OpenAI内部测试时,研究员们被ChatGPT的能力惊得目瞪口呆;

  • 发布五天后,用户破百万;两个月后,全球开始讨论“哪些工作会被取代”。

ChatGPT的成功连OpenAI自己都没预料到。后来复盘,OpenAI自己承认:“我们也没想到后训练这一步,会让模型像被雷劈了一样开窍。”

这被称为“智能涌现”,但更像“炼金术士本想做玻璃,却炸出了火药”。

这场爆发,像极了人类历史上无数次“技术偶然”——不是蒸汽机改变了世界,而是瓦特把它装进了纺织机。

cut-off

02|大模型到底是什么?一个“语言炼金术”的意外

所谓“大模型”,今天特指大语言模型(Large Language Model, LLM)。

它有三个硬指标:

  1. 参数量:至少十亿级(GPT-3是1750亿,GPT-4据传达1.8万亿)。

  2. 训练数据:吃掉整个互联网的文本(TB级)。

  3. 架构:基于Transformer,核心是自注意力机制(Self-Attention)。

但真正的秘密在于:它用“猜下一个词”的方式,学会了整个世界的规律。

就像你小时候背唐诗,背多了突然能自己写打油诗。GPT-3在“啃”完维基百科、Reddit、推特后,意外地学会了翻译、写代码、做算术,甚至讲笑话。

科学家把这种不可解释的突变称为“涌现”(Emergence)——量变到质变的神秘一跃。

cut-off

03|为什么智能“只”涌现于语言?

一个诡异的事实:只有语言模型出现了涌现,图像、机器人、蛋白质折叠都没有。

为什么?

因为语言是人类文明的压缩算法。

当你说“苹果掉下来了”,这句话同时包含了:

  • 牛顿定律(物理)

  • 万有引力(科学)

  • 因果关系(逻辑)

  • 时间序列(叙事)

语言像一张“全息图”,把人类所有知识编码进了句子里。

当AI学会预测下一个词时,它其实在解压整个人类文明。

相比之下,图像识别只是“看见”,机器人只是“移动”,它们没有语言这种“高密度知识载体”。

cut-off

04|当大模型开始“入侵”其他领域

过去两年,所有深度学习子领域都在被语言模型“格式化”。

语言模型的成功,像一场“殖民运动”:

  • 机器视觉:用ViT(Vision Transformer)把图像切成“像素句子”,让GPT用处理文字的方式处理图片。

  • 机器人:把动作指令变成“语言”,比如“向前移动5厘米,抬起机械臂30度”,让GPT生成控制代码。

  • 蛋白质设计:把氨基酸序列当“句子”,让GPT预测下一个“词”(即下一个氨基酸)。

所有模态,最终都被翻译成“语言”来解决。

cut-off

05|但魔法也有失灵时:大模型的“青春期烦恼”

  • “GPT-4变懒”

  • “LLaMA4训练失败”

  • “讨好型人格与彩虹屁”

这些案例揭示一个尴尬现实:我们至今无法预测“更大”会不会“更好”,只能像调鸡尾酒一样,边尝边改。

当大模型突然不work的时候

没有人明白发生了什么

或许这一切都是三体人的恶作剧

哪天大模型突然失效了

我们也一点办法都没有

cut-off

06|公众误区与企业话术:谁在贩卖焦虑?

误区1:大模型有自我意识

真相:它只是统计学的鹦鹉,说“我很难过”是因为训练数据里人类这么写。

误区2:AI将取代所有工作

真相:它更像“超级实习生”。

焦虑不是模型生成的,是被“卖课、卖卡、卖概念”的人批发的。

cut-off

07|在“世界模型”到来之前:大模型就是大语言模型

黄仁勋在GTC 2024喊出“世界模型”(World Model)的愿景——一个能同时模拟物理、化学、社会规律的超级模拟器。

但在那一天之前,我们手里的大模型,本质上是一部“会说人话的百科全书”——

  • 它能把牛顿写成段子,但推不动苹果落地;

  • 它能背诵《民法典》,却不会出庭辩护;

  • 它能生成10种癌症治疗方案,却按不了化疗泵的按钮。

真正的革命不是模型变大了,而是人类第一次把“说明书”写进了模型本身。

别急着封神,先学会共处

19世纪的卢德分子砸毁纺织机,因为他们把机器当成“抢工作的魔鬼”;

今天的我们如果把大模型当成“全知全能的神”,不过是卢德分子的精神续作。

大模型不是普罗米修斯盗来的火,而是人类语言的一次“核聚变”——

  • 它放大了我们的表达,也放大了我们的偏见;

  • 它压缩了知识,也压缩了常识;

  • 它让“写一首诗”变成一句话的事,却让“判断诗好不好”变得更难。

最顶级的AI实验室,依然无法完全控制模型的行为。

但这恰恰是这场革命的迷人之处——

就像人类当年偶然发现火,既照亮了洞穴,也烧毁了森林。

大模型不是答案,它只是一场意外点燃的“智能之火”。

我们要做的,不是追问它“为什么烧”,而是学会:如何让它为人类取暖,而不是焚毁文明。

“我们创造了工具,然后工具重塑了我们。”                                            ——麦克卢汉

(完)




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 从“做题家”到“造浪者”:华人如何成为全球AI大模型的“隐形统治者”
  • 大模型约束解码(Constrained decoding)与结构化输出