如何形象化地理解“AI、大模型、GPT”?
自从 ChatGPT 横空出世以来,AI 领域再次引起了广泛关注。
最近,有关 AI 的讨论络绎不绝,其中不可避免地涉及到一些诸如“样本、预训
练、大模型”等概念和术语。
然而,要用浅显易懂的方式向非专业人士解释这些概念是相当具有挑战性的。
但这对于自己和他人,都很有价值。
正如爱因斯坦所言:“If you can't explain it simply, you don't understand
it well enough
(如果你不能简单地解释,那就说明你理解不够)”。
之前我曾写了一篇名为《万万没想到,枯燥的“机器学习”还可以这样学!》的
文章,受到了大家的欢迎。
今天,我尝试继续运用形象化解释的方法,把 AI 与人类学习和成长的类比,
通过将 AI 与人们熟悉的事物进行比较的方式,简要介绍 AI 相关的原理、进展
和意义。
1、“咿呀学语、蹒跚学步” vs “涌现”
带过小孩的家长都会有这样一个感觉:突然有一天发现孩子会说话了、会走路
了。
这个过程并非像“0%、1%、2%...98%、99%、100%”这样逐个百分点缓慢提
升,而是有一天突然发生了变化。
模型的“涌现”指的是在大量训练数据和复杂模型结构的支持下,模型突然表现
出较高的性能和新的能力。
简单来说,就是“量变引起质变”的过程。
当训练样本足够大、算法迭代达到一定阶段时,模型的能力会突然提高。
能力“涌现”的前提,是大量不断的输入。
自孩子出生起,尽管他们听不懂、不会说,但家长要不断与孩子互动,跟他说
话。在日积月累的过程中,有一天孩子的说话能力就会“涌现”出来。
模型的发展过程也类似。一开始可能什么都不会,即使“能说会道”,也可能表
现出“智障”或者“一本正经地胡说八道”。
然而,在持续的大样本训练和算法不断迭代的过程中,有一天它就能达到像
ChatGPT、GPT-4 那样让人惊艳的理解能力、推理能力和表达能力。
2、 “ 读 万 卷 书 、 行 万 里 路 、 与 万 人 谈 ” vs“ 预 训 练 ( Pre-Train) 、 精 调
(Fine-Tuning)”
孩子们会说话、会走路之后,人的学习才正式开始。
一个人的学习成长,通常先经过基础教育、广泛的学习,再发展为专业的、深
入某个领域的学习。
不仅要广泛涉猎,大量学习书本知识,还要进行实践和与人交流。
在这个过程中,应用所学知识,获取反馈,对大脑中的知识进行修正和提炼,
即从“知识到智慧”,实现“知行合一”。
掌握了基本的知识和技能后,人们需要找到自己的专长领域。
在学校里,硕士生、博士生和教授需要选择一个细分领域进行深入研究。
每个人,也都需要找到自己的行业和职业。
对于 GPT 这样的大型模型,它们的发展也是通过类似的过程。
首先进行“大规模数据集”进行“预训练”,然后利用有标签的样本以及人类反馈,
通过增强学习(Reinforcement Learning by Human Feedback,RLHF)进
行微调和迭代。
模型的预训练,指的是在大量无标签数据上训练模型以学习基本知识。
这就像人在婴儿阶段以及从小学到高中阶段进行大量学习一样。不局限于某个
领域,而是需要广泛且大量地输入信息。
精调指的是在特定任务上,利用有标签数据对模型进行微调,以便更好地适应
特定任务。
这就像人在阅读了大量书籍后,还需要进行实践,从实践中获得反馈并成长。
许多伟人和名人,如毛泽东、列宁、马斯克、查理·芒格等,都非常热爱阅读,
并乐于与人交流,在实际工作中大量实践。
只有这样,才能获得足够多的知识,才能塑造出过人的智慧。
3、“娇生惯养” vs“过拟合”
我们时常看到一些关于“孩子因为鸡毛蒜皮之类的琐事而做出傻事”的新闻,这
通常是“娇生惯养”的结果,与模型中的“过拟合”现象有相似之处。
所谓机器学习,就是让机器从样本中学习,从而“拟合”出规律,进而掌握技能。
在训练模型时,如果样本过于单一或特征选择不当,就容易出现过拟合现象。
过拟合意味着模型将训练样本中的特殊情况误认为是普遍情况。
如此一来,在面对新的样本时,模型就无法做出正确的处理。
同样,娇生惯养(过拟合:over-fitting)导致的脆弱心智(模型)在面临现
实世界中的各种挫折时,往往无法正确应对(预测不准确、泛化能力差),从
而很容易导致不幸的结果。
因此,我们应该让孩子面对各种情况,并给予反馈,让他们了解并适应真实世
界。