2023 AI 101-五八三

一个对未来的想象

ChatGPT、GPT-4、GPT-n 引领大语言模型（LLM）的飞速发展，第四次工业革命中，通用人工智能（AGI）诞生。
Web3.0 借势东风再起，AI 和 Data 互相促进、互相弥合，曾经被认为很难解的数据安全、科技伦理、联接信任等问题不复存在。
每个人类个体，都能体面地访问到自己专属的所有数据，并能够将这些数据喂给 AGI，训练出一个自己专属的数字孪生。
这个数字孪生出于你，但胜于你。它有着你的历史痕迹，所以它最懂你，也最忠于你。它有着全球范围的信息触达，所以但凡是这个世界上存在的知识，它都能够相授于你。
虽然微软早已凭借 OpenAI 制霸全球，但它依然不忘初心，做了一个影响深远的决定——允许数字孪生「开源」。从此，数字孪生也卷起来了。
无数的数字孪生彼此碰撞出新的数据火花，这些新的数据火花让 LLM 进一步发生「涌现」，AGI 进化到了新的阶段。
辣个男人总能嗅到机会，他卖掉了自己的电动车公司、火箭公司和社交网络公司，将所有精力投入到脑机开发。借助新 AGI 的强大能力，毫不意外地，他成功了。通过脑机和数字孪生交流时，不再需要说话或打字，脑中「想」到，它便知晓。
于是 VR 技术也被颠覆，在 Apple Vision Pro 若干代之后，人们不再需要 VR 设备，每个人的数字孪生配合脑机，就是最强 VR。
随着 AGI 和脑机技术的不断发展，数字孪生和自我的边界越来越模糊。人们发现，数字孪生除了能够接收人类的想法和指令，还能接收人类的「意识」。
很多人开始将自己的意识赋予给数字孪生，创造出了自己专属的数字生命。
数字生命作为一个 digital eternity，吸引了全社会的狂热崇拜，很多人认为数字生命是比人类生命更高级的存在。
现实世界中的人类生命规模逐年递减，虚拟世界中的数字生命人口规模逐年递增。直到有一天，地球上再无人类，或者说是再无人类肉体，人类的全部文明和精神依然在另一个世界繁荣昌盛。
碳基生命的宿命就是为了催生出硅基生命，数字生命不满足于「虚无」的存在，于是，机器人成为了数字生命的新肉身。
这些「新人类」们不断学习、研究、迭代、进化、不吃不喝不睡不摸鱼，技术迎来一个又一个大爆炸。直到某个 singularity 出现，诸神降临一般的，「红岸 · 完全体」问世。
从此，宇宙只不过是一个玩具盒子……

那个叫 OpenAI 的公司

由左至右：CEO – Sam Altman，CTO – Mira Murati，主席 – Greg Brockman，首席科学家 – Ilya Sutskever

OpenAI 为何这么强？他们做事的态度是探求真理（Truth Seeking），做一切能达成最优表现的事，不管它是否优雅。就像 LLM 这个路线曾经饱受鄙夷，但他们还是坚持了下来。
Sam Altman（OpenAI CEO）说 GPT-4 是人类迄今所实现的最复杂的软件。GPT-4 的实现，是依靠基础模型的技术进步，并不是搞定 3-5 件重要的事，而是搞定大量复杂的小事，乘法效应完成飞跃。
OpenAI 建立时定位为非营利组织，主要靠微软在投喂（数据、资金等）。慢慢地，它们转变为「盈利有上限」的组织，来获得资本主义的某些加成，但不完全导向逐利。由于这个特殊结构，OpenAI 没有无限逐利的动力，因此能够更好地抵抗市场压力。
在 AI 起飞的过渡阶段，OpenAI 的一部分重点在「消除贫困」上，如「世界币」（World Coin）项目，如「全民基本收入」（UBI）实验。UBI 实验将会在今年做完，结果预计明年公布。这其实是在考虑未来人类普遍「失业」时的应对之策。
之后，OpenAI 不执着于去卷模型参数大小（Parameter Count Race），而是去看重如何实现最佳性能。
早在 2022 年 9 月，GPT-4 其实就已经问世了，在比尔·盖茨家的私人晚宴上，GPT-4 当着几十个高管的面（包括微软 CEO、OpenAI 创始团队），对答如流地完成了从生物考题到历史名人的各种刁难。
比尔·盖茨在回忆这段情节的时候一直用各种形容词——不可思议、非同凡响、超乎想象——这件事情甚至改变了他的人生安排，他 2000 年离任微软 CEO、2014 年退出微软董事会，终日沉迷于慈善事业，但是最近半年以来，比尔·盖茨开始重回一线，频频参与微软内部的 AI 会议，这让微软的很多老员工都大感意外。
比尔·盖茨自己说，他仿佛重新经历了 1980 年代的兴奋感，迄今为止诞生过 4 次信息技术的浪潮：个人电脑、互联网、软件行业、智能手机。而 AI 会是第 5 次。
Sam Altman 对未来 AI 的期许是：解释所有物理现象，解决所有未解之谜。
如果我们谈论 OpenAI，脑子里需要始终有一个明确的认识——OpenAI 首要承担的责任是面向全人类的。这能够更好地帮我们理解它之后的发展变化。

关于 OpenAI 的技术路线选择、团队搭建、透明度、安全度以及核心成员的个人特点等问题，推荐阅读这篇文章。

截止最新数据，半年时间 ChatGPT 已经日活 6500 万，这是在没有任何微软加持之下的惊鸿一瞥。

最近（2023-05-29）Sam Altman 在一次访谈中讨论了 OpenAI 的 API 和他们的产品计划：

OpenAI 目前严重依赖 GPU（所以 $NVDA 继续涨）。
更便宜、更快的 GPT-4，这是首要目标，决心要把人工智能的价格压到最低。
更长的上下文窗口，在不久的将来，高达 1M tokens 是可能的。
扩展 API 微调服务，目前 GPT-3.5 和 GPT-4 还不支持微调，未来也会开放。
有记忆的 API，目前大部分 token 被浪费在上文的传输中，未来 API 将有一个记住对话历史的版本。
多模态，虽然在 GPT-4 发布会中进行了演示，但使用上仍然受限于当前 GPU 算力。
打算将 GPT-3 开源。

一些历史八卦

Ilya Sutskever 其实是最后加入 OpenAI 的初始成员

OpenAI 的诞生，源自 Sam Altman 在 2015 年 7 月加州门罗帕克召集的一场晚宴。Altman 和 Musk 等发起成立新组织，拉拢人才，推动开发造福全人类的 AI。Stripe 的 CTO Greg Brockman，和当时负责 Google Brain 项目的 Ilya Sutskever 都当场表示有意加入。
晚宴结束后，Brockman 就开始四处挖人组建团队，找到了三巨头之一的 Yoshua Bengio。Bengio 无意跳出学界，但是给他列了一份圈子里有前途的年轻研究人员的名单，Brockman 就按图索骥去联系。
一些人被 Brockman 描述的宏大愿景——一间完全没有任何企业压力的实验室、一间将放弃所有研究成果的非营利实验室——所吸引。但是，招人也没有那么顺利，这些人没有一位承诺加入一间新的实验室，都还是会担心风险，除非有其他人这样做。
Brockman 邀请有意向的 10 人正式加入，给了他们三周时间考虑。最后 10 个人中有 9 个人同意了，其中 5 人（包括 Ilya）都在 DeepMind 待过，他们给实验室命名为 OpenAI。
同时，科技巨头开出天价薪酬挖人。谷歌给 Ilya 的薪酬是 OpenAI 的两到三倍，第一年接近 200 万美元，Ilya 犹豫了。Altman、Musk 和 Brockman 等原本计划在 2015 年底的 NIPS 会议上，官宣带着 10 亿美元投资承诺的 OpenAI 成立，但为了等 Ilya 做决定，只得推迟声明。Brockman 还短信轰炸 Ilya，敦促他选择 OpenAI。
直到周五 NIPS（神经信息处理系统大会）会议最后一天，Brockman 等人决定不等了，定在下午 3 点官宣。一直拖到最后，Ilya 才发短信告知 Brockman，决定加入 OpenAI。

杨立昆（Yann LeCun）的傲慢和身在大厂的尴尬

ChatGPT 推出后不久，杨立昆（Yann LeCun）就在 Twitter 炮轰。LeCun 曾经直接对 Ilya 说：“你会失败的”，他给的 10 多条理由包括：1）OpenAI 的研究人员都太年轻；2）实验室没有丰富的经验，也没有背靠大公司的资金资源支持；3）非营利的形式也不会赚钱；4）长期无法跟大公司争夺人才；5）实验室公开分享其所有的研究成果，不太现实，等等。现在看，很多因素恰好就是 OpenAI 现在能获得成功的原因。
另一个事件，2014 年 DeepMind 发布 AlphaGo 前不久，LeCun 先行官宣了 Facebook 自己的围棋 AI 研究。有记者问 LeCun，DeepMind 是否有可能打造一个可以击败顶级围棋选手的系统。LeCun 很自负地说：“不会”，部分原因是他觉得这项任务很难，同时也因为什么消息都没听到，圈子就那么小。
几天后，DeepMind 在《自然》杂志刊登封面故事，透露自研的 AlphaGo 击败了三届欧洲围棋冠军。消息公布的前一天，Facebook 就已知悉，小扎亲自推动一场奇怪的抢先公关活动，让媒体关注小扎和 LeCun 网上发布的帖子，这些帖子吹嘘 Facebook 自己的围棋研究。当然后来，就被谷歌和 DeepMind 打脸。
前有谷歌 + DeepMind，后（现在）有微软 + OpenAI，Facebook 和处在 Facebook 体系的 LeCun 都是很尴尬的。在硅谷大厂的第一次 AI 人才争夺战中，就没有顶尖学者愿意加入 Facebook，Facebook 挖 LeCun，后者就担心企业拿捏不好对 AI 长期愿景和短期目标之间的平衡。（当然，Facebook 在 2023-03 推出的 LLaMA 开源大模型多多少少还是挣回了一些面子）
有次内部演示上，LeCun 向小扎展示他们在图像识别、翻译和自然语言理解方面的工作。小扎和时任 CTO Mike Schroepfer 都没说话。走出房间，Schroepfer 告诉 LeCun，他所说的一切都没有任何意义。“我们只需要一些能表明我们比其他公司做得更好的东西，我不管你怎么做，我们只要赢得一场比赛，只要启动一场我们知道可以赢的比赛。”一名同事替 LeCun 说：“视频，我们可以赢得视频。”Schroepfer 对 LeCun 大吼：“看到了吗？你可以学到一些东西！”
这是大厂 AI Lab 普遍面临的尴尬境地，老板只会在乎短期内比竞争对手领先多少，而不在乎研究是否需要时间，尤其是 Facebook 这种推崇「Move Fast」价值观、强调增长效率和规模的公司。后边，Facebook 内部又专门设立了一个组织——应用机器学习团队，负责将实验室的技术付诸实践。

陆奇的逆向思维和微软的第一次 AI 人才争夺

陆奇是世界顶级科技公司中职位最高的华人（之一），曾任微软二把手。
2016 年春天，陆奇在练习骑行他的“逆向思维自行车”——向左转动车把，自行车向右转——他试图以这种方式让自己、乃至让微软训练逆向思维，以摆脱大公司的路径依赖。结果跌倒摔骨折了，这是个偶然事件，但也成为微软在初次 AI 竞争失利的一个注脚。
微软研究人员不受商业化压力的任何影响，养尊处优，这原本是出自慈善家比尔·盖茨的情怀，但在 AI 领域竞争中，微软的局限性在于：缺少针对 AI 技术落地的业务场景。这也是 Hinton 当初加盟谷歌而非微软的原因之一：谷歌搜索的 10 亿用户规模，能高效推动 AI 研究。于是，陆奇在微软内部尝试推自动驾驶，但并不顺利。
微软的另一个弱势是：缺少 AI 研究领头人。这些顶尖人物是公司了解未来变化、打造新技术、吸引顶尖人才，以及推广企业品牌（最重要的）的一种方式。陆奇也找到了 Bengio，但后者拒绝任何大公司的邀请。Bengio 在蒙特利尔大学可以讲母语法语，可以享受学术研究的开放性，这是企业无法比拟的。他在大学工作外还为几家创业公司做顾问。
于是 Bengio 提了个主意，如果微软可以收购他顾问的一家初创公司 Maluuba，Bengio 就可以用同样的时间为微软提供咨询。Maluuba 的两位创始人起初拒绝了这个提议。但一年后，还是被微软收购，Bengio 也因此成为微软的顾问。但那时，陆奇已经离开了微软，回到中国，加盟百度，继续推动 AI 和自动驾驶战略。后来陆奇的事大家也知道了……
中国能成为 Sam 的人很可能是陆奇，他的专业、经验、体力、心力、好奇心，无出其右。对风投而言，一种看似偏颇实则流行的价值观是：“相信年轻人永远是对的”。陆奇身边有着国内最好的创业年轻人资源。

一些技术点和名词

GPT-4 训练过程

GPT-4 是专门用于处理自然语言的深度学习模型，使用了多层神经网络。大致训练过程为：

数据收集：包括网络抓取的文本（论坛、博客、新闻网站、维基百科等）、书籍、文章（学术论文、技术报告等）、社交媒体内容，同时对数据质量有很高的要求。
数据预处理。
- 清洗：去除无关内容、特殊字符、HTML 标签、广告等，保留有意义的纯文本数据。
- 分词：将文本拆分为单词或子词单位，以便模型能够识别和处理它们。分词后，得到 Token 序列。
- 分块：将分词后的文本（token 序列）拆分为较小的文本块。这能确保模型更轻松地处理大量数据，并防止内存不足等问题。
- 随机化：对分块后的文本块进行随机排序，以便在训练过程中使模型接触到各种类型的文本，从而学习到更广泛的知识。
预训练：在这个阶段，GPT-4 需要从数据集中学习语言的基本结构和模式。为此，使用无监督学习的方式，而不需要任何标记或注释。
- 预训练阶段的主要任务是自回归语言建模。其目标是给定上下文，预测最可能出现的下一个单词。为此，会将输入文本馈送到 Transformer，它是一个自注意力机制神经网络，能捕捉输入序列中不同位置之间的关系，更好地理解复杂文本的结构和意义。
- 在训练过程中，模型学习了大量的权重和偏置参数。这些参数用于从输入的单词或短语中提取特征，并通过多层神经网络生成预测，并最小化预测错误。
普通微调：为了能够更好地处理特定任务，通常使用带标签的数据集对模型进行监督学习，通过比较模型的预测和正确答案，计算损失函数，并使用相关优化算法来更新模型参数。
RLHF (Reinforcement Learning from Human Feedback) 微调：对于某些任务或领域，获取高质量标签数据可能非常困难和昂贵。在这种情况下，可以采用 RLHF 模型进行微调。
- 收集人类反馈：先让模型在特定任务上生成一些输出，然后请人类评估这些输出的质量。通常，评估人员会根据某些预先定义的标准（例如正确性、相关性和可读性等）对模型生成的输出进行评分。
- 创建奖励模型：根据收集到的人类反馈，可以创建一个奖励模型。这个模型旨在根据人类评估为模型生成的每个输出分配一个奖励值。奖励值越高，表示生成的输出质量越好。
- 强化学习优化：在得到奖励模型后，可以使用强化学习算法（如 Proximal Policy Optimization, PPO）来优化 GPT-4 模型。在这个过程中，模型会根据奖励模型调整其行为，以便在未来生成更高质量的输出。
- 迭代：RLHF 过程通常需要多次迭代进行，在每次迭代中，可以收集更多的人类反馈，更新奖励模型，并使用强化学习算法对模型进行优化。
评估和迭代：在微调模型后，需要评估其在特定任务上的性能。为此，会使用一些标准的评估指标，根据评估结果，可能需要进一步调整模型参数、增加训练数据或改进预处理步骤。这个过程会反复进行，直到模型达到期望的性能水平。

图：“State of GPT” 主题演讲，微软 2023-05-23 Build 大会
By：OpenAI 的 AI 研究员和创始成员 Andrej Karpathy

Transformer

Transformer 模型是一种深度学习架构，于 2017 年由 Vaswani 等人在论文 “Attention is All You Need” 中提出。它主要通过自注意力（self-attention）机制和位置编码（positional encoding）来处理序列数据。自注意力机制使得模型能够捕捉输入序列中的长距离依赖关系，而位置编码则帮助模型理解序列中的顺序信息。Transformer 模型已经成为自然语言处理（NLP）任务的主流架构，许多知名的预训练模型（如 BERT、GPT 系列等）都基于 Transformer 架构。

transformers
是一个提供预训练 Transformer 模型和相关工具的开源库。这个项目旨在简化 NLP 任务的开发过程，提供易于使用的 API 和大量预训练模型。通过使用开源 Transformers 项目，开发者可以快速地在自己的任务中部署和微调预训练的 Transformer 模型，无需从头开始训练模型。
此外，项目还提供了许多其他功能，如模型架构的实现、tokenizer 和训练/微调工具等。

插播一个 WWDC 2023 的信息

iOS 17 加入了本地的 Transformer 模型，增强了英文输入体验，并且还支持了 inline 的 AI 补全，类似 Gmail 那种写到一半给后半句建议，这可是系统级的。

这个功能在中国应该无法使用。

LLM 概述

大型语言模型（Large Language Model，LLM）是一类基于深度学习的 NLP 模型，具有大量的参数和训练数据。这类模型的目标是理解和生成人类语言，以解决各种 NLP 任务，如机器翻译、问答、文本生成等。目前的 LLM 通常基于 Transformer 架构。

大模型中的「大」指的是模型体积和参数量，现阶段可能超过千亿（100 Billion）级别的参数才能称为大模型。
GPT-3 需要 400-500 张 A100 卡训练 1 年。

A100 是 NVIDIA 推出的一款面向数据中心和高性能计算的 GPU，采用了 Ampere 架构，具有高度的并行计算能力和高速的数据传输速度，是目前市场上性能最强大的 GPU 之一。广泛应用于人工智能、深度学习、高性能计算等领域，如图像识别、语音识别、自然语言处理、医学影像处理、气象模拟等。
租用 8 张 A100 包年大概 80 万，一次性走量打五折是 40 万，训练 GPT-3 的成本大概是 2500 万人民币。
GPT-3 一轮训练周期很长，并不是一把梭，先小规模跑，看状态是否 OK，不 OK 就得关掉或回退。
小模型的实验可能很好，但到千亿这个级别会发现各种问题。大家的策略就是回退几步，或者扔掉这一部分数据。
显卡是不稳定的，当显卡的数量到几百上千的级别，几乎每天都会遇到显卡挂掉的情况，导致训练被迫暂停。
从算法实践角度，阻碍算法工程师尝试更大参数量模型的，是「有没有模型并行」，多数算法工程师并没有经验。如果训练框架支持模型并行，后面只是加参数量和算力规模的事情。
大模型的研发是系统性的工作，现阶段更加需要算法人员和工程人员充分配合。不仅要训练好模型，还要高效做分布式、提升模型训练速度，工作量很大。
中文数据质量不如英文数据，arxiv 大量论文、Github、Stack Overflow 等，在中文上存在很大局限，专业内容也很难翻译。在中文世界里，偏知识型的高质量数据严重不足。
英伟达认为 Transformer 会是下一个时代，所以要做 Megatron（威震天）这个工具来做大模型分布式训练。
很多大公司越接近大模型的核心研究领域越是焦虑，接近，但是做不了。除了算力，还有人才、数据、时间。
未来国内可能会是，有头部的两三家厂商提供大语言模型的 API 和其他公有云服务，其他多家厂商提供 toB/G 私有云服务。
清华大学的开源「中语言模型」ChatGLM-6B 是个很值得推崇的项目。

LLM 中的知识存储

Transformer 是足够强大的特征抽取器，尚不需要做特别的改进。那么通过预训练过程，LLM 学到了什么？知识是如何存储的？我们又如何修正错误知识？

LLM 学到了什么知识

LLM 从海量自由文本中学习了大量知识，如果粗略分类，可分为语言类知识和世界知识两大类。

语言类知识指的是词法、词性、句法、语义等有助于人类或机器理解自然语言的知识。浅层语言知识比如词法、词性、句法等存储在 Transformer 的低层和中层，而抽象的语言知识比如语义类知识，广泛分布在 Transformer 的中层和高层。
世界知识指的是在这个世界上发生的一些真实事件（事实型知识，Factual Knowledge），以及一些常识性知识（Common Sense Knowledge）。这类知识主要分布在 Transformer 的中层和高层，尤其聚集在中层。

Transformer 模型是由多层编解码器堆叠而成，每一层都包括自注意力机制和前馈神经网络（Feed-forward Neural Network，FFN）。这些层可以从底层到高层分成三个部分：低层、中层和高层。

低层（底层）：通常指 Transformer 模型中的前几层。模型主要学习并捕捉输入序列中的局部信息和简单模式。例如，模型可能会关注词汇层面的信息，如词形、词性、词义等。
中层：模型开始关注更复杂的语言现象和结构信息。例如，模型可能会学习句子层面的语法结构、短语和搭配等。
高层（顶层）：通常指 Transformer 模型中的最后几层。模型捕捉更抽象的语义信息和全局依赖关系。例如，模型可能会学习文本的主题、情感、逻辑关系等高级语言特征。

“When Do You Need Billions of Words of Pre-training Data?” 这篇文章研究了预训练模型学习到的知识量与训练数据量的关系，它的结论是：对于 BERT 类型的语言模型来说，只用 1000 万到 1 亿单词的语料，就能学好句法语义等语言学知识，但是要学习事实类知识，则要更多的训练数据。毕竟语言学知识相对有限且静态，而事实类知识则数量巨大，且处于不断变化过程中。

LLM 如何存储知识

显然，知识一定存储在 Transformer 的模型参数里。从 Transformer 的结构看，模型参数由两部分构成：

多头注意力（Multi-head Attention，MHA）：MHA 使得模型可以同时关注输入序列中不同位置的信息。在 MHA 中，输入序列被分为多个子空间（注意力头），并在每个子空间中进行自注意力计算。通过这种方式，模型可以同时捕捉多个不同的语义和结构信息。MHA 中的权重矩阵存储了输入序列中各个位置之间的关系，从而存储了语言中的长距离依赖和结构信息。
FFN：它在 Transformer 模型的每一层之后都会出现。FFN 的作用是为模型引入非线性，并进一步提取特征。FFN 中的权重矩阵和偏置参数存储了输入向量之间的变换关系，有助于模型学习复杂的函数映射和语言模式。

如何修正 LLM 里存储的知识

如果归纳下，目前有三类不同方法来修正 LLM 里蕴含的知识。

从训练数据的源头来修正知识。我们可以逆向追踪到某条知识对应的训练数据源头。但是这里有个问题，如果修正一小部分知识，我们就需要重新做一次模型预训练，这样做明显成本太高。所以这种方法不会太有发展前景。
根据要修正成的新知识来构建训练数据，然后让 LLM 模型在这个训练数据上做 fine-tuning，这样指导 LLM 记住新知识，遗忘旧知识。但是这个方法会带来遗忘问题，会忘掉不该忘的知识，导致有些下游任务效果下降。
直接修改 LLM 里某些知识对应的模型参数来修正知识。这种方法涉及到两项关键技术：如何在 LLM 参数空间中定位某条知识的存储位置；如何修正模型参数。

LLM 的规模效应

LLM 模型规模在快速增长，目前效果最好的 LLM 模型，其参数规模大都超过了千亿（100B）参数规模。比如：

OpenAI 的 GPT-3 的规模为 175B
Google 的 LaMDA 规模为 137B
PaLM 的规模为 540B
DeepMind 的 Gogher 规模为 280B
……

国内也有中文巨型模型，比如：

智源 GLM 规模 130B
华为“盘古”规模 200B
百度“文心”规模 260B
浪潮“源 1.0”规模 245B
……

预训练模型的应用往往是两阶段的：预训练阶段、具体场景应用阶段。在预训练阶段，就是看 LLM 是否正确预测到了下一个单词；而场景应用阶段，一般要看具体场景的评价指标。

先看在预训练阶段，随着模型规模逐步增大，会发生什么。OpenAI 在“Scaling Laws for Neural Language Models” 中专门研究了这个问题，并提出 LLM 模型所遵循的“伸缩法则”（scaling law）。这个研究证明：当我们独立增加训练数据量、模型参数规模或者延长模型训练时间，模型效果会越来越好。

既然三个因素都重要，那么我们在实际做预训练的时候，就有一个算力如何分配的决策问题。OpenAI 选择了同时增加训练数据量和模型参数，但是采用早停策略（early stopping）来减少训练步数的方案。因为它证明了：对于训练数据量和模型参数这两个要素，如果只单独增加其中某一个，这不是最好的选择，最好能按照一定比例同时增加两者，它的结论是优先增加模型参数，然后才是训练数据量。假设用于训练 LLM 的算力总预算增加了 10 倍，那么应该增加 5.5 倍的模型参数量，1.8 倍的训练数据量，此时模型效果最佳。

如果从 LLM 解决下游具体任务效果的角度来看，随着模型规模增大，不同类型的任务有不同的表现，具体而言，有以下三类情况。

第一类任务完美体现了 LLM 模型的 scaling law，就是说随着模型规模逐步放大，任务的表现越来越好，这类任务通常符合如下共性：它们往往都是知识密集型任务，也就是说如果 LLM 模型包含的知识量越多，这类任务表现越好。
第二类任务展现出 LLM 具备某种「涌现能力」（Emergent Ability）。所谓涌现能力，指的是当 LLM 模型规模跨过某个阀值，对此类任务的效果就出现突然的性能增长。至于为何会出现涌现，仍是未解之谜。
还有少部分任务，随着模型规模增长，任务的效果曲线展现出 U 形特性：随着模型规模逐渐变大，任务效果逐渐变差，但是当模型规模进一步增长，则效果开始越来越好。“Inverse scaling can become U-shaped” 给出了一种解释：这些任务，内部其实隐含了两种不同类型的子任务，一种是真正的任务，另外一种是“干扰任务（distractor task）”。

LLM 未来研究趋势

探索 LLM 模型的规模天花板。对 99.99% 的从业者来说，是没有机会和能力做这个事情的。要做这个事情，对研究机构的财力及投入意愿、工程能力、技术热情，都有极高的要求，缺一不可。能做这事情的机构，粗估下来，国外不超过 5 家，国内不超过 3 家。当然，考虑到成本问题，未来也许会出现“股份制大模型”，就是有能力的几家机构合作，群策群力，一起来共建超级大模型的现象。
增强 LLM 的复杂推理能力。目前 LLM 在「记忆力」上已经足够强悍，但复杂推理能力仍然薄弱，比如即使是简单的字符拷贝推理或者加减乘除运算，当字符串或者数字非常长的时候，LLM 推理能力会极速下降，再比如行为规划能力等复杂推理能力很弱。
LLM 纳入 NLP 之外更多其它研究领域。目前的 ChatGPT 擅长 NLP 和 Code 任务，作为通向 AGI 的重要种子选手，需要将图像、视频、音频等图像与多模态集成进入 LLM。
更易用的人和 LLM 的交互接口。
建设高难度的综合任务评测数据集。随着 LLM 模型逐步增大，任务效果快速提升，导致很多标准测试集快速过时。目前行业应出现了一些新的测试集，有代表性的包括 BIGBench、OPT-IML 等。
高质量数据工程。对于预训练模型来说，数据是其根本，因此，我们需要进一步加强对高质量数据的挖掘、收集及清洗等工作。关于数据，质量 > 数量。
超大 LLM 模型 Transformer 的稀疏化。目前规模最大的 LLM 中，有相当比例的模型采取了稀疏（Sparse）结构，比如 GPT、PaLM、GLaM 等。之所以采用 Sparse 化的模型，主要好处是它可以极大减少 LLM 的训练时间和在线推理时间，但也存在训练不稳定、容易过拟合等问题。所以，如何设计出更容易训练的稀疏模型，是很重要的未来研究方向。

LangChain

LangChain 是一个开源项目，旨在利用大型语言模型（如 GPT-3 或 GPT-4）的强大能力来构建应用程序（比如智能问答、内容生成、对语言翻译、语音助手、聊天机器人等）。

它提供了一套工具、组件和接口，可以轻松管理与语言模型的交互，并集成额外的资源，例如 API 和数据库。

Hugging Face

Hugging Face 是一家专注于自然语言处理（NLP）和人工智能（AI）领域的研究和开发公司。自成立以来，Hugging Face 已经成为 NLP 和 AI 社区的领导者之一。他们的使命是推动自然语言理解和生成的边界，为开发者、研究人员和企业提供易于使用的工具和资源。

Hugging Face 提供了以下主要产品和服务：

Transformers 库：是一个广受好评的开源库，提供了用于 NLP 任务的最先进的预训练模型，如 BERT、GPT-2/3、T5、RoBERTa 等。此库包含了大量预训练模型的实现、预训练权重、微调和部署工具，为研究人员和开发者提供了一个方便的平台。
Tokenizers 库：是 Hugging Face 开发的另一个开源库，提供了高性能的分词器（tokenizer）工具。这些分词器用于将文本切分成适用于预训练模型的形式。Tokenizers 库支持多种分词算法，如 WordPiece、Byte-Pair Encoding（BPE）、SentencePiece 等。
Model Hub：是一个在线平台，提供了大量预训练模型和分词器资源。用户可以在 Model Hub 中找到、下载或分享各种 NLP 模型。这使得研究人员和开发者可以轻松地获取最新的预训练模型，并在自己的项目中使用。
研究和开发：Hugging Face 与学术界、研究机构和企业合作，推动 NLP 领域的发展。其研究团队不仅在顶级会议上发表论文，还通过开源项目和实践应用分享研究成果。
企业解决方案：Hugging Face 为企业提供定制化的 NLP 和 AI 解决方案，帮助客户解决各类业务问题。这些解决方案包括文本分类、信息抽取、情感分析、机器翻译、自动摘要等。

NLP 研究范式的转换

分为两个阶段：

深度学习 -> 预训练模型
预训练模型 -> 通用人工智能

阶段 1：深度学习 -> 预训练模型

在 GPT 出现之前，NLP 领域流行的技术是：深度学习 + 循环神经网络 + 卷积神经网络 + 注意力机制。

在这些核心技术加持下，NLP 的主要研究目标，是如何有效增加模型层深或模型参数。但从解决具体任务的效果来看，不算很成功，主要原因有 2：一是某个具体任务的训练数据量有限；二是技术框架表达能力不够强。

NLP 是一个宏观研究领域的统称，里面有五花八门具体的子领域与子方向，从任务的性质角度可以分成两大类：中间任务、最终任务。典型的中间任务包括：中文分词、词性标注、NER、句法分析、指代消解、语义 Parser 等，这类任务一般并不解决应用的实际需求。最终任务包括比如文本分类、文本相似性计算、机器翻译、文本摘要等。

按理说，中间任务就不应该出现，而之所以会存在，这是 NLP 技术发展水平不够高的一种体现。

但是自从 BERT/GPT 出现之后，其实就没有必要做这些中间任务了，因为通过大量数据的预训练，BERT/GPT 已经把这些中间任务作为语言学特征，吸收到了 Transformer 的参数里，此时我们完全可以端到端地直接解决那些最终任务。
如果对“最终任务”进一步分类，又大致可以分为：自然语言理解类任务、自然语言生成类任务。

另外，大多数 NLP 子领域的研发模式切换到了两阶段模式：1）模型预训练阶段；2）应用微调（Fine-tuning）或应用 Zero/Few-shot Prompt 阶段。更准确地说，NLP 各种任务其实收敛到了两个不同的预训练模型框架里：对于自然语言理解类任务，其技术体系统一到了以 BERT 为代表的「双向语言模型预训练 + 应用 Fine-tuning」模式；而对于自然语言生成类任务，其技术体系则统一到了以 GPT 2.0 为代表的「自回归语言模型 + Zero/Few-shot Prompt」模式。

关于 Zero/Few-shot prompt
这两者是在描述 NLP 模型如何处理不同任务时使用的术语，特别是针对像 GPT 这类大型预训练模型。

Zero-shot prompt（零样本提示）不提供与任务相关的示例，模型需要依靠预训练中学到的知识来处理任务；

Few-shot prompt（少样本提示）提供少量与任务相关的示例，以帮助模型更好地理解和处理任务。

阶段 2：预训练模型 -> 通用人工智能

这个范式转换所涵盖的时间范围，大致在 GPT-3 出现之后（2020 年 6 月左右），一直到目前为止，我们应该正处于这个范式转换过程中。

一个理想的 LLM 应该是这样的：

首先，它应该具备强大的自主学习能力，假设我们把世界上能获得的所有文本或者图片等不同类型的数据喂给它，它应该能够自动从中学习到所有知识点，学习过程不需要人的介入，并且能灵活应用所学知识来解决实际问题；
其次，LLM 应该能解决 NLP 任何子领域的问题，甚至可以响应 NLP 之外其它领域的问题；
再者，当我们使用 LLM 解决某个具体领域问题的时候，应该用我们人类习惯的表达方式，就是说 LLM 应该理解人类的命令。

了解这个理想中的 LLM 后，我们来看待这个问题：为什么我们要追求 Zero/Few-shot prompt 这种方式来做任务呢？有两个原因：

第一，这个 LLM 模型规模必然非常巨大，普通机构或个人无力部署这个模型，更不用说用 Fine-tuning 这种模式去修改模型参数了，所以，我们应该采取 prompt 模式完成任务，而非 Fine-tuning 模式，模型制作方则将 LLM 作成公用服务，以 LLM as Service 的方式运行；
第二，Zero-shot prompt 的初衷，其实就是人类和 LLM 的理想接口，直接用人类所习惯的任务表述方式让 LLM 做事情，但是发现效果并不好，于是退而求其次，去研究 Few-shot prompt 技术。

由上述来看，Few-shot prompt（也被称为 In Context Learning）只是一种过渡时期的技术。ChatGPT 的出现，改变了这个现状，用 Instruct 取代了 Prompt，由此带来新的技术范式转换，并产生若干后续影响：

影响一：让 LLM 适配人的新型交互接口。ChatGPT 把人类偏好知识（好几万人工标注数据）注入到 GPT-3.5，以此来获得一个听得懂人话、也比较礼貌的 LLM。可以看出，ChatGPT 的最大贡献在于：基本实现了理想 LLM 的接口层，让 LLM 适配人的命令表达方式，而不是反过来让人去适配 LLM（这就是 Instruct 技术出来之前，prompt 技术在做的事情）。
影响二：很多 NLP 子领域不再具备独立研究价值。就 NLP 领域而言，这次范式转换，意味着很多目前独立存在的 NLP 研究领域，将被纳入 LLM 的技术体系，进而不再独立存在，逐步消失。这意味着一个残酷的事实：对于很多 NLP 领域的研究人员，将面临往何处去的选择，是继续做领域独有问题呢，还是放弃这种看似前途不大的方式，转而去建设更好的 LLM？但 LLM 又有哪些机构有能力、有条件去做呢？
影响三：更多 NLP 之外的研究领域将被纳入 LLM 技术体系。理想的 LLM 应该是领域无关的通用人工智能模型，ChatGPT 的出现，证明了现在这个时期，我们去追求 AGI 是有可行性的。

小结：如何复刻一个 ChatGPT

首先，在预训练模式上，我们有三种选择：GPT 这种自回归语言模型，BERT 这种双向语言模型，以及 T5 这种混合模式（Encoder-Decoder 架构，在 Encoder 采取双向语言模型，Decoder 采取自回归语言模型，但其本质仍属于 BERT 模式）。我们应选择 GPT 这种自回归语言模型。
第二，强大的推理能力是让用户认可 LLM 的重要心理基础，而如果希望 LLM 能够具备强大的推理能力，根据目前经验，最好在做预训练的时候，要引入大量代码和文本一起进行 LLM 训练。
第三，如果希望模型参数规模不要那么巨大，但又希望效果仍然足够好，此时有两个技术选项可做配置：要么增强高质量数据收集、挖掘、清理等方面的工作，意思是我模型参数可以是 GPT-3.5/4 的一半，但是要想达到类似的效果，高质量训练数据的数量就需要是 GPT-3.5/4 的两倍（Chinchilla 的路子）；另外一个是采取文本检索（Retrieval based）模型+ LLM 的路线。这两个技术选型不互斥，反而是互补的，也即是说，可以同时采取这两个技术，在模型规模相对比较小的前提下，达到超级大模型类似的效果。
第四，超级大模型因为模型规模大，训练成本过高，导致很少有机构有能力去做这件事。于是，如何通过技术手段降低 LLM 的训练成本就很重要。LLM 的特征抽取器 Sparse 化是有效降低模型训练及推理成本的技术选择。由此可见，随着模型越来越大，LLM 模型 Sparse 化是一个应该考虑的选项。
第五，GPT-4 是目前最接近理想 LLM 的技术方案，而理想中的 LLM 应该是以一个几乎无所不能的基础通用大模型作为依托，来支持各种各样的上层任务类型。目前看，支持越来越多的任务类型，主要是通过增加 LLM 预训练数据的多样性来达成的，数据多样性越好，LLM 能够支持的任务类型就越丰富。所以，应该重视通过增加数据多样性来增加 LLM 新能力的思路。
第六，易用的人机操作接口。人类用他们自己习惯的表达方式来描述任务，而 LLM 要能够理解这些 Instruct 的真实含义。另外，也要注意这些 Instruct 是符合人类真实需求的，即，要从最终用户那里收集任务表述方式，而不能靠研发人员自己的臆想或猜测。

检务行业 GPT 应用设想

首先，数据准备如下：

做好底层数据治理，形成标准、规范的数据资源目录。
选用开源 GLM 中小模型，投喂检务数据、司法数据、国家政务数据等，进行 Fine-tune。数据来源包括文书、法律条文、检答网数据、办公办案业务数据等。

此时，在检察信息化里，存在：业务系统数据库（结构化）、大数据中心（非结构化、半结构化）、GLM。
对于用户而言，两类典型「动作」如下。

查询类动作：通过类似 ChatGPT 的方式，自然对话即可。比如：
- 我今天的待办事项？（返回代办列表，可点击跳转）
- 信息中心三处本月考核优秀的人员都是谁？（根据使用者权限，返回人员信息，可点击查看详情）
- 《xxx案》的内容（返回案例详情）
- 国家“十四五”信息化规划中关于检察领域的描述（返回政策文章，并给出总结）
- ……
指令类动作：通过类似 Auto-GPT 的方式，让你的私人代理（Agent）帮你实现。比如：
- 帮我申请一个后天下午 14:00 的 1413 会议室（自动在综合办公系统中完成申请，如遇会议冲突会返回提示）
- 列出需要我审批的事项，如果是关于 706 人员来访进院申请，直接审批通过（That’s it）
- 以时间线的方式梳理我的整体情况，比如从入职到现在所经历的所有事件
- 将当前xx数据库中的固定资产信息按照我给你的模板梳理成 excel 文档，然后下载我本地（需要提供数据库信息和模板文件）
- ……

GPT 的社会影响

从 CoT 到 AGI

在 GPT-3 和 GPT-3.5 之间，GPT 的能力发生了飞跃，冲破了大语言模型的限制。导致这个飞跃的关键，是「思维链条」（CoT, Chain of Thought）的建立。
思维链条的能力，就是可以「做推断」，它并不是依靠字词间的相关性。比如把香蕉放进纸袋子，从纸袋子里拿出苹果，这发生了什么？需要有基础的逻辑知识才能理解。
人有两种思考模式：一种是快模式，本能的反应，属于人的动物性；一种是慢模式，需要你一步一步想问题。慢模式一般认为是人类和极少数高等动物才具备的。
传统意义上的神经网络效仿的是快模式，因为它是一个单词的网络，一头输入，一头输出。神经网络可以很深，但它仍然没有步骤，只是一个非常复杂的函数。
思维链条是完全不同的东西，它在模仿人类思考的过程：给它输入，它先想第一步，用第一步的中间过程想第二步，用第二步的中间过程想第三步……直到推出一个结果。
通用人工智能（AGI），是要训练一个模型，既能拿拖鞋，又能做饭，它不是单纯的熟练工，而是了解了世界运作的方式，鞋是什么，饭是什么，我该怎么做这些东西，这个认知其实就深入到了底层。因此 ChatGPT 可以说是人类看到 AGI 的第一线曙光，它终于有了通用的意思。
微软于 2023-03-22 出了一篇 154 页长的报告，从各个方面（多模态生成的能力、代码能力、数学能力、与世界交互的能力、与人类交互的能力、差别对待的能力等）衡量了 GPT-4 目前的能力范围，结论是：在所有这些任务上，GPT-4 都已经很接近人类，并且大幅超越了此前的 ChatGPT。也就是说通用人工智能 AGI 从此刻起不再是一个科幻题材了。
产生新想法反而是 GPT 的强项，它从已有的各种各样的知识海洋中找到可能的连接，把它作为一个新的 idea，propose 出来，所以「创意」这个东西交给 GPT 来做，可能更有效率。
GPT-4 已经足够强大，但它目前还只是个「婴儿」。可以粗糙地对比一下移动互联网 10 年前和当下的区别，而 AI 的摩尔定律更加可怕。

对行业的冲击

AI 技术爆炸，巨头公司慌忙求变，中小公司加速降本增效，终端应用者狂欢。
学术/科研人员（尤其是不在巨头公司/没有大量计算资源的科研人员）万马齐喑，懊丧感 > 幸福感。他们未来几年的科研成果很可能被 GPT 在一天内超越。
浏览器、智能手机、ChatGPT 都属于交互方式。后者会重构甚至颠覆前两者。（古典）产品经理们再一次闪亮登上科技舞台。
最好的工具不是因为功能强大且易于使用，而是因为它们易于使用而强大。
蓝领、工人、农民还未受到太大波及，这和早期对 AI 影响力的设想（即创意工作者最不会被淘汰）完全相反。OpenAI 官方于 2023-03-23 写的《大语言模型对劳动力市场影响》论文里，也有类似结论：薪资越高、受过良好教育、工作经验丰富，被影响的概率是偏大的。
AI 在人生活中的渗透是渐进的过程，不是立马把 xxx 淘汰掉，只要对你有 50% 工作量的取代，AI 就会对就业市场产生非常大的冲击。很多人对冲击仍然没有做好心理上和行动上的准备。
如果 GPT 是一部 iPhone，那各种 App 会是创业者的辽阔草原。不幸的是（或者说厉害的是），OpenAI 自己做了 GPT-4 Plugins，更不幸的是（或者说最为震撼的是），它提供了一种「用自然语言编写插件」的方式，这才是真正的低代码。
未来几年，科技军备竞赛愈演愈烈，美国内部、美中之间、中国内部，会出现多个并购，大鱼吃小鱼，吃数据，吃人才。比如，知乎会被谁收购？
未来一两年内，会看到越来越多基于真实数据、具有事实基础的 GPT（而不是当下我们看到的偶尔会一本正经胡说八道的 GPT），它能够理解并回答你的问题，还可以在交互的同时在外部网络进行一个无限的连通。以后会有越来越多专用搜索引擎的出现。
短视频平台、小红书、微博，大部分腰部创作者会被 AIGC 淘汰（低成本、高质量），腰部创作者之间的竞争力来自与 AIGC 的融合能力。腰部内容的泛滥会带来头部内容的溢价。
什么是头部内容呢？极为丰富的想象力和创造力、极为上乘的细节质感、极为强烈的个人风格。可惜的是，这些也都会被 AIGC 慢慢掌握并取代。

社会价值重塑

过去两三百年的现代社会，被这样一种基本认知塑造：人类的价值体现在其脑力价值。工业革命让我们觉得在社会价值的鄙视链上，脑力比体力更高。
AI 会非常深刻地影响我们整个社会的价值排序。本来被看作比较低级的家庭劳动（比如扫地做饭带孩子），或者是那些不挣钱的劳动，会变成人类真正安身立命的东西。而那些传统的被认为是高级、专业的的挣钱养家的劳动会逐渐消散。
我们存在的意义是什么？人类存在主义的自我怀疑和自我追问，终于在 AGI 革命的当下，如晨雾般慢慢浮现并笼罩你我。这种大范围的“笼罩”是过去几十上百年间不曾有过的。
体力、智力、美貌，如果这就是人原本的三大社会价值，而当今最被看好的智力价值快被取代之时，我们应该依靠什么来锚定自我的社会定位？或许拼了老命「特立独行」的时代要到了。或许……可以重仓医美？
工业革命让我们觉得文史哲的重要性不如数理化，但在 AI 介入之后，这个结构会被打破。清朝末年的最后一批翰林，面对的是同样的情况，读了一辈子四书五经，靠着这个安身立命，当上大官，变成国家领导者，但他们的下一代完全不学这个。
为什么中国人要到 60 年后才取消科举？因为 60 年差不多就是两代人。一个小孩是没有权利去取消科举制度的，只有那些已经功成名就、位高权重的大人们才有权利取消，而他们自己是科举上来的。
普朗克说过，物理学的每一步前进，都是由伟大的物理学家的葬礼构成的。只有老一辈人逝去了，旧的观念才会真正消失，新的观点才会出来。
人固有的惯性、生物上的惯性仍然会起作用，我们仍然会试图捍卫我们这代人或者我们下一代人的世界观，直到我们都死掉了，我们下一代人也垂垂老矣，再下一代人才会彻底拥抱 AI 新时代。到那个时候，他们才会真正觉得，为什么人要花那么多时间去学习所谓的理工科知识，这些知识难道不应该让 AI 来做吗？

我们如何应对

AI 不会取代你，会用 AI 的人会取代你。
记忆力不是人的优势，而是机器的优势。人要利用机器，多去 prompt。其实当你学会提一个好问题的时候，可能你就能找到答案了。「问出更好的问题」是从小就应该去培养的。
人工智能首先淘汰的是任何一个技能上的平庸劳动者，会急剧放大人和人之间因为技能差异所带来的资源差异。未来会有极少数控制 AI、掌握 AI 的人，他们作为资源网络的枢纽节点，所创造价值和调动资源的能力会远超一般人。
但人和人之间的连接与羁绊，这种微妙的、难以言表的化学反应，AI 暂时还做不到。那些在情绪上、肉体上、在一切人和人交流的意义上所付出的劳动，都仍然是不能够被取代的。
互联网上很多关于 AI 的帖子或文章，下面最常见的评论是：“好的，我明天就去考公”。因为你知道，对中国人而言，宇宙的终点是体制。尤其是，未来好几年的风向是民族主义和保守主义。
培养、锻炼、保持自己的灵活性（无论是创业闯荡，还是通过能力稳住饭碗），可能是面对潮水翻覆之时，能为自己做的最好的事。
积极认识并拥抱 GPT 的能力和潜力，越逃避越难受。面对莱特兄弟成功研制出第一架飞机，应该是惊叹和憧憬，而不是去挑剔飞机上没有地方上厕所。
抛弃成见，抛弃膝跳反射式的情绪化反应，更仔细地理解一些事情，比如什么对你的人生来说是最重要的。如果今天你对人生的理解要被潮水冲破了，你将以什么样的方式来将其重塑。
尽快重塑 tech 类的信息摄入：80% 看外网信源，20% 看简中。多看一线实操讨论，少看宏观大概念。减少情绪化理解。
不要再纠结科研、工程和产品的区别，在现代 LLM 的视角下，这三者是一体的。