科普:了解Chat GPT和人工智能领域的这些关键词

每个人似乎都为ChatGPT疯狂,它已经成为一种文化现象。如果您还没有乘坐 ChatGPT 列车,本文可能会帮助您更好地了解这项创新的背景和兴奋点。

ML、 AI 、AGI这些缩写是什么意思呢?

ML(机器学习)是一种解决复杂计算问题的方法,它不是使用编程语言编写代码,而是构建一个算法,从数据样本中“学习”解决方案。

AI(人工智能)是计算机科学领域处理难以使用传统编程解决的问题(例如图像分类、人类语言处理)的一种方法。ML和AI相辅相成,ML是解决在AI中提出的问题的工具。

AGI(人工通用智能)是人们通常所理解的AI的正确术语,即计算机具备类似于人类的智能能力和广泛推理的能力。这仍然是AI领域研究人员的终极目标。

什么是神经网络?

人工神经网络(ANN)是一类ML算法和数据结构(或模型),因为它受到生物神经组织结构的启发而得名。但这并不完全模拟其背后的所有生物机制。相反,ANN是基于来自生物体系的思想的复杂数学函数。

当我读到“该模型有20亿个参数”时,这是什么意思?

神经网络是由相互连接的统一单元组成的分层结构。这些单元之间的连接方式称为架构。每个连接都有一个称为权重的关联数字,权重存储模型从数据中学习的信息。所以,当您读到“该模型有20亿个参数”时,这意味着模型中有20亿个连接(和权重),它大致指定了神经网络的信息容量。

什么是深度学习?

神经网络自1980年代以来一直在研究,但是当电脑游戏行业引入了称为图形处理单元(GPU)的廉价个人超级计算机时,它们产生了真正的影响。研究人员将这种硬件用于神经网络训练过程,并取得了令人印象深刻的结果。第一个深度学习架构之一,卷积神经网络(CNN),能够进行复杂的图像识别,这在传统计算机视觉算法中是困难的。自那时以来,使用神经网络的ML被重新命名为深度学习,其中“深度”指的是网络能够探索的复杂NN架构。

什么是大型语言模型?

要使用计算机处理人类语言,必须将语言数学化定义。这种方法应足够通用,以包括每种语言的独特特征。2003年,研究人员发现了如何用神经网络表示语言,并称之为神经概率语言模型或LM。这类似于移动电话中的预测文本-给出一些初始单词序列(或令牌),模型可以预测下一个可能的单词及其相应的概率。使用先前生成的单词作为输入继续进行此过程(这是自回归),该模型可以生成训练所用语言的文本。

当我们阅读有关语言模型的文章时,经常会遇到“transformer”一词。这是什么?

表示项目序列是神经网络的一个具有挑战性的问题。有几次尝试解决这个问题(主要是围绕循环神经网络的变化),这产生了一些重要的想法(例如词嵌入,编码器-解码器架构和注意机制)。2017年,一组谷歌研究人员提出了一种新的NN架构,称之为transformer。它将所有这些想法与有效的实际实现结合在一起。它的设计是为了解决语言翻译问题(因此得名),但证明对于捕捉任何序列数据的统计属性也是有效的。

为什么每个人都在谈论OpenAI?

OpenAI使用transformer构建了神经概率语言模型。他们实验的结果称为GPT(生成预训练转换器)模型。预训练意味着他们正在互联网上挖掘大量文本来训练转换器NN,然后采用其解码器部分进行语言表示和文本生成。有几代GPT:

GPT-1:一个最初的实验模型,用于验证方法 GPT-2:展示了生成连贯人类语言文本和零-shot学习的能力-能够推广到它从未专门训练过的领域(例如语言翻译和文本摘要,只是其中之一) GPT-3是架构的扩展(GPT-2的15亿个参数与最大GPT-3的1750亿个参数相比),并且在更大和更多样的文本上进行了训练。它最重要的特征是只需看到提示中的几个示例就能在各种领域中生成文本(因此称为短期学习),而无需任何特殊的微调或预训练。 GPT-4:一个更大的模型(确切的特征未公开),更大的训练数据集以及多模式(文本与图像数据增强)。 鉴于GPT模型具有巨大的参数数量(事实上,您需要一个具有数百到数千个GPU的巨大计算集群来训练和服务这些模型),它们被称为大型语言模型(LLM)。

GPT-3与ChatGPT有什么区别?

原始的GPT-3仍然是一个单词预测引擎,因此主要受到AI研究人员和计算语言学家的关注。给定一些初始种子或提示,它可以无限生成文本,这在实际应用中意义不大。OpenAI团队继续尝试优化模型,将提示视为执行指令进行微调。他们输入了一组由人类策划的对话数据集,并发明了一种新方法(RLHF – 从人类反馈中进行强化学习),以另一个神经网络作为验证代理(在AI研究中很常见)来显著加速这个过程。他们基于一个较小的GPT-3版本发布了一个名为InstructGPT的MVP,并于2022年11月发布了一个名为ChatGPT的完整功能版本。通过其简单的聊天机器人和Web UI,它改变了IT世界。

什么是语言模型对齐问题?

鉴于LLMs只是复杂的统计机器,生成过程可能会走向意想不到和不愉快的方向。这种结果有时被称为AI幻觉,但从算法的角度来看,它仍然是有效的,尽管对于人类用户来说是意外的。

原始的LLMs需要通过人类验证器和RLHF进行处理和额外的微调,如前所述。这是为了使LLMs与人类期望相一致,不出所料,这个过程本身被称为对齐。这是一个漫长而繁琐的过程,需要相当多的人力工作,这可以被认为是LLM质量保证。模型的对齐是区分OpenAI / Microsoft ChatGPT和GPT-4与它们的开源对应物的关键。

为什么有一个停止语言模型进一步发展的运动?

神经网络是黑盒子(一个巨大的数字数组,上面有一些结构)。有一些方法可以探索和调试它们的内部,但GPT的卓越泛化质量仍未得到解释。这是禁令运动的主要原因 – 一些研究人员认为,在我们更好地了解LLMs背后的过程之前,我们正在玩火(科幻小说给我们AGI诞生和技术奇点的迷人场景)。

LLMs的实际用例是什么?

最受欢迎的包括:

大型文本摘要 反之 – 从摘要生成文本 文本风格(模仿作者或角色) 将其用作个人导师 解决数学/科学练习 回答文本问题 从简短描述生成编程代码

GPTs是现在唯一的LLMs吗?

GPTs是最成熟的模型,由OpenAI和Microsoft Azure OpenAI服务提供API访问(如果您需要私人订阅)。但这是AI的前沿,自ChatGPT发布以来已经发生了许多有趣的事情。谷歌构建了自己的PaLM-2模型;Meta开源了他们的LLaMA模型供研究人员使用,这激发了许多微调和增强(例如斯坦福的Alpaca)和优化(现在您可以在笔记本电脑甚至智能手机上运行LLMs)。

Huggingface提供了BLOOM和StarCoder以及HuggingChat – 这些完全开源,没有LLaMA研究限制。Databricks训练了他们自己完全开源的Dolly模型。Lmsys.org提供了自己的Vicuna LLM。Nvidia的深度学习研究团队正在开发他们的Megatron-LM模型。值得一提的是GPT4All倡议。

然而,所有这些开源替代品仍然落后于OpenAI的主要技术(特别是在对齐方面),但差距正在迅速缩小。

我们如何使用这项技术?

最简单的方法是使用OpenAI公共服务或他们的平台API游乐场,它提供了更低级别的访问模型和对网络内部工作的更多控制(指定系统上下文,调整生成参数等)。但是,您应该仔细检查他们的服务协议,因为他们使用用户交互进行额外的模型改进和培训。或者,您可以选择Microsoft Azure OpenAI服务,它提供相同的API和工具,但具有私人模型实例。

如果您更有冒险精神,可以尝试由HuggingFace托管的LLM模型,但您需要更熟练地掌握Python和数据科学工具。

© 版权声明
THE END
喜欢就支持一下吧
点赞0

Warning: mysqli_query(): (HY000/3): Error writing file '/tmp/MYMML0uZ' (Errcode: 28 - No space left on device) in /www/wwwroot/583.cn/wp-includes/class-wpdb.php on line 2345
admin的头像-五八三
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

图形验证码
取消
昵称代码图片