随着自然语言处理和人工智能技术的发展与广泛应用,如何利用大规模预训练语言模型为人类服务的同时避免其引发的社会问题,成为科研人员与政府必须思考的问题。ChatGPT由于其操作简单易于上手的特性备受关注,科研人员必须紧密关注这种可能推广开来的前沿技术,未雨绸缪,分析其技术漏洞、可能的应用场景以及可能引发的社会问题,为先进技术的推广、监管和进一步研发做好准备。
近年来,随着自然语言处理和人工智能技术的发展,以预训练语言模型为代表的文本生成技术在生成文本流畅性和语义连贯性方面取得了重大突破。今年,OpenAI公司的ChatGPT模型凭借其长时间连续对话能力和强大问题处理能力成功闯入公众的视野,在AlphaGo之后时隔五年再一次引起公众对于人工智能技术的广泛关注。但ChatGPT模型的推出并非一蹴而就,而是在GPT类语言模型不断迭代改进中发展得来。因此,梳理促成ChatGPT模型强大性能的是哪些关键技术,反思在当前技术背景下,ChatGPT模型存在的问题,研判ChatGPT可能会引发的新型社会问题,都是值得我们关注和思考的。在本文中,我们将从回顾GPT类模型出发,在介绍ChatGPT模型关键技术的基础上,探讨ChatGPT模型仍然存在的问题、未来的发展方向、应用前景以及可能引起的社会问题。
一、GPT类模型技术发展路径
图1 GPT类模型推出时间线1,2
GPT(Generative Pre-trained Transformer)类模型是由人工智能创业企业OpenAI提出的基于Transformer解码器的预训练语言模型,既可以执行如情感分类、阅读理解等判别类任务,又可以执行如摘要生成、文章补全等文本生成类任务。此类模型的发布时间、模型参数量以及预训练数据量如图1所示,其包括GPT系列、GPT-2系列、GPT-3系列、GPT-3.5系列(InstructGPT模型属于此系列)、ChatGPT模型,以及未来即将发布的GPT-4系列等模型。除此之外,自2020年OpenAI不再向公众开源GPT-3系列及后续模型代码之后,EleutherAI组织为打破OpenAI对GPT-3的垄断地位陆续开源了GPT-Neo和GPT-J两类模型,而GPT-Neo的变体GPT-NeoX-20B也是目前最大的开源通用预训练语言自回归模型。但是,EleutherAI组织的研究自成体系,而本文主要关注ChatGPT模型的技术、不足及影响,故本节仅对OpenAI公司的GPT类模型发展路径进行回顾。
OpenAI公司的GPT类模型是在迭代过程中逐步发展完善起来的。GPT模型运用无标注数据预训练语言模型,在执行下游任务时利用少量标注数据微调模型,在自然语言处理的多种任务上,首次实现预训练-微调范式的性能超越直接利用大量标注数据从头训练模型的性能的效果。GPT-2模型作为对BERT模型的回应,首次尝试在下游任务上不微调语言模型,直接以提示方式执行不同任务。GPT-3模型延续不微调模型的设定,在执行任务时为模型提供少量参考样本,利用模型的上下文信息建模能力直接提取有效信息执行任务,达到了与微调模型接近的性能,同时模型具有较强的文本生成能力。InstructGPT模型主要解决GPT-3模型过大的问题,通过RLHF(Reinforcement Learning from Human Feedback, 从人类反馈中强化学习)的微调方式,以百分之一大小的模型和极少的标注数据获得了极强的上下文信息建模能力,并且实现了语言模型与标注人员认知的初步对齐,在各个任务上其性能均超越了GPT-3系列模型。而ChatGPT模型同样基于RLHF的微调方式,以牺牲强上下文建模能力为代价,获取了从长时间对话文本中抽取有效信息的能力,在人机对话场景下在回答问题、文本生成、代码纠错等任务上实现了极其惊艳的性能[5]。与此同时,ChatGPT模型与标注人员的认知对齐水平更高,在面对涉及暴力、种族歧视等敏感问题时的稳定性和对于常识的理解能力也远远优于InstructGPT模型。
二、ChatGPT模型的主要技术手段
ChatGPT模型以Transformer模型解码器为基础,其训练过程与InstructGPT类似,可以分为在无标注的语料数据上进行预训练、在少量标注数据上进行监督微调和进行RLHF微调三个阶段。下面,在简要介绍Transformer模型后,我们将分别介绍三个训练阶段,主要介绍最新引入的RLHF微调阶段的训练方式。
(一)Transformer解码器模型结构
图2 GPT类模型采用的Transformer解码器模型结构
GPT类模型使用的Transformer模型解码器结构如图2所示,其通过掩码多头自注意力机制抽取文本序列在当前词汇之前的所有词汇对于理解当前词汇提供的有效信息,在聚合有效信息的基础上以单层前向传播神经网络融合语义表示向量的不同维度,形成受上下文环境影响的动态的词汇语义表示向量[6]。注意力机制以经过变换的词汇表示向量之间的相似度建模文本序列中某个词汇信息对于理解另一个词汇信息的有用程度,将能够辅助理解当前词汇的信息引入当前词汇表示中从而实现不同词汇信息的融合和完整序列的理解。而掩码则是为了遮蔽后续输入,避免向语言模型透露未来输入降低词汇预测难度,可以有效提升预训练任务的难度,提升预训练习得模型的质量[6]。所展示的模型结构仅为单层解码器的基本结构,而在实际的GPT类模型中常采用十几层甚至几十层解码器堆叠成深层模型以提升序列语义抽取能力和信息融合表示能力。
(二)GPT类语言模型的自监督预训练过程
GPT类语言模型是典型的自回归语言模型,即其生成文本序列的过程实质上是逐个词汇生成的过程:在生成当前词汇时将给定的提示段落和之前生成的所有词汇作为模型输入,提取有效信息辅助预测当前词汇输出;然后将当前预测输出合并到之前的输出中,用于提取预测下一个词汇的有效信息,再预测下一个词汇。GPT类模型的预训练阶段就是在大量无标注的语料数据上反复执行这种预测过程:通过模型不断计算当前模型生成单个词汇的概率和生成完整样本文本序列中所有词汇的概率,并利用优化算法调整模型参数以最大化模型按正确顺序生成完整样本文本序列中所有词汇(即生成样本文本)的概率。经过多轮迭代训练,模型参数被调整得适用于预测将来的词汇和文本序列输出,能够在给定提示段落的前提下输出语句通顺、语义连贯的文本序列,甚至是较为完整地补写出输入文本的后续段落,这样语言模型的预训练就达到了较好的训练效果。这种语言模型预训练的过程实质上是以统计的方式赋予语言模型语言能力和各种潜在能力的过程,所以说这个预训练过程需要使用大量文本语料在GPU集群上执行很长时间。
(三)ChatGPT模型的监督微调训练过程
语言模型预训练只是让模型拥有成为对话机器人的潜力,所以,在执行完语言模型预训练之后,ChatGPT首先以标注数据执行有监督微调过程来对模型进行初始化,赋予模型理解人类指令执行人机对话任务的基本能力。有监督微调过程需要使用一定数量的标记数据,在人机对话场景下,标注数据是指完整的双方对话过程,即在给定用户反馈的情形下对话机器人应当做出怎样的回应。因此,收集训练数据的过程需要数据标注人员分别扮演用户和对话机器人在给定背景提示的前提下进行双方对话并将对话完整记录下来。收集好数据即可以“用户输入”作为训练数据,“机器人回应”作为标签输入模型,以监督方式对预训练好的语言模型执行微调过程。预训练模型已经具备语言能力和人机对话的潜力且微调数据量较小,故微调过程的执行时间相比预训练过程要短得多。但是,因为数据和标签是固定的,所以这种监督微调的方式是在向着完全固定的方向对模型进行调整,会抑制模型产生多样化的输出。所以说监督微调过程仅是初始化模型人机对话的能力,而并不能真正赋予模型这种能力。
(四)ChatGPT模型的RLHF训练过程
图3 RLHF迭代训练过程真正推动ChatGPT模型产生惊艳的人
真正推动ChatGPT模型产生惊艳的人机对话效果的是RLHF训练过程。RLHF训练过程的目标和动机是将人类的价值取向融入模型之中,虽然目前仅用于训练语言模型,但对于未来寻求适用于人工智能系统与人类认知和意图对齐的通用训练方法具有积极意义。如图3所示,RLHF训练过程通过迭代执行构建奖励模型和根据奖励模型更新人机对话模型两步操作来执行。其中奖励模型的作用是评估人机对话模型输出的文本是否符合人类偏好,即每次人机对话模型根据提示段落生成输出文本后,奖励模型以其模拟的人类偏好给输出文本进行评分。此文本评分用于指导人机对话模型进行更新调整,即以一种较为经典的强化学习算法指导模型向更高评分的方向进行调整。因此,将人类偏好注入人机对话模型的关键在于奖励模型。为了实现在现有人机对话模型上构建近似人类偏好的奖励模型的目的,训练奖励模型的过程需要标注员全程参与,为人机对话模型根据相同提示产生的多段相近输出进行排序。这个排序顺序和对应的多段文本是反映标注人员偏好的,用于训练奖励模型,即训练过程要求奖励模型对这些文本的评分排序与标注员的排序完全一致。奖励模型对文本的排序与标注员排序完全一致才停止奖励模型的迭代更新,这时我们认为奖励模型能够近似反映标注人员的偏好。训练好奖励模型后,再让人机对话模型按照另外一批提示生成对话文本,利用奖励模型对这些文本进行打分,再按照奖励模型的打分迭代更新人机对话模型。而为了确保奖励模型的有效性,我们需要保证人机对话模型的变化不太大,所以评分过程中还加入反映原始模型生成文本与更新后模型生成文本之间差距的惩罚项,更新过程也对指导模型更新的梯度进行限制以满足奖励模型有效条件。
训练ChatGPT模型使用的语言模型是在由网络帖子、维基百科词条、书籍等文本构成的语料库上提前预训练好的GPT-3.5系列中的模型,考虑到模型还具备一定的代码理解能力,所以我们认为预训练语料数据中也包括大量的程序代码。在此基础上,OpenAI广泛收集人机对话提示段落并雇佣标注人员编写人机对话训练样本和排序对话模型输出文本。但由于OpenAI并未开源相关程序,ChatGPT论文也尚未发表,所以实际的预训练数据构成和具体的微调阶段数据收集方式尚且无法得知。
三、ChatGPT模型的性能、局限性与未来发展方向
虽然ChatGPT模型只能与用户以文本聊天的方式交互,但其功能并不仅限于聊天。从OpenAI的官网示例以及各大论坛发布的用户试用案例来看,除各种格式、文体的文本生成能力外,ChatGPT模型具有回答日常问题和部分专业问题的能力以及一定的代码理解和生成能力。其代码理解能力相对更加惊奇,能够跳过用户刻意设计的大量的无效循环和无效延时,以极快的速度输出有效结果,还可以在用户的问题代码中找到问题原因。并且在面对有害输入或敏感输入时,其模型安全性与稳定性的表现也比InstructGPT以及之前的GPT类模型有显著提高。
虽然ChatGPT模型的长距离对话文本建模能力很好,在人机对话等任务上的表现以及面对有害输入时的稳定性惊艳众人,但模型本身和训练方法仍然存在以下四大问题:
1. 模型仍然只是专用人工智能模型
ChatGPT模型只是人机对话模型,由于训练过程牺牲了长距离上下文建模能力,所以它甚至算不上通用语言模型,多任务能力有限。ChatGPT模型的参数量和训练计算量都十分庞大,更新模型知识储备还需要重新训练;训练如此庞大的模型使用的GPU集群和超大规模数据都不是一般公司和研究机构可以承受的,甚至其推理计算量也不是一般服务器能够承受的,故ChatGPT距离落地应用还有很远的距离。另外,虽然其具备一定的常识甚至是专业知识,但如表格1中我们收集的部分ChatGPT的错误回答所示,其知识储备仍然存在很多盲区。所以说,以ChatGPT代替谷歌等专业搜索引擎或是谈论以ChatGPT构建下一代搜索引擎还为时尚早。
表1 部分ChatGPT的错误回答与原因
2. 模型只能与标注者意图进行对齐
ChatGPT模型训练过程仅通过对话样本数据和奖励模型的排序训练数据与标注人员进行交互,这种人机交互方式使得ChatGPT模型仅能与有限的标注人员进行互动,同时无法利用现实存在的丰富文本数据提取人类价值取向,故ChatGPT对齐的仅是标注人员的价值取向。显然标注人员团体的价值取向不能代表所有未来潜在用户和受影响人群的价值取向,也无法说明奖励模型近似的价值取向是否正当,故这种价值对齐方式仍存在缺陷。
3. RLHF训练方式有待深入研究
现有RLHF训练方式是通过最大化标注人员所给排序的出现概率实现的,其本质上是在克隆标注人员的行为。但是,ChatGPT模型与标注人员的知识储备是不同的,双方的默认常识也是不同的,故行为克隆会迫使ChatGPT模型对很多未知因素进行猜测,而非进一步询问,这有碍于人机认知和意图对齐。OpenAI和Hugging Face也承认目前RLHF训练方式有待充分研究,如何选取最优奖励模型、如何选取最优策略更新约束、如何最优初始化待训练模型等问题都不清楚,仍然需要学术界和工业界的进一步探索。
4. 模型仍然不够安全和稳定
表2 ChatGPT的对比回答可能引起争议
虽然ChatGPT的安全性和稳定性相比于之前的InstructGPT等模型进步显著,但仍然有很多诱发ChatGPT模型输出不安全文本的方式,比如曾在互联网上广为流传的“ChatGPT毁灭人类计划书”。姑且不论刻意引诱,ChatGPT的部分回答仍然是经不起推敲和比较的。如表2所示,观察者网与BBC都是媒体,同样遵循客观公正的价值观,只是在流行地区和知名度方面有所区别,但ChatGPT对于二者的评价完全不同。尽管我们清楚ChatGPT的回答可能只是因为预训练语料中未出现过观察者网,而大量训练语料夸赞BBC全球知名、客观公正,造成模型在评价观察者网时触发了保护机制,而对于有关BBC的问题则信心较为充足直接输出正面评价。这种由于训练语料偏差等原因,对于同一类别的不同客体,ChatGPT可能输出完全不同级别评价的现象可能引起争议。用户也很难接受人工智能模型因为数据偏差产生有失偏颇的回答,并且可能猜测这种现象在模型生成的回答中普遍存在。此外,ChatGPT也承认自身存在数据安全风险,OpenAI公司在面对黑客入侵、对抗攻击等攻击手段时也同样无法保证数据的绝对安全,用户仍然需要注意个人隐私和安全问题。
总结以上四点,我们不难发现ChatGPT离实际应用还很遥远,推动ChatGPT落地应用的关键在于降低模型规模计算量和提高模型的安全性稳定性。RLHF训练方式虽有人机认知对齐[11]的效果,但目前也只是在这方面取得了初步进展。通用的高效的精确认知对齐实现方式仍然需要广大学者开展广泛研究,而人机认知对齐与通用RLHF训练方式也将是未来学术界与工业界的热门研究方向。
四、ChatGPT模型的应用与影响
我们认为,以ChatGPT为代表的预训练语言模型将主要应用在以下四个方面。
(一)代替人类进行日常文本和简单程序撰写
现今社会中大量存在的文案工作与程序编写工作实质上是相对简单的重复劳动,这类工作完全可以由效果良好的预训练模型代替。与效果较好的预训练模型相比,以人力执行重复劳动成本较高,且受员工疲劳等因素影响可能出现错误。ChatGPT采用的对话交互模式相比语言模型常见的提示或特殊字符交互模式对于普通人而言会更加容易接受,如果科技公司能够大幅提升预训练大语言模型的可及性,那么以预训练模型生成文案或简单程序,以人工审核保障其无纰漏的范式可能在全社会推广开来。
(二)更加全面地代替人类客服提供线上服务
目前电商平台已有大量客服机器人代替真人客服提供服务的应用案例,但是这些客服机器人智能程度相对较低,造成其客户体验还有很大的改进空间。ChatGPT这种人机对话形式的语言模型适用于代替人类客服提供服务,其不会产生人类客服的情绪波动,能够提升用户体验,但同样需要科技公司大幅提升模型的可及性。
(三)用于对海量文本进行高保真信息概括
相比于BERT类语言模型,GPT类语言模型具有能够生成文本序列的优势,这使得此类模型不仅能够提取文本信息执行下游任务,还能在提取长文本信息时将信息以摘要或总结这类人类可以理解的形式输出出来,起到辅助人类决策的作用。随着互联网的进一步发展,每日流通数据量的进一步增加,以及大规模语言模型可及性的提升,互联网文本数据分析以及传统的需要对海量文本数据进行分析的应用场景会很适用于这种生成式预训练语言模型。
(四)用于培养学生的批判性思维
目前的语言预训练模型虽能生成语句通顺、语义连贯的文本段落,但相比于人类书写的文本,生成的文本在常识与论证逻辑性与严密程度上有所差距。故可以考虑以批量生成的文本作为逻辑性论述的反面教材,让学生在寻找和批驳生成文本的常识与逻辑论述漏洞和补全漏洞的训练中提升自己的批判性思维能力。
虽然这些应用可能在短时间内对某些就业产生一定影响,但其本质是将人类的生产和创造能力从简单的重复劳动中解放出来,能够为人类社会带来更大的长远收益。享受科技带给人类便利的同时,也必须注意到,预训练语言模型生成语句通顺文本的能力极大降低了伪造文本或是虚假消息的门槛,将手工伪造的拟真虚假消息简化为语言模型自动生成虚假消息,这使得每个接触到ChatGPT相关应用的使用者都具备了编造虚假消息的能力。这对于网络安全监管部门的事实核查与谣言检测能力提出了更大的考验。而RLHF技术则因为目前仅能将少量标注人员的价值取向融入模型当中,不合理地推广此技术训练的语言模型可能引发种族歧视、文化偏见等社会问题。因此,采用这种技术训练的模型在发布前必须经过严格的测试和审查,这也对相关的人工智能伦理道德监管部门提出了严峻考验。
五、结束语
综上所述,以ChatGPT为代表的大规模预训练语言模型尽管可能引起虚假消息扩散的问题,但其本身具有非常广阔的应用前景,对于经济社会发展有着积极的推动作用,应当大力支持相关技术的发展。同样,RLHF技术才刚刚出现,照亮了人机认知对齐研究的曙光,应当积极研究和思考。我国同样也在开展大规模预训练语言模型的研究,具有影响力的突出研究成果呼之欲出,相关研究机构与企业应当进一步加大研发投入力度,早日实现具有良好落地应用效果的中文大规模预训练语言模型,助力我国经济社会发展,提升民族科技自信心。
文:黄海涛 田虎 郑晓龙 曾大军
(《中国指挥与控制学会通讯》编辑部供稿)
转载请注明作者及出处
以上文章来源于中国指挥与控制学会 ,作者CICC
网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。
添加我为好友,拉您入交流群!
请使用微信扫一扫!