
一、生成式人工智能整体概况
生成式人工智能是能自主生成内容的 AI 技术,可应用于文本、图像生成等多领域,其基于生成模型构建,能依据所学内容创造性生成新内容,被视为专用人工智能迈向通用人工智能的关键转折点。它可利用大规模无标记数据预训练,经简单适配与高效微调应用于下游任务,目前在学术研究和技术应用上成果显著。
在自然语言处理领域,生成式人工智能能生成高质量文本,已用于对话系统、机器翻译等,如 OpenAI 的 GPT - 3 入选 2021 年 MIT Technology Review “全球十大突破性技术”,ChatGPT 自发布后用户增长迅猛,引发研究热潮;在计算机视觉领域,依托变分自编码器(VAE)、生成对抗网络(GAN)和扩散模型(Diffusion Model)的生成式人工智能系统,可生成高质量图像和视频,广泛应用于图像编辑、艺术创作等领域。
二、ChatGPT 相关技术研究进展
(一)关键技术
- 预训练语言模型
:作为深度学习驱动的自然语言处理技术,通过大规模文本数据自监督学习,掌握语言潜在结构、语法规则和语义关系。2018 年起受关注,代表模型有 ELMo、BERT、GPT 系列等,研究涵盖模型预训练与网络结构。预训练借助掩码语言建模等自监督任务学习语言表示,网络结构有自编码(如 BERT)、自回归(如 GPT - 1)、混合(如 T5)三种主流类型。其优势在于可学习大规模文本知识,具通用性,能迁移至下游任务,且可通过增加数据和模型规模提升性能。GPT 系列不断发展,从 GPT - 1 到 GPT - 4,在参数量、预训练数据规模和能力上持续突破,GPT - 3.5 系列通过代码预训练等提升性能,ChatGPT 便基于此开发,GPT - 4 还具备更强的多模态理解能力。 - 上下文学习
:是 ChatGPT 强大功能的基础之一,属自然语言处理新范式。模型依据当前输入数据的上下文信息(含任务样例、前后文等)学习预测,无需更新参数,基于预训练语言模型类比学习和任务预测,提升应用效率,形成零样本和少样本学习能力。思维链(CoT)提示技术进一步提升模型解决复杂问题的推理能力,通过构建细粒度、分步骤上下文提示模拟人类思维过程,后续还衍生出多思维链结合一致性学习、构建思维树(ToT)等改进方向。 - 基于人类反馈的强化学习
:在生成式大语言模型微调阶段,用于提升对话质量。该方法结合强化学习与人类专家知识,提高模型在复杂任务中的性能。ChatGPT 采用类似 InstructGPT 的该方法,分三阶段:先经预训练和有监督微调获初始模型;再构建数据集,由人类标注者对模型回答排序,训练奖励模型预测排序结果;最后用近端策略优化算法,依据奖励模型反馈优化模型,得到符合人类偏好的模型。GPT - 4 还加入安全奖励信号,减少有害输出,缓解风险。
(二)对人工智能研究的影响
- 自然语言处理领域
:ChatGPT 凭借大规模预训练技术和更长上下文长度,在对话流畅性、多轮对话等传统任务上突破性能瓶颈,改变研究范式。一方面,有充足计算资源的研究者追求更大规模模型,增加数据多样性以构建通用大模型;另一方面,更多研究者关注低计算资源领域,如基于知识检索的上下文学习、模型可解释性等。 - 机器学习领域
:ChatGPT 让人工智能和机器学习受公众广泛关注,改变大众对机器学习的认知。传统机器学习需分解任务逐步教导机器,而 ChatGPT 的出色表现使研究者思考端到端解决问题的方式,数据驱动的端到端方法成为研究重点,为自然语言处理和对话系统领域应用提供新思路。 - 人机交互领域
:ChatGPT 推动人机交互发展,提供更自然流畅的对话体验。其学习大量文本数据,生成连贯语言,助力开发交互性强的人机界面;推动聊天机器人研究突破,使其能更好理解用户意图、具备长期记忆能力,还可结合上下文学习提供个性化体验,在智能助手、教育等领域的人机交互工具研究中也有重要作用。 - 符号人工智能领域
:符号逻辑能帮助 ChatGPT 更好理解语言含义与语境。虽 ChatGPT 侧重数据驱动的语言生成,但它的出现促进符号人工智能与混合方法研究。研究者探索将符号推理与深度学习结合,如引入知识图谱提供语义知识,加入对话管理器或逻辑规则控制对话流程,以提升对话系统的逻辑推理和常识理解能力。
三、ChatGPT 及生成式人工智能未来发展方向
(一)更透彻的理解能力
当前以 ChatGPT 为代表的大语言模型虽在部分任务中表现出色,但存在 “幻觉问题”,产生事实性错误,限制其在金融、医疗等领域的应用,这与训练数据错误噪声、预测方式简单有关。未来可通过引入外部知识(如从维基百科检索知识提示模型)、清洗数据提升质量、增加人类监督、扩大模型参数等方式,增强模型理解和精确建模能力。
(二)模型轻量化
大语言模型能力随参数增长而提升,且超阈值后有涌现能力,但参数和训练数据规模增长带来高成本,给存储、部署等带来挑战,如训练 GPT - 3 耗能高、碳排放大。未来需通过模型参数量压缩(参数剪枝、低秩分解等)、多专家系统与稀疏激活技术结合、分布式训练推理优化、基础模型与外挂扩展功能模块结合等方式,实现模型轻量化,提升效率与实用性,已有 Vicuna、Koala 等高效语言模型通过微调开发出来。
(三)安全可控生成
生成式大模型受数据驱动训练方式限制,面临训练数据合规性、生成内容不可控等风险,存在政治利用可能、政治倾向偏见,还涉及多方面不安全对话场景。未来需整合内容过滤系统、人工审核、引入安全奖励机制,重视训练数据审核清洗,采用自动标注合成数据训练,加强模型自动测试并通过微调迭代,以实现安全可控生成,在舆论领域发挥积极作用。
(四)可持续学习
目前 ChatGPT(GPT - 3.5)缺乏可持续知识更新能力,训练数据时效性有限,无法回答最新问题。未来需让模型在学习新任务或数据时快速适应更新,且不遗忘旧知识,可采用增量学习算法(知识蒸馏、高效微调等),设计可塑模型结构(模块化结构等),开发智能集成学习方法,以节省资源、提升效率,满足人机交互个性化需求。
(五)类脑化认知
通用人工智能发展需生成式人工智能具备创造能力,类脑化指让其拥有类似人类大脑的特性与能力,模拟人类认知学习过程。现有生成式模型训练方式与人类知识获取差异大,思维方式为易出错的快思考,而人类是理性的慢思考。未来需构建更复杂多样的神经元系统、灵活的神经网络连接方式,打造可塑性和可扩展性更强的神经计算架构,模拟人脑功能,以在科学智能领域推动科学发现与创新,如助力生物和医药研究。
(六)可解释性
生成式人工智能模型多基于神经网络或深度学习算法,黑盒特性使其难以展示思维过程,影响应用信任度,如医疗领域模型无法提供诊断依据会降低信任。未来需提升模型可解释性,可利用因果学习理论、网络层级可视化、对抗训练生成更易解释模型、思维链技术展示思维过程、局部敏感性分析等方法,以在教育等领域更好发挥作用,如作为个性化学习辅导工具。
四、结语
Gartner 将生成式人工智能列为 2022 年重要战略技术趋势之首,预计 2025 年其产生数据占人类全部数据比例将大幅提升,ChatGPT 及生成式人工智能将深刻变革人类社会。但目前该技术在学术研究和应用中仍有不足,未来需在多方面改进,充分考虑安全伦理和数据隐私,有望在智能教育、软件开发、科学智能等领域发挥更重要作用,推动人工智能技术发展,带来更多创新与进步。


本书免费下载地址
关注微信公众号“人工智能产业链union”回复关键字“生成式AI”获取下载地址。