贡献者: xzllxls
ChatGPT(Chat Generative Pre-trained Transformer)是一款由 OpenAI 组织推出的,通过多种语言大数据训练的基于 Transformer(转换器)的语言生成模型。该模型的主要功能是与人进行实时对话。
ChatGPT 模型可以对人类用户的提问进行回答,也可以接着用户的陈述,做进一步表述。在一次会话当中,该模型还可以记住之前的对话内容,并且对用户的追问和修正建议做适当反应。官方还宣称该模型会拒绝回答一些不适合的问题。与此同时,模型也存在一些局限性:很有可能产生错误的信息,有可能产生有害的建议或者有偏见的内容,以及对尚未训练过的知识了解有限。图 1 是官方提供的一个对话的例子。
OpenA 目前尚未公开 ChatGPT 模型的原始论文和源程序。根据 ChatGPT 官方网站所提供的信息,训练该模型的方法是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。此方法与早前的 InstructGPT 所使用的训练方法相同。ChatGPT 的训练流程主要是(见图 2):(1)收集大规模语言数据,训练监督策略;(2)收集比较数据,训练奖励模型;(3)用一种被称为"近端策略优化"的强化学习算法来进一步优化奖励模型。
当前的 ChatGPT 版本是在原来的 GPT-3.5 模型基础上通过精调(fine-tuning)得来的。训练设备采用的是 Azure 人工智能计算架构。
官网宣称模型具有以下局限性,并且分析了产生问题的原因和可能的改进方案:
参考文献: