ChatGPT

                     

贡献者: xzllxls

预备知识 强化学习

   ChatGPT(Chat Generative Pre-trained Transformer)是一款由 OpenAI 组织推出的,通过多种语言大数据训练的基于 Transformer(转换器)的语言生成模型。该模型的主要功能是与人进行实时对话。

   ChatGPT 模型可以对人类用户的提问进行回答,也可以接着用户的陈述,做进一步表述。在一次会话当中,该模型还可以记住之前的对话内容,并且对用户的追问和修正建议做适当反应。官方还宣称该模型会拒绝回答一些不适合的问题。与此同时,模型也存在一些局限性:很有可能产生错误的信息,有可能产生有害的建议或者有偏见的内容,以及对尚未训练过的知识了解有限。图 1 是官方提供的一个对话的例子。

图
图 1:对话例子

   OpenA 目前尚未公开 ChatGPT 模型的原始论文和源程序。根据 ChatGPT 官方网站所提供的信息,训练该模型的方法是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。此方法与早前的 InstructGPT 所使用的训练方法相同。ChatGPT 的训练流程主要是(见图 2):(1)收集大规模语言数据,训练监督策略;(2)收集比较数据,训练奖励模型;(3)用一种被称为"近端策略优化"的强化学习算法来进一步优化奖励模型。

图
图 2:ChatGPT 模型的训练过程 [1]

   当前的 ChatGPT 版本是在原来的 GPT-3.5 模型基础上通过精调(fine-tuning)得来的。训练设备采用的是 Azure 人工智能计算架构。

   官网宣称模型具有以下局限性,并且分析了产生问题的原因和可能的改进方案:

  1. ChatGPT 有时会写出看似合理但不正确或荒谬的答案。解决这个问题具有挑战性,因为:(1)在强化学习训练期间,目前没有真实来源;(2) 训练模型更加谨慎导致它拒绝可以正确回答的问题;(3) 监督训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。
  2. ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感。例如,给定一个问题的措辞,模型可以声称不知道答案,但只要稍作改写,就可以正确回答。
  3. 该模型通常过于冗长并过度使用某些短语,例如重申它是 OpenAI 训练的语言模型。这些问题源于训练数据的偏差(训练者更喜欢看起来更全面的更长答案)和众所周知的过度优化问题。 理想情况下,当用户提供模棱两可的查询时,模型会提出澄清问题。相反,我们当前的模型通常会猜测用户的意图。
  4. 虽然我们已努力使模型拒绝不当请求,但它有时会响应有害指令或表现出有偏见的行为。我们正在使用 Moderation API 来警告或阻止某类不安全的内容,但我们预计它目前会有一些漏报和漏报。我们渴望收集用户反馈,以帮助我们正在进行的改进该系统的工作。

   参考文献:

  1. https://openai.com/blog/chatgpt/

                     

© 小时科技 保留一切权利