您的位置:首页 >快讯 >

为什么ChatGPT用强化学习而非监督学习?

2023-05-15 11:00:51    来源:CSDN博客

为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见。在上周发布的《John Schulman:通往TruthGPT之路》一文中,OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习(RLHF)方面的进展,分析了监督学习和强化学习各自存在的挑战。


【资料图】

基于Schulman的演讲内容,以色列巴伊兰大学教授Yoav Goldberg对强化学习在大型语言模型应用必要性作了深度解读,进一步对比论证了监督学习与强化学习的特点,并为未来改进提供了思路。

Goldberg在2011年获得本古里安大学博士学位,他也是艾伦人工智能研究所以色列分部的研究主管,他也曾在Google(纽约)研究院担任研究科学家。他在NLP领域深耕十多年,在词汇语义学、句法分析及对基于深度学习的语言处理等领域作出了突出贡献。

(以下内容由OneFlow编译发布,转载请联系OneFlow获得授权。来源:https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81)

作者|Yoav Goldberg

OneFlow编译

翻译|贾川、徐佳渝、杨婷

1为何使用强化学习?

随着ChatGPT等大型语言模型的发布,人们对“RLHF训练(即基于人类反馈的强化学习训练)”的重要性进行了诸多讨论。在训练语言模型方面,我一度困惑于为什么强化学习比从演示中学习(也称为监督学习)更好,难道从演示中学习(或根据语言模型术语中的“指令微调”,学习模仿人类写的回答)还不够?

我提出了一个有说服力的理论论据。不过我意识到还有另一个论点,它不仅支持强化学习训练,而且尤其适用于ChatGPT等模型。OpenAI的John Schulman在其演讲的前半部分进行了详细论述。本文的大部分内容都引用了John的论点,但增加了一些他没有明确表述的内容(不过我确信这些内容都是John考虑过的)。

本文提供了大量背景知识,以确保读者可以更好地理解文章内容。如果你想了解文章重点,可以直接看“核心论证”部分。

2背景:监督学习vs强化学习

简要地解释一下这两种学习场景,以便我们能够达成共识。如果你已经了解了这些内容,可以跳过此部分。

预训练:在这两种设置中,首先我们假设语言模型在大量的文本上进行预训练,以预测下一个token。因此,对于每个词序列,我们有一个模型可对潜在的下一个词的选项分配概率。通过这种方式,模型会获得语言的某种内部表示。

经过这一过程,模型的生成文本能力会变强,且能够根据给定文本前缀,生成符合自然习惯的后续文本,但它并不擅长“交流”。例如,当提示(prompted)一个问题时,模型可能会回答该问题或者生成一系列附加问题,也可能会回答这是一个在......的上下文中提出的重要问题等等。

这些都是遵循自然语言文本问题的有效延续(continuation)。我们可以通过编写输入文本,来使模型执行我们所希望的语言行为,该延续会解决我们的问题(也被称之为“提示工程”),但是对于只想提出问题或指令就让模型进行回答的非专家用户来说,这种交互模式并不非常方便。

如果我们希望模型能够持续回答查询而不是仅仅完成当前指令,就需要对其进行引导,这个过程称之为“微调”,即继续训练预训练模型,进而使其表现出我们想要的行为(有些人称这是“对齐”模型与使用者期望行为)。

监督训练:在监督学习中(也称为从演示中学习或“指令微调”),我们会收集一组人类编写的文本,这些文本以问题或指令的形式出现,并包含了期望的输出。例如,这些文本可以是某一问题和答案,或者是像带有人类编写总结的summarize the following text {text}这样的任务。

通过在相同的“给定前缀预测下一个token”的目标上继续训练模型,但这次是在指令-输出对集合上,模型学会通过执行指令来响应。即模型接收到给定问题的正确输出的演示,并学会复制输出结果。我们希望通过这种方式将其泛化到训练中尚未出现的问题中去。

强化学习(RL):在强化学习中,我们为模型提供指令,但并不提供人工编写的答案。模型需要自己生成答案。评分机制(例如人类)会读取生成的答案,并告诉模型这些答案的质量。模型的目标是如何回答以获得高分。

另一种机制是模型生成多个答案,评分机制告诉模型哪个答案最好。模型的目标是学习生成高分的答案,而不是低分的答案。在这两种情况下,模型通过生成答案并接收反馈来学习。(注意:许多研究人员将强化学习的范围限定在基于credit分配机制的某些技术层面。于他们而言,“我们是否需要强化学习”的问题也许归结为我们应该使用该技术还是采取其他相关技术来替代。我与他们同样好奇,但就本文目的而言,我认为任何使用外部评分函数的方法均可视为强化学习,无论其运行机制如何。)

强化学习比监督训练难得多,原因如下:首先是“credit分配”问题。语言模型生成一段token序列,且仅在序列末尾才能获得一个分数。由于信号很弱,我们不能确定答案哪些部分是良好的,哪些部分是糟糕的。许多有关强化学习的相关技术研究都在尝试解决该问题,但在本文中我们先不谈这个问题。

credit分配问题是一个活跃的研究领域,但已经存在合理的解决方案。其次,我们需要一种评分机制来对答案进行评分(或为答案评分或比较两个答案),而在基于语言的任务中,很难生成自动评分机制(尽管这可能正在改变,下文会简单论述)。

因此,我们会在强化学习的每一步留下“人类反馈”,但这种方式成本高昂且效率低下,考虑到每个人类反馈只能给出一个相当稀疏的信号,问题会更加糟糕。基于以上困难,我们为什么还要使用强化学习呢?为什么不仅仅选择监督学习呢?

3多样性论证

对于语言生成模型来说,监督学习/指令调优最大的问题是它们只能复制演示者给出的确切答案,但实际上,人类语言可以用多种方式传递相同的信息,它们都是切实可行的。如果因模型轻微偏离人类规定的文本而受到“惩罚”,可能会使模型产生困惑。

我们当然可以继续逼迫模型去学习更难学习的遣词造句,尽管模型已经学会了生成具有同样意思、合法的替代性回答。因此,我们非常看好强化学习训练提供的多样性表达。考虑到监督学习在实践中的良好应用,以及训练强化学习模型所面临的挑战,这是一个非常直观的论点,但不够有说服力。一直以来,我并不认为这是一个足够核心的问题,现在我仍这样想。

4理论论证

监督学习只允许正反馈(我们向模型展示一系列问题及其正确答案),而RL允许负反馈(模型被允许生成答案并得到反馈说“这答案是不正确的”),这是我提出的第一个关于LLM领域的监督学习vs强化学习的强有力论点。

从严格的学习理论的角度来看,两者之间有很大的区别:相比正反馈,负反馈要强大得多。从理论论证的角度,当模型只从演示中学习时,对抗型(或粗心的)演示者(demonstrator)可以隐瞒重要例子,从而误导学习者(learner)学习错误的假设。

演示者控制着整个学习过程,但如果学习者能够形成自己的假设,并询问老师(teacher)假设是否正确(例如强化学习设置),通过这种方式,即使是对抗性老师也无法再欺骗学习者学习错误假设,它必须如实告知这一假设是错误的,这种方式赋予了学习者主动性,让学习者更加强大。(当然,前提是对抗型或粗心的老师仍然遵守规则,始终提供真实答案。这是理论框架中的合理假设,这一假设并不影响我们的主体观点:从互动或提问中学习比从演示中学习更加强大)。

这是我们选择强化学习的部分原因,但就通过提问训练大型语言模型交流方面,还有一个更加重要的额外论点。

5核心论证

以下是我们需要强化学习或类似技术的核心原因。前两个论点依赖于假设,例如"模型可能更难学习"或"粗心的演示者可能会混淆模型",这些假设在实践中是否成立是未知的,

相反,下面的论点可以被证明是成立的。

语言模型(至少)有三种交互模式:(a)文本型(text-grounded): 为模型提供文本和说明(“总结此文本”,“基于此文本,以色列的人口是多少”,“本文中提到的化学名称是什么”,“将此文本翻译成西班牙语”等),让模型基于我们提供的文本生成答案;(b)求知型(knowledge-seeking): 向模型提供问题或指导,让模型根据内在知识(“流感的常见原因是什么”)提供(真实)回答。(c)创造型(creative): 为模型提供问题或说明,然后让模型进行创造性输出。(“写一个关于...的故事”)

我们的论点是基于第二种交互模式(求知型查询),希望在这种查询中得到真实(自信)的答案,我们希望模型在对答案没把握的情况下能够如实回答“我不知道”或拒绝回答这一问题。

对于这类交互模式,由于监督训练可能会让模型撒谎,所以我们必须使用RL。核心问题是:我们希望模型根据内部知识进行回答,但我们并不知道模型内部知识包含的内容。 

在监督训练中,我们给模型提供问题及正确答案,并训练模型复制提供的答案。这里有两种情况:(1)模型“知道”答案。这种情况下,监督学习能够正确推动模型将答案与问题相关连,并且有望让模型执行相似的步骤,回答将来遇到的类似问题。这是所期望的行为。(2)模型不知道答案。在这种情况下,监督训练还是会促使模型给出答案。

现在,我们有两种选择。一种可能是,它会促使模型记住特定的问答对。这种做法本身并没什么坏处,但不太高效,因为我们的目的是让模型具有泛化能力,并且能回答任何问题,而不只是那些在训练数据中出现的问题。但如果我们使模型在这些情况下能做到泛化,那么实际上就是在教模型捏造答案,相当于鼓励模型“说谎”,这很不好。

由于我们无法确定模型知道哪些信息或不知道哪些信息,所以无法避免第二种情况,这对监督训练来说是一个真实且严重的问题。

我们不能仅依靠监督学习来训练模型生成可信任回答,还需要强化学习的加持。与监督学习不同,强化学习不会鼓励模型编造答案:即使模型最初确实猜对了一些答案并错误地学习了“编造”行为,但长远来看,模型会因编造答案的得分较低(很可能是不正确的)而学会依赖内部知识或选择放弃回答。

6教导模型放弃回答

当模型不知道答案时,我们希望它能够放弃回答并给出“我不知道”或类似的答案。但由于我们不知道模型是否知道答案,所以这并不是一件容易的事,在监督环境中很难做到。我们可以引导模型规避某些类型的问题(例如“从不回答涉及人类的问题”),并回答“我不知道”。但这不是在答案未知时放弃回答的预期行为,只是一个非常薄弱的替代方法(proxy)。

然而,这对于强化学习设置也具有挑战:模型可能从一开始就不会生成“我不知道”的答案,因此我们无法鼓励它作出这种回答。解决这个问题的方法之一是,先进行一些监督训练,学习在某些情况下生成“我不知道”的答案,然后再进行强化学习训练。

但这种方法也有弊端,即在监督学习和强化学习中,模型可能会过度回答“我不知道”。这是一个开放的研究问题,可以尝试通过“定制奖励函数”来解决:将正确答案赋予非常高的分数,放弃回答的答案赋予中低分数,不正确的答案赋予强烈负分。当然,想做到这一点也并非易事。

7模型窃取 / 蒸馏的影响

OpenAI在GPT模型的强化学习类型调优(RL-type tuning)方面投入了大量精力。原因有很多,他们的部分动机是希望通过鼓励模型在不知道答案时放弃回答来确保准确性和真实性。

最近有一种趋势,即采用其他公开可用的基础语言模型,并对它们进行训练,以期能够复制GPT模型的出色行为。

这种做法类似于监督式训练或指令调优:通过训练,模型可以准确生成GPT模型的答案。这对于教模型执行指令应该很有效,但却不适用于回答知识查询类问题(案例b)。

公开可用的基础模型和OpenAI模型可能具有不同的知识集,因此训练模型以复制GPT的答案可能会面临与监督学习同样的问题,即鼓励模型编造事实,或在它知道正确答案但GPT模型不知道的情况下放弃回答。那么,解决方案是用强化学习对这些模型进行训练,但这是否太过昂贵?

8无人类反馈的强化学习

长期以来,使用强化学习训练生成语言任务对大多数玩家来说都不切实际:由于缺乏可靠的自动评分指标,强化学习训练需要对每个训练样本进行人工反馈。这既耗时又昂贵,特别是对于需要查看数千到数万甚至数十万个示例才能学习的模型。

然而,强化学习训练现在变得实用了:首先,出现了可以从较少示例中学习的大型预训练语言模型。更重要的是,这些模型为强化学习循环(RL loop)中去掉人类参与铺平了道路。

监督训练对于文本相关的任务非常有效,而且大型模型可以很好地学习执行一些任务。例如,让模型确定两个文本是否意思相同,或者一个文本是否包含另一个文本中没有的事实(还可以将任务分解,让模型“生成所有可从该文本回答的所有"问答对"”,然后针对每个问题询问“在其他文本中是否有该问题的答案,答案是什么”)。

根据经验来看,大型语言模型(甚至中型语言模型)可以使用监督学习可靠地学习执行这些任务,这为我们提供了可用于强化学习设置的有效自动评分机制。 我们可以使用人类提供的指令-响应对进行训练,不过,要让模型生成自己的响应,而不是直接复制人类响应,然后用在监督方式下进行训练的专用文本对比模型(text comparison model)将模型生成的响应与人类提供的响应进行比较,这样就获得了一种自动打分的办法。  

其他人都在看

ChatGPT成功的秘密武器

向量嵌入:AutoGPT的幻觉解法

谷歌科学家:RLHF的演进与局限

John Schulman:通往TruthGPT之路

比快更快,开源Stable Diffusion刷新作图速度

OneEmbedding:单卡训练TB级推荐模型不是梦

GLM训练加速:性能最高提升3倍,显存节省1/3

欢迎Star、试用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

标签:

精彩放送

【多措并举确保粮食安全】亩产588.06公斤!我省旱地小麦单产再创新高

家里拆迁可以申请经适房吗? 拆迁户能申请经济适用房吗_天天讯息

颜值高还省油!新款捷豹 SUV 上市 同级唯一可选插混? 全球快资讯

连连看小游戏免费_连连看2 6|当前速读

奇瑞汽车六次上榜,“民族品牌”的排面从何而来?

国内多地县域充电桩安装量翻番 呈现哪些新趋势?

【环球报资讯】大学的数学专业有哪些科目考研究生要考

【天天报资讯】amd cpu怎么安装_cpu怎么安装

全球百事通!led灯是什么材料制成的

关注:山西移动网上营业厅_山西电信网上营业厅官网

招商银行临时额度到期(临时额度到期了是不是要全部归还)

全球微速讯:2023年深圳有多少个区_深圳有多少个区

热资讯!launcher_launch

2023年中国龙舟公开赛(湖北·荆州站)开赛 今日报

icloud下载照片是拍摄时间吗_icloud下载照片|天天报道

三角形底面积计算公式_三角形面积计算公式大全 全球讯息

当前看点!法线贴图原理_法线贴图

三七撞上二十一下载地址_三七撞上二十一下载_焦点精选

高盛:市场对美国通胀下降的速度预期太乐观了_每日快报

动态焦点:Redmi K60E送不送贴膜吗

焦点观察:0-3波兰队!中国女排无缘七连胜,分析有3大输球原因

5c 5s屏幕通用吗(5c 5s)

第一季度电力概念股每股收益排行榜一览

天天新资讯:国家防总对浙江等省份启动防汛四级应急响应

“家门口的便民集市”真暖心

杨颖,杨紫,王源,乐华,虞书欣

神农乡村生态环保(山西)有限公司在夏河开展投资考察活动 环球今日讯

即时焦点:文化石家庄——神秘中山国(上)

河南发布地质灾害黄色预警!这些地方有大到暴雨、局部大暴雨|天天热推荐

儿子被喂食大量安眠药,母亲和情夫当晚做肮脏之举,父亲死不瞑目

焦点快报!乡村之美丨浙南小渔村实现年游客量超八十万!秘诀是什么?

发射天宫2号的目的是什么意思_发射天宫2号的目的是什么 环球今日讯

环球新消息丨忻城税务:多措并举推动纳税缴费服务再升级

6:17:监管层释放重磅信号,A股牛蹄能否归来?

世界热推荐:山东艺术学院举行2023届毕业生毕业典礼暨学位授予仪式

原神苍漠囿土挑战方碑完成攻略

户枢不蠹流水不腐意思_户枢不蠹

水利部和中国气象局联合发布山洪灾害气象黄色预警

热消息:哈洽访谈|封昌红:为哈洽会插上创意设计的翅膀

洛雪音乐助手使用方法介绍

弗洛伊德死亡3年后,美国发布重磅报告揭种族歧视问题_天天看热讯

全球看热讯:龙韵股份(603729)6月1日股东户数0.91万户,较上期增加12.16%

2023年中国房企品牌排行TOP100

当前报道:原神:旅行者新皮肤又来了,新专武曝光?宵宫、甘雨皮肤超好看!

湖南开展专项整治行动保障农民工工资支付

牛皮沙发的种类_牛皮沙发的选购技巧是什么 每日看点

片碱的化学式怎么写(片碱的化学名称)|快资讯

环球微动态丨世界防治荒漠化与干旱日 | 防沙治沙的“中国智慧”

划龙舟看龙舟,五类安全提示莫疏忽!-焦点速读

世界球精选!三溪村夜赛龙舟盛大启幕!红花郎携手千年古邑共话经典与传承

qq.com_fcm qq com_世界新消息

当天成团/当天勘察/当月开工,昊铂发布超充到家“当日达”

2022年全国社会物流总额实现347.6万亿元!《中国商贸物流发展报告(2022年)》发布|今日关注

全球热门:空中俯瞰山水相融美如画 感受祖国大地夏日之美

沭阳县塘沟镇碾盘村:开展“阅汇四季”之阅读一“夏”主题活动

环球简讯:专家谈东西方文明互鉴:促进中外年轻人走进彼此生活

世界观天下!美国计划向乌克兰提供F-16战机 俄称已向美方发出外交照会

普拉提45分钟全套教程(普拉提)

智慧骨科机器人落户杭州医院 为患者提供更加安全、精准的医疗服务 环球看点

全球资讯:则Pixel手机应在重新启动时显示新的黑色启动动画

世界观察:卢大使卸任,临别赠言让欧洲如坐针毡!

欧吉桑和欧巴桑_欧吉桑

酒协公布!2023白酒圈“大洗牌”,五粮液王者归来,茅台地位不保 当前资讯

M5改装跑车驾驶好玩吗 M5改装跑车驾驶玩法简介_世界快播

哈尔滨站到太平机场大巴时刻表(哈尔滨火车站到机场大巴时刻表)

即时看!邮轮复航在即,准备好了吗?山东港口联合各方开展邮轮作业模拟通关演练

江西通报:是“老鼠类啮齿动物头部”

二战老照片完美上色:英勇的意大利游击队员 美军士兵鏖战硫磺岛

护航中考 浐灞公安推出多项暖心服务举措

李玉斌(关于李玉斌的简介) 全球聚看点

个人签名怎么写才霸气女_个人签名怎么写|环球热文

天天即时:拼多多百亿补贴618狂欢来袭 每人最高可领290元优惠券

美股异动|哈门那跌2% 2023财年每股收益指引低于预期 环球热点

天天日报丨世界主要国家海军一个航母打击群 通常由几艘各类舰艇编成 _360

重点聚焦!微信有人工客服吗在哪里(微信有人工客服吗)

市民体验大运会交通保障 设置大运会专用道 增加K6K7车次_天天热消息

空调什么牌子的好还便宜_空调什么牌子的好|热点评

属羊的是199几年出生的_属羊的是哪一年出生的简介介绍

世界观天下!非典型形态的危害食品安全犯罪

焦点速读:赛博仙侠外壳+传统文化底蕴,《梦幻新诛仙》新门派“泰裤辣”

金昌市首个邮银“乡村振兴金融工作室”挂牌成立-今日讯

关注:缺陷责任期与质量保修期的区别和判定_缺陷责任期与质量保修期的区别

河西区:发挥金融资源优势 助推实体经济发展

温暖的弦结局_温暖的弦大结局简介和详情介绍

电子数据取证可破解不法分子AI换脸术——对话中国科学院软件研究所研究员、博士生导师丁丽萍

天天讯息:6月20日,第十三届中俄文化大集在黑河开幕!大集活动剧透

观察:新华全媒+|探访高考评卷现场:各地严把评卷质量关

人有三把火什么意思?火灭了会死?-每日讯息

全球热头条丨记者观察 | 人民币汇率的韧性与弹性

全球看热讯:华润系入股金种子酒一年后:扭亏为重任、继续引进人才

马戴灞上秋居_灞上是什么意思 每日快播

英国央行6月料升息至4.75%,因通胀意外顽固-全球信息

热点!京津城际扩容 天津各站去往北京方向日均总运能增加超1.6万人次

盐城市优化金融服务激活实体动能

福建罗源:迎峰度夏 保障电煤供应|世界讯息

特斯拉FSD全面入华,谁松了一口气?

微资讯!南岭民爆:子公司中标47亿元工程项目

海口综保区金盘园区中央大道改造完工试通车

我在尼泊尔的街头用长焦镜头抓拍的照片 全球看点

采洽热烈人气旺