MAGE:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因

撰文:Tanya Malhotra

来源:Marktechpost

编译:DeFi 之道

图片来源:由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功,大型语言模型(LLM)正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI 开发的 ChatGPT 是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如 Pathways 语言模型(PaLM)、Chinchilla 等,在模仿人类方面也有很好的表现。

余弦:BNB Chain上存在0x751开头的恶意合约地址,用户可检查是否存在授权资产:金色财经报道,据慢雾创始人余弦发推称,最近有用户相关资产被“莫名其妙”盗走。用户可检查是否在BNB Chain上向0x751开头的恶意合约地址授权资产,用Revoke.cash与Rabby Wallet 都可以快速做异常授权检查及取消。该恶意合约没开源验证,但反编译可以很容易分析出存在针对授权资产的任意转移后门,这种后门会导致资产被盗。

与恶意合约有关的相关黑地址:0xE2A1......Bb7dD、0xB884......64c7e。[2023/8/20 18:11:21]

大型语言模型使用强化学习(reinforcement learning,RL)来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理(agent)通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像 ChatGPT 这样的 LLM 表现出的卓越性能都要归功于强化学习。

Gemini将Wrapped Filecoin(EFIL)集成至Chainlink储备证明中:9月23日消息,Gemini通过将Wrapped Filecoin(EFIL)集成到Chainlink的储备证明(PoR)中,将其转化为DeFi级商品。通过Chainlink预言机,DeFi平台将能够审计Gemini铸造并托管的EFIL储备。PoR数据馈送使用Chainlink驱动的预言机网络检查Gemini托管钱包的FIL余额,如果Gemini持有的FIL余额出现偏差超过一定阈值,则发布链上更新。

此前消息,Gemini宣布推出Wrapped Filecoin(EFIL),Gemini用户通过将FIL转换为EFIL并将其无缝转移到以太坊网络上,可参与DeFi生态并创造价值。(Blockworks)[2021/9/23 17:02:00]

ChatGPT 使用来自人类反馈的强化学习(RLHF),通过最小化偏差对模型进行微调。但为什么不是监督学习(Supervised learning,SL)呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员 Sebastian Raschka 在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。

Nirvana Chain将于6月15日16:00上线ZBG:据ZBG官方消息,Nirvana Chain(NAC)将于6月15日15:00开启充值服务,并将于6月15日16:00开启NAC/USDT交易。

资料显示,Nirvana Chain(NAC)是去中心化基础平台,包括但不限于以下关键技术:N++、异构复合链、NA DNS等,为用户提供一站式去中心化开发平台。NAC总量7500万枚,映射前共发行900万枚。更多详情请咨询ZBG官网。[2021/6/11 23:30:17]

动态 | UGChain上线新加坡BitSG币星交易所:官方消息,UGChain上线新加坡BitSG币星交易所。据悉,UGChain正在实现一套新的公链架构BouncyTick作为UGChain的公链方案,全新设计了基于POW共识算法的区块链系统。UGC代币作为系统内置的流通Token,将作为应用燃料消耗。

BitSG币星交易所已获二十余家机构战略投资,其母公司BitSG成立于2017年,已成功服务超200个区块链项目。币星坚持选择主流化、合规化的方向发展,通过区块链技术赋能实体经济。[2019/12/12]

不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF 则被训练来估计产生反应的质量,而不仅仅是排名分数。

Sebastian Raschka 分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话也是必要的,而监督学习无法提供这种奖励。

不选择 SL 的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠 SL 是不够的,RLHF 对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型,但根据经验发现 RLHF 往往表现得更好。2022 年的一篇论文《从人类反馈中学习总结》显示,RLHF 比 SL 表现得更好。原因是 RLHF 考虑了连贯性对话的累积奖励,而 SL 由于其文本段落级的损失函数而未能很好做到这一点。

像 InstructGPT 和 ChatGPT 这样的 LLMs 同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用 SL 对模型进行微调,然后使用 RL 进一步更新。SL 阶段允许模型学习任务的基本结构和内容,而 RLHF 阶段则完善模型的反应以提高准确性。

DeFi之道

个人专栏

阅读更多

金色财经 善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新闻

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

链链资讯

欧易交易所MAGE:深度解析上海升级影响:ETH供应冲击与二阶效应

作者:Steven Shi,Eco Fund 投资合伙人 编译:Leah Yuan,Foresight News 在本报告中,我们将剖析 Shapella 升级的细节,提供升级前需要注意的事项,并给出升级可能会对 ETH、流动质押衍生品和其他应用程序产生影响的最佳估计。 以太坊或将在一个月内完成其转向权益证明的最终阶段。

[0:0ms0-2:782ms