比特币:金融圈注意了 BloombergGPT来了

ChatGPT引爆的AI热潮也“烧到了”金融圈,彭博社重磅发布为金融界打造的大型语言模型(LLM)——BloombergGPT。

3月30日,根据彭博社最新发布的报告显示,其构建迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型——BloombergGPT。

报告显示,该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务。该模型在金融任务上的表现远超过现有模型,且在通用场景上的表现与现有模型也能一较高下。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿。

德国联邦金融管理局:加密交易所Rtcoin未在德国获得许可:金色财经报道,德国金融监管机构BaFin在周五发表的一份声明中警告说,加密货币交易所平台Rtcoin没有被授权在该国运营。

BaFin表示,Rtcoin没有在KWG(德国的银行法)注册,无法在该国开展金融相关服务。在德国运营的加密货币交易所平台也属于这些法规的范围。(the block)[2022/12/9 21:34:19]

关于BloombergGPT

报告指出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,通过构建迄今为止最大的特定领域数据集来完成BloomberGPT,并基于通用和金融业务的场景进行混合模型训练:

彭博社主要是一家金融数据公司,数据分析师在公司成立的四十年的时间里收集了大量的金融文件,拥有广泛的金融数据档案,涵盖了一系列的主题。

人民银行数字货币研究所联合发起的上海金融科技有限公司揭牌:6月26日消息,由中国人民银行数字货币研究所、上海国际集团和长宁区人民政府联合发起设立的商户金融科技有限公司揭牌,上海金融科技有限公司是中国人民银行数字货币研究所在全国布局的重要环节,对提升上海金融科技水平具有积极意义。公司定位于智慧城市和数字治理赋能中心,以上海全面推进数字化转型为契机,借助上海总部经济优势,配合上海中心城市定位,充分发展供应链金融、跨境贸易等业务形态,尝试跨境电商、智慧商业等突破型创新业务。(澎湃在线)[2021/6/26 0:08:19]

我们将这些数据添加到公共数据集中,以创建一个拥有超过7000亿个标签的大型训练语料库。

使用这个训练语料库的一部分,我们训练了一个具有彭博风格的,达500亿参数的模型,该模型是根据Hoffmann和Le Scao等人的指导方针设计,基于通用和金融业务的场景进行混合模型训练。

动态 | 罗马尼亚当局:加密付款可能助长了金融有组织犯罪:据cryptoglobe报道,罗马尼亚有组织犯罪和恐怖主义调查局(DIICOT)正在进行调查,怀疑与“Rezist”运动相关的组织涉及和有组织犯罪。DIICOT的调查显示,与“Rezist”运动成员相关或相关的数字货币地址收到了大量的资金转入。过去三年共有1490万美元被发送到与“Rezist”运动有关的加密账户。[2018/11/19]

结果表明,我们的混合训练方法使我们的模型在金融任务上的表现大大超过了现有的模型,而在通用场景上的表现则与之相当甚至优于现有模型。

1.BloombergGPT优势:特定领域模型仍有其不可替代性且彭博数据来源可靠

声音 | OKEx金融市场总监:STO可降低交易门槛及成本:OKEx金融市场总监黎智凯在今天香港举行的Security Token Future大会上就STO(证券类代币)发表看法,他表示: 首先,STO借区块链技术, 让一些原本不易流通的金融合约高效、低成本及快速地全球流通及进行结算,大大降低交易门槛及成本;其次,监管机构将更容易对STO交易进行穿透式监管,监管措施如反,投资者准入,交易合约设计等更容易把控;最后,STO 所带来的合规成本下降,使中小企更容易发行较复杂的金融合约以管理风险,融资及转售资产,最终社会资源分配机制将运作得更高效。OKEx目前已与马耳他证券交易所成立合资公司, 并将按其监管框架建立证券类代帀交易所。[2018/10/18]

在论文中,彭博社指出,现阶段,通用的自然语言处理模型可以涵盖许多领域,但针对特定领域模型仍有其不可替代性,因彭博社的大多数应用均为金融领域,着手构建了一个针对金融领域的模型尤其优势,同时可以在通用LLM基准测试上保持竞争力:

金色财经独家分析 新加坡金融中心地位受威胁指望用区块链翻身:在近日举行的东盟财政部长会议室,新加坡财长王瑞杰表示:“我们将特别支持金融科技数字化创新,特别是底层分布式账本技术,这样可以为我们带来更多成本低且安全的金融交易。一方面改善东盟金融服务欠缺的现状,另一方面提升金融包容性,为一些无法访问银行业务的人提供服务。”金色财经独家分析,新加坡不仅在国际金融、贸易融资、海事金融、保险、财务运作方面拥有领先地位、在资产及财富管理方面也趋于的佼佼者。此外,新加坡也是全球第四大外汇交易中心。然而在近年,随着新的亚洲金融中心城市的崛起,比如上海,新加坡的地位受到威胁,同时其在近年来的经济发展状况不容乐观,区块链这一新兴的金融科技的出现,对于新加坡而言,无疑是一剂强心针。新加坡以其优良的基础设施和商业环境,希望在加密货币和区块链领域取得全球领先地位。此前,新加坡中央银行对区块链技术进行了试验,并宣布开展相关项目“Project Ubin”,这是其与银行和科技公司联盟合作的一个项目,旨在探索区块链在支付、证券清算与结算中的用途。此外,新加坡政府还举办活动资助成功的区块链项目。[2018/4/10]

除了构建金融领域的LLM外,本文的经验也为其他研究领域的专用模型提供了参考。我们的方法是在特定领域和一般数据源上训练LLM,以开发在特定领域和通用基准上表现优异的模型。

此外,我们的训练数据不同于传统的网络爬取数据,网络上的数据总有重复和错误,但我们的数据来源可靠。

2.BloombergGPT的训练数据集:

BloombergGPT的训练数据库名为FINPILE,由一系列英文金融信息组成,包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。

为了提高数据质量,FINPILE数据集也使用了公共数据集,例如The Pile、C4和Wikipedia。FINPILE的训练数据集中大约一半是特定领域的文本,一半是通用文本。为了提高数据质量,每个数据集都进行了去重处理。

对金融领域的理解更准

报告指出,在金融领域中的自然语言处理在通用模型中也很常见,但是,针对金融领域,这些任务执行时将面临挑战:

以情感分析为例,一个题为“某公司将裁员1万人”,在一般意义上表达了负面情感,但在金融情感方面,它有时可能被认为是积极的,因为它可能导致公司的股价或投资者信心增加。

报告指出,从测试来看,BloombergGPT在五项任务中的四项(ConvFinQA,FiQA SA,FPB和Headline)表现最佳,在NER(Named Entity Recognition)中排名第二。因此,BloombergGPT有其优势性。

测试一:ConvFinQA数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取出的问题和答案,旨在测试模型对金融领域相关问题的理解和推理能力。

测试二:FiQA SA,第二个情感分析任务,测试英语金融新闻和社交媒体标题中的情感走向。

测试三:标题,数据集包括关于黄金商品领域的英文新闻标题,标注了不同的子集。任务是判断新闻标题是否包含特定信息,例如价格上涨或价格下跌等。

测试四:FPB,金融短语库数据集包括来自金融新闻的句子情绪分类任务。

测试五:NER,命名实体识别任务,针对从提交给SEC的金融协议中收集金融数据,进行信用风险评估。

对于ConvFinQA来说,这个差距尤为显著,因为它需要使用对话式输入来对表格进行推理并生成答案,具有一定挑战性。

ChatGPT为彭博点赞

华尔街见闻就这个问题专门询问了ChatGPT,ChatGPT认为BloombergGPT是一项很有意义的技术进步:

它是专门为金融领域开发的一种语言模型,可以更好地处理金融领域的数据和任务,并且在金融领域的基准测试中表现出色。

这将有助于金融从业者更好地理解和应用自然语言处理技术,促进金融科技的发展。同时,BloombergGPT还可以为其他领域的语言模型的发展提供参考和借鉴。总的来说,BloombergGPT是一个有益的技术创新。

华尔街见闻

媒体专栏

阅读更多

金色财经 善欧巴

金色早8点

白话区块链

欧科云链

Odaily星球日报

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

链得得

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

链链资讯

[0:15ms0-3:350ms