上周二,OpenAI官宣GPT-4引起轩然大波,比其广受欢迎的前身GPT-3.5更可靠、更具创意。GPT-4是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
大型语言模型的子弹不停在飞,ChatGPT的职业“威胁论”也成为热议的焦点。例如,INSIDER编制了一份被AI取代风险最高的工作清单,分别是技术工作、媒体工作、法律行业工作、市场研究分析师、教师、财务职位、贸易商、平面设计师、会计师与客户服务代理。
昨日,一篇由OpenAI、OpenResearch和宾夕法尼亚大学学者合著的论文发表在预印本网站arXiv上,以科学的方式研究了GPT究竟会对劳动力市场产生怎样的影响。这项研究采用一种新的评估方式,即根据职业与GPT能力的对应性来评估职业,结合人类专业知识和GPT-4的分类,从而探讨GPT可能对劳动力市场带来的影响。
为了理解LLM的能力及其对工作的潜在影响,这项研究应用的两项评估标准分别是:直接暴露,即GPT可以直接完成或帮助完成的任务;间接暴露,即通过GPT支持的软件和数字工具帮助完成的任务。
研究发现,大多数职业都表现出一定程度的GPT暴露,大约80%的美国劳动力可能至少有10%的工作任务会受到GPT的影响,而大约19%的工人可能至少有50%的任务受到影响。这种影响涵盖了所有工资水平,高收入工作可能面临更大的风险。
严重依赖科学和批判性思维技能的角色与GPT暴露呈负相关,而编程和写作技能与GPT暴露呈正相关。在工作中面临更高进入壁垒的工人往往会经历更多的GPT暴露。信息处理行业表现出高暴露,而制造业、农业和矿业表现出较低的暴露。
过去十年的生产力增长和总体GPT暴露之间的联系似乎很弱,这表明一个潜在的乐观情况,即未来大型语言模型的生产力增长可能不会加剧可能的“成本疾病”效应。
GPT就是GPT
GPT符合通用目的技术的三个核心标准:随着时间的推移,它们正在即兴发挥能力,有能力完成或帮助一组越来越复杂的任务和用例;GPT本身可以对整个经济产生普遍影响;同时,GPT所实现的互补创新——特别是通过软件和数字工具——可以在经济活动中广泛应用。
决定大型语言模型效用的关键因素是人类对它们的信任程度以及习惯。例如,在法律界,模型的有用性取决于法律专业人员是否能够信任他们的输出,而不需要核实原始文件或进行独立研究。技术的成本和灵活性、员工和公司的偏好以及激励措施也在采用基于大型语言模型的工具方面发挥着重要作用。
此外,由于数据可用性、监管质量、创新文化以及权力和利益分配等因素,大型语言模型在不同经济部门的采用将有所不同。因此,如果要全面了解员工和公司对大型语言模型的使用,需要对这些错综复杂的问题进行更深入的探索。一种可能性是,对于大多数任务来说,节省时间和无缝应用将比提高质量更重要。
总的来说,尽管GPT提高人类劳动效率的技术能力很明显,但重要的是要认识到社会、经济、监管和其他因素可能会影响实际的劳动生产率结果。随着能力的不断发展,GPT对经济的影响可能会持续并增加,这给政策制定者预测和监管其发展轨迹带来了挑战。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。