ETW:巨瓜来临!GPT-4模型构架等信息疑似泄露,给大家讲讲来龙去脉!

引子

今天上午正在日常搬砖,突然各路信息席卷而来:“赶紧的,GPT-4模型构架泄露啦,国产大模型要再次超越啦!”。打开社媒一看,好么,都不用会英语,国内的人翻机翻都已经上线了,这速度,我是真的服气。但是,等我去追根溯源,看看信息道理有几分靠谱的时候,我突然就有把科技圈逛出了娱乐圈的感觉。我觉得这事儿最有意思的可能还不是爆的料,反而是爆料的这不到24小时发生的这些事。如果再结合前面OpenAI搞得几个大新闻,还确实有点意思。

鉴于目前“FakeNews”满天飞的互联网现状,我看到这个消息后,干的第一件事就是追本溯源。爆料谁都可以,前面打车的时候司机师傅还给我爆料ChatGPT是外星科技了,我就一点都没信。现在所谓的“外媒”一爆料我就直接信了,那未免还是对司机师傅有点不尊重了。

来龙去脉

我信息挖掘的起点是HackerNews上发表的这篇文章《GPT-4'sdetailsareleaked.Itisover.》。我点进去发现并非原文,而是一个ThreadReader。所以我就又顺藤摸瓜,找到了这些Twitter的发布人—YamPeleg。

其实我Twitter上知道的人并不多,但是这老哥我还真看过他以前的文章。他是以色列一个创业公司的CEO,本人工程经历丰富,很懂LLM。曾经尝试反向破解过GPT-4和ChatGPT代码解释器。六月OpenAI访问以色列的时候,他还去参加座谈沟通了,并且还和SamAltman合影了。读这老哥的文章,我就禁不住想起来当面在以色列时候的当地的学生联络员Tom,随便说点啥都能给你搞得热血沸腾的。这老哥一直在研究OpenAI,也认识OpenAI内部很多人,所以他如果得到了点啥内部消息,我觉得可信度其实还挺高的。

但是!等我晚上准备去仔细研读下他发的东西的时候,突然发现,他把前面发的都删了。说是因为版权问题,本来我以为是被OpenAI捂嘴了,还庆幸自己留了档。后面仔细一看,发现不是因为OpenAI的版权,而是因为另外一个付费专栏的版权。

原来Yam老哥并不是原创,而是看了SemiAnalysis的付费专栏文章《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》,然后把里面的一些核心信息加上自己的理解共享出来了。所以其实真正的信息源是SemiAnalysis。所以我又收集了下SemiAnalysis的信息。

SemiAnalysis是一个精品半导体研究和咨询公司,专注于从化学原料到晶圆厂到设计IP和战略的半导体供应链。它由DylanPatel创办,他是一位有着多年半导体行业经验的分析师和工程师。他曾在英特尔、AMD、高通等公司担任过不同的角色,从设计工程师到市场营销经理。SemiAnalysis的团队还包括GeorgeCozma,GeraldWong,MyronXie,AfzalAhmad,AleksandarKostovic,SophiaWisdom等多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域,如AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计IP和战略的全方位的半导体供应链分析和咨询服务。

前面那篇著名的谷歌内部泄密文章《Google"WeHaveNoMoat,AndNeitherDoesOpenAI"》就是他们爆出来的,这篇文章后面被证实为真。这样看来,DylanPatel老哥可能确实有些内线,他们给出的信息可信度应该还是可以的。当然,我也发现了他们为啥这么急着让Yam老哥删推,因为这些“内部信息”确实价值不菲,订阅SemiAnalysis的付费文章,一年要500美刀。Yam老哥订阅的精英版更是要1000美刀。

爆料分析

讲清楚了来龙去脉,我们可以得到一个基础结论,就是这个爆料还是有一定的可信性的。然后,我又根据爆料的内容以及前面获得的其他爆料信息,综合分析了下。这里还是先给大家说结论:

爆料可信度较高。本次爆料的来源有一定可信度,爆料的内容和前期已经披露的内容也基本都能吻合。所以我倾向于爆料的大部分内容都是来自OpenAI的泄漏,有真实的事实基础,但是给出的数据未必一定准确。毕竟,也不是所有人都能够获得详细准确的内部数据,但是应该不会偏差太多。爆料对于私有模型有一定意义,对于开源模型意义有限。这次爆料的主要亮点对开源社区的影响可能并不会太大。影响最大的MoE其实已经被爆料过了,目前应该已经有相关的开源模型在路上。除此之外其他的爆料亮点都主要是利好其他私有模型竞争对手,例如比较准确的模型大小、并行策略、模型构架以及多模态构架等。具体我们后面具体分析。个人的奇怪推论。说实话,这个时间点的爆料不得不让我觉得有点奇怪,感觉DylanPatel老哥有一种在帮openAI官方爆料的感觉。结合我这篇文章更是觉得事有蹊跷。要知道,如果这篇爆料文章早一个礼拜发,大家甚至是可以通过ChatGPT的搜索模式直接白嫖文章内容的。咋给我一种,为了让他们能够安心的爆料自己,OpenAI特意把ChatGPT的搜索模式都关闭了的感觉。当然,我这个猜测是毫无根据的,这样做确实也对OpenAI没有任何好处。所以,获取是我多想了,就是赶巧了而已。对于爆料原文感兴趣的可以看我最前面贴的HackerNews的文章,少了些逻辑和修辞,和付费的原文的核心内容是一样的。没耐心一点点钻原文的,我这边直接给大家总结几条要点。

爆料参数整理

这次爆料的一个亮点就是给出了GPT-4的部分明确参数,这些参数前面有过很多猜测,但是官方一直都没有披露,提到的时候都说的很模糊。这些参数包括:

模型参数量:1.8兆,比GPT-3.5大10倍左右。模型层深:120层。模型构架:混合专家模型,一共16个专家,每个专家1110亿参数量。每次向前传递选择两个专家。训练数据:共13兆数据。文本数据被重复训练了2次,代码数据被重复训练了4次。这个数据其实挺重要的,后续具体分析。并行策略:8路张量并行+15路管道并行。预训练上下文:8K。32K版本是在8K基础上微调的。我的推论1:GPT-5会是一个全新构架的多模态LLM

GPT-4是一个由16个专家模型组成的MoE。每个专家1110亿参数量。每次向前传递选两个专家。然后注意力机制共享550亿参数。所以,每次推理的时候,事实上耗费的参数量约为2800亿。这个数字也和前期很多学者预测的类似。

训练数据上面写了,我就不复述了。这里强调下,文本和代码数据都是被重复训练了的。再结合MoE构架,我个人猜测:要么目前可以比较方便获取的高质量文本数据已经接近枯竭要么无限制得增大数据量对LLM性能得提升已经非常有限了。但是,无论是哪一种,我们都可以推断,下一步的GPT-5一定会是基于多模态数据的。GPT-5想要有大的性能突破,就必须能够充分利用现存的大量视频、图片以及音频数据。

但是,根据这次的爆料,OpenAI目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器,与文本编码器分开,但存在交叉注意力。它就是在文本预训练后,进行了约2万亿个Token的微调。这种模式明显无法充分利用已有的视频、图片以及音频数据。

所以,前面OpenAI一直强调的没有在训练GPT-5大概率是真话。因为他们在训练GPT-5之前找到一个更好的多模态模型构架,让模型可以充分的利用音视频数据。只有能够利用这些优质的训练数据,GPT-5才有可能获得足够的能力提升。同时,如果GPT-5真的能够充分利用这些音视频数据的话,那不管是AGI还是OpenAI最近提出的超智体,似乎确实也没那么遥远了。

我的推论2:私有模型的竞争将集中在并行能力上

根据此次爆料,目前如果要训练一个GPT-4竞品,按照使用约8,192个H100芯片来估算,以每小时2美元的价格,在约55天内可以完成预训练,成本约为2150万美元。这个成本对于目前波涛汹涌的LLM市场来说,真的不算大。国内目前的主要玩家都可以比较轻松的承担数次训练。所以,这次说真的,再过半年模型能力对标GPT-4可能真的不是吹牛逼。

如果训练成本不是问题,那么训练数据会不会成为问题呢?目前看来也不会。GPT-4的训练数据共13兆。这个规模并不是特别夸张,且它的很多数据来源国内也可以获取,再加上国内本身也积累了很多中文资源,所以训练数据也应该问题不大。

其他的类似预训练、微调以及中文编解码等问题,其实也不存在太多的技术秘密,方法还是比较公开的。给足够的资源,半年时间应该都可以解决。

所以,最后剩下的就是并行能力了。其实这次爆料里面用了极大的篇幅去介绍相关的内容,专业程度还是比较高的。这里我就不具体展开说了,总体来说,就是你有了大模型,如何以最低的成本让最多的人同时使用。这里面涉及到很多专业的设计问题,在运算资源固定的情况下,应该如何分配不同环节的运算资源?如何处理并发?如何管理内存?

当大家的模型能力都大差不差的时候,那个模型好用,不就取决于用户体验了么!并行处理的能力,就直接决定了用户体验。目前GPT3.5已经做到了无论是ChatGPT还是API都非常丝滑了,这是非常厉害的。这里大家可能会说,我体验的其他国产LLM或者Claude都比GPT3.5还快啊。但是,大家没有考虑使用的量级问题,GPT3.5在这么高的并发下有这样的性能,其他的厂商如果匹配不了OpenAI的这个能力,也就没能力来抢OpenAI的市场。

所以,并行能力可能会成为各路OpenAI竞争对手的角逐重点之一。

我的推论3:OpenAI可能是有意放出的本次爆料

这个推论就完全是个人的瞎猜了。事实根据不足,大家看看就好。

OpenAI很清楚GPT-4的护城河并不高,即使现在OpenAI已经不open了,但是在这种热潮中,竞争对手迎头赶上也并不困难。并且,他们现在的多模态大模型构架应该还没有搞定,这个时候如果有新的玩家上来就从多模态开始搞,OpenAI被弯道超车的概率也是很大的。所以这可能是OpenAI的缓兵之计,我就给你们透露一些GPT-4的信息,让头部的玩家都先去做GPT-4的复刻工作,把OpenAI已经走过的路也再走一遍。

如果在这个过程中,OpenAI给GPT-5的训练打好了基础,完成了多模态大模型的前期攻关,即使GPT-4已经被其他的大语言模型超越,OpenAI也有恃无恐了。个人认为,多模态很可能就是人卷人的最后一代了。后面的模型开发和演进说不定就以AGI为主力了,也就是说,这次赢了,可能就赢到最后了。

结语

本次的爆料绝对是GPT-4发布以来最大的瓜。但是,我并不是很推荐大家去研究这次的爆料内容,大家看看别人的总结就好了。爆料的很多内容看起来还是比较费劲的,并且费半天劲看懂了也没用,懂了你也没法实践,白懂。

不知不觉又码了这么多字,能看到这里的都是真爱,看完留个记号再走吧,您的支持就是对我最大的鼓励~

博览AI的奥秘,博学AI的知识,博交AI的朋友,我是博而不士,欢迎加入我的AI探索之旅。关注我,一起玩转AI。

推荐阅读:

Claude:无需魔法、完全免费、GPT3.5的最佳国内替代「一文说清」

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

链链资讯

[0:15ms0-4:580ms