ACE:一张照片生成 3D 头像!苹果新模型击败 StyleGAN2,表情光线都能调

来源:量子位

随便一张照片,就可生成3D头像。而且光线真实,任意角度可调。

这是苹果的最新黑科技生成框架FaceLit。

正如其名,FaceLit的特色就是可以将人脸“点亮”。

“自带光环”的FaceLit在易用性上也不输同类,甚至更胜一筹——

进行3D建模时,需要的照片素材无需专门选择角度,数量上也只需一张。

甚至对表情、发型、眼镜等元素进行调节时,也不需要额外素材。

而传统的头像合成工具或者需要多张图片才能工作,或者对照片角度有刁钻的要求。

正是凭借这一创新,FaceLit获得了3.5的FID评分,较同类产品直接高出了25%。

马斯克用一张图拜年:水墨老虎搭\"中国红\":1月31日,虎年新春来临之际,美国特斯拉首席执行官埃隆·马斯克在微博向中国网友送出新春祝福。31日下午,马斯克在微博及社交平台推特上同时发布一张图片,图中4只水墨老虎被点缀喜庆的“中国红”,活灵活现。图片中央则用英文写着“农历新年快乐”(Happy Chinese new year)。在推特留言板中,外国网友齐刷刷回复:“虎年快乐”“农历新年快乐!”(海外网)[2022/1/31 9:24:45]

改进式EG3D合成人像,光线信息单独处理

下面就来看一下FaceLit具体是如何实现头像合成的。

总的来说,苹果采用了将人物本体与光线分别处理再进行叠加的策略。

早期的三维人像合成工具在转换过程中可能产生形变。

而爆火的NeRF通过将场景拆分成具体因素,提高了3D图像合成效果,改善了这一问题。

但苹果团队认为,在可控性方面,NeRF仍存有不足之处。

BitFlyer将从12月1日起提供日本第一张信用卡“bitFlyerCreca”:12月2日消息,运营加密货币交易所的BitFlyer将从 12 月 1 日起提供日本第一张信用卡“bitFlyerCreca”,用于与Aplus合作交易数字货币。通过使用bitFlyer信用卡进行日常购物和支付水电费,数字货币将根据使用量自动累积。累积数字货币可以通过bitFlyer出售。因此,需要一个bitFlyer账户才能申请。使用刷卡购物,APLUS的“特别礼品积分”将以0.5%至2.0%的返还率累积,并自动兑换成数字货币并累积在用户的bitFlyer账户中。您可以使用bitFlyer查看交换的数字货币。

特典积分兑换数字货币的兑换率以兑换当日(每月20日左右)为准。有两种类型的卡:无会员年费的标准卡“bitFlyer Credit Card”和年费为16,500日元的白金卡“bitFlyer Platinum Card”。标准的积分兑换率为 0.5%,白金的积分减少率为 1.0%。至于附带服务,则以卡片失窃及遗失赔偿为标准。[2021/12/2 12:45:15]

于是,在EG3D框架的基础上,苹果创造了FaceLit的合成模型。

东港股份开具出北京市第一张区块链电子发票:东港股份公告称:在北京市税务局的主导下,子公司东港瑞宏提供了基于区块链技术的应用和支持,于2020年3月3日开具出了北京市第一张区块链电子发票。[2020/3/3]

EG3D通过三平面解码器,赋予了二维卷积神经网络生成渲染3D模型所需深度参数的能力。

苹果团队对标准的EG3D训练方式进行了扩展,并将之转化成了FaceLit框架。

△FaceLit与传统EG3D渲染流程对比图

标准的ED3G使用相机位置p参数作为基本输入参数。

在建立GAN2操作时,苹果在EG3D的基础上加入了光照参数l。

动态 | 农业农村部:利用区块链等信息技术 实现全国农药质量追溯“一张网”:据农业农村部2月12日消息,为贯彻落实中央农村工作会议、全国农业农村厅局长会议及全国农药管理工作会议精神,农业农村部于近日印发《2020年农药管理工作要点》。其中提到2020年农药管理工作包括完善质量追溯体系。利用区块链等现代信息技术,加快构建全国统一的质量追溯系统,逐步实现全国农药质量追溯“一张网”。完善标签管理办法,推行农药内外包装二维码关联,逐步实现农药生产、经营、使用全链条可追溯。[2020/2/12]

不同p(左→右)与l(上→下)值下的初始图像

苹果选择了经过球形谐波方式简化后的Phong反射模型作为处理光源的物理基础。

光照参数l就是在这一基础之上独立处理得到的。

在自然界中,反射包括镜面反射和漫反射两种形式。

动态 | 重庆市发出第一张区块链营业执照:据中国电子银行网消息,3月6日,重庆市新注册登记营业执照全部加入政务区块链,并发出了第一张基于区块链技术的电子营业执照,这是重庆市实施“全渝通办”、探索政务区块链技术创新应用取得的又一阶段性成果。[2019/3/8]

△不同镜面反射率条件下的效果对比

因此,苹果在ED3G模型中加入了镜面反射解码器和漫反射解码器。

它们替代了可以直接得到颜色c、密度σ数据的三平面解码器。

△反射解码器流程示意图

通过对GAN2产生的数据进行再次解码,可以得到镜面反射率ks和漫反射率kd。

然后再通过两种反射着色器得到颜色c,密度σ则由漫反射解码器计算得出。

最终,FaceLit以与三平面解码器相同的参数渲染图像,并进行分辨率优化。

有的放矢设计训练策略,数据无需人工标注

生成框架已有,那就来到训练阶段,其特点在于训练过程中无需人工标注。

方法论层面,在训练时,团队使用了FFHQ、MetFaces和CelebA-HQ数据集。

对于不同的数据集,苹果使用了不同的训练方式。

FFHQ包含了7万余条人脸数据,其训练分为两个阶段:先在较低的分辨率下训练,再提高分辨率再次进行。

对于包含2万数据量的CelebA-HQ,训练不需要分阶段进行。

而对于更小的MetFAces,则只需要通过ADA扩容的方式,使用预训练的FFHQ进行优化调整即可。

定性地看,训练结果在机位、光源和反射高光等方面都有出色的表现,图中的细节也有所增强。

△FaceLit生成的头像唇齿部位的细节进行了明显重构

定量结果同样表明,FaceLit在FID、KID等指标上均优于包括标准EG3D在内的传统生成方式。

在使用FFHQ作为训练集的条件下,各生成方式的表现如下表,不难看出FaceLit拥有最低的FID和KID值。

而相比于英伟达的StyleGAN2,FaceLit的表现依旧出色:

光线准确度方面,FaceLit在使用三种不同训练数据集的情况下,与人工设定的标准值平均均方误差均低于0.01。

网友:人们低估了苹果AI

消息发出后,便有网友认为“这是对更重磅产品的预热”。

更有网友直接推测,FaceLit的出现标示着人工智能将进军AR和VR领域,苹果的混合现实将最终实现商用……

也有网友认为,FaceLit不会商用,否则苹果才不会以论文的形式发表。

针对FaceLit本身,也有网友表示,除了LLM,其他都是浮云,他们如果不开发LLM,就没有未来。

但这位网友同时也说,苹果可能已经在做了。

相应的,也有网友称人们“低估了苹果在AI领域的深度”。

所以各位网友对苹果在AI领域还有什么样的期待呢?

论文地址:https://arxiv.org/abs/2303.15437

GitHub地址:https://github.com/apple/ml-facelit

参考链接:https://twitter.com/AlphaSignalAI/status/1648361623004774400

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

链链资讯

[0:46ms0-3:822ms