一张照片生成3D头像！苹果新模型击败StyleGAN2，表情光线都能调，网友：要用于MR？

任何照片都可以生成3D头像。而且光线是真实的，可以任意角度调节。

这是苹果最新的黑科技生成框架FaceLit。

顾名思义，FaceLit的特点就是能“点亮”脸。

FaceLit“自带光环”在易用性上并不逊色甚至更胜一筹——

在3D建模中，不需要为照片素材选择特殊的角度，在数量上只需要一张照片。

甚至在表情、发型、眼镜等元素调整时，也不需要额外的材料。

然而，传统的头像合成工具要么需要多张图片才能工作，要么对照片角度有棘手的要求。

由于这一创新，FaceLit获得了3.5的FID评分，比同类产品高出25%。

改进的EG3D合成人像，光线信息单独处理

我们来看看FaceLit是如何实现头像合成的。

总的来说，苹果采用的是将文字和光线分别处理，然后叠加的策略。

早期的3D人像合成工具在转换过程中可能会变形。

爆炸火焰的NeRF提高了3D图像合成效果，通过将场景拆分成特定的因子来改善这个问题。

但苹果团队认为，NeRF在可控性方面仍有不足。

于是，基于EG3D框架，苹果创造了FaceLit的合成模型。

EG3D使2D卷积神经网络能够通过三平面解码器生成渲染3D模型所需的深度参数。

苹果团队扩展了标准的EG3D训练方法，将其转化为FaceLit框架。

△FaceLit与传统EG3D渲染流程对比图

标准ED3G使用相机位置p参数作为基本输入参数。

苹果在建立GAN2操作时，在EG3D的基础上增加了光照参数l。

苹果选择了用球谐函数简化的Phong反射模型作为处理光源的物理基础。

在此基础上独立处理照明参数L。

在自然界中，反射包括镜面反射和漫反射。

△不同镜面反射率条件下的效果对比

所以苹果在ED3G机型上增加了镜面解码器和扩散解码器。

他们已经取代了可以直接获得颜色c和密度σ数据的三平面解码器。

△反射解码器流程示意图

再次解码GAN2产生的数据，可以得到镜面反射率ks和漫反射率kd。

然后颜色C由两个反射着色器获得，密度σ由漫反射解码器计算。

最后，FaceLit使用与三平面解码器相同的参数(C，W，σ)渲染图像，并优化分辨率。

设计目标明确的训练策略，数据不需要人工标注

生成框架已经有了，所以到了训练阶段，特点是训练过程中不需要手动标记。

方法上，在训练期间，该小组使用了FFHQ、MetFaces和CelebA-HQ数据集。

对于不同的数据集，苹果使用了不同的训练方法。

FFHQ包含7万多张人脸数据，它的训练分为两个阶段:首先以较低的分辨率进行训练，然后再次提高分辨率。

对于包含20，000个数据的CelebA-HQ，训练不需要分阶段进行。

对于较小的MetFAces，只需要使用预先训练的FFHQ通过ADA容量扩展进行优化和调整。

定性上，训练结果在飞机位置、光源、反光亮点等方面都有出色的表现，画面中的细节也有所增强。

△FaceLit生成的头像（左侧四列）唇齿部位的细节进行了明显重构

定量结果还表明，FaceLit在FID、KID等指标上优于包括标准EG3D在内的传统生成方法。

在使用FFHQ作为训练集的情况下，各种生成模式的性能如下。不难看出，FaceLit的FID和KID值最低。

与英伟达的StyleGAN2相比，FaceLit的性能还是很出色的:

光照精度方面，三个不同训练数据集的FaceLit平均均方误差低于0.01。

用户:人们低估了苹果AI

消息发出后，有网友认为“这是对更重产品的预热。”

有网友直接猜测，FaceLit的出现预示着人工智能将进入AR、VR等领域，苹果的混合现实终将商业化…

有网友认为FaceLit不会商业化，否则苹果不会以论文的形式发布。

对于FaceLit本身，有网友表示，除了LLM，其他都是浮云。如果他们(苹果)不开发LLM，就没有未来。

但该网友也表示，苹果可能已经在做了(LLM)。

相应的，也有网友表示，人们“低估了苹果在AI领域的深度”。

那么网友们对苹果在AI领域有什么期待呢？

纸张地址:

https://arxiv.org/abs/2303.15437

GitHub地址:

https://github.com/apple/ml-facelit

参考链接:

https://Twitter . com/alpha signal ai/status/1648361623004774400

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。

一张照片生成3D头像！苹果新模型击败StyleGAN2，表情光线都能调，网友：要用于MR？

相关推荐