苹果发布LiTo大模型：单图秒变3D AI高度还原多视角光影

近日，苹果AI研究团队发布LiTo（表面光场标记化）大模型，攻克3D重建领域核心难题。实现仅凭单张平面图像即可重建完整3D对象，还能高度还原多视角下的光影效果，打破了传统3D重建需多角度图像输入的限制。

该模型的核心突破在于创新应用潜在空间并首创统一的3D潜在表示法，将表面光场数据编码为紧凑向量集，通过数学描述掌握物体物理形状与光线表面交互规律，大幅降低计算成本。

其运行采用编码器 - 解码器双向机制，编码器把输入图像的几何结构、视角相关外观特征压缩为潜在空间精简代码，解码器再逆向解压还原3D对象，可精准复现镜面高光、菲涅尔反射等高级光影效果。

苹果研究团队为训练LiTo模型，使用数千个3D对象数据集，在150个不同视角、3种光照条件下完成高强度训练。

通过抽取小部分数据样本，让解码器掌握不同光照和视角下的对象还原能力，最终模型实现单张图片预测三维潜在表示的能力。

在官方对比测试中，LiTo模型严格遵循摄像机坐标系，解决了同类模型生成物体朝向错误的问题，其多视角光影一致性指标较当前最优的TRELLIS模型提升约37%。

最新资讯