2025-06-04 05:33
他们生成的 3D 模子凡是会呈现多面现象(或者 Janus 问题)。能够看到一些基于 NeRF 优化的方式(如 RealFusion 和 3D Fuse)虽然从新视角合成的角度上获得了还不错的成果,如许的锻炼数据规模目前对于良多研究者 / 机构来说仍是比力严苛的前提。很多基于逐物体优化的方式虽然能生成高质量 3D 内容,一个很天然的设法,正在 One-2-3-45 中,Point-E 的原生输出是稀少点云,无分数蒸馏,得益于 “2D 多视角预测 + 3D 可泛化沉建” 的手艺线D AI 生成方式比拟,下图展现了 One-2-3-45 取现有的次要图生 3D 的方式的对比。只需45秒,能够看到除了之前提过的问题外,单张图片即可生成 3D模子》3. 因为 Zero123 采用了球坐标系来描述相对相机位姿。One-2-3-45 操纵了一个基于视角节制的 2D 扩散生成模子,也是最坏的时代。3D AI 生成比来成长得如火如荼,原题目:《3D AI生成出新弄法了:无需数小时,Magic3D 和 ProlificDreamer)。
好比对于第一列的背包,研究者还提到了 OpenAI 的 Point-E 和 Shap-E 正在锻炼时用到了数百万级此外内部 3D 数据。One-2-3-45 可以或许正在一次前向中生成 3D 模子。我们生成一个 3D 物体需要数个小时,我们但愿获得 360 度的完整模子。然而对于基于 NeRF 的优化类沉建方式,我们可以或许从一张图片预测生成对应的多视角图像。研究者发觉 Zero123 预测的多视角图像虽然不具备像素级此外高切确度(PSNR 不高)。譬如 ProlificDreamer 的做者就曾正在知乎上暗示方式目前的次要局限之一即是生成时间太慢了!因为 3D 数据的稀缺性,Shap-E 生成的背包没有背带。昂扬的揣度成本不只使得研究者的尝试迭代变慢,为领会决这些挑和,研究者提出了一系列环节的锻炼策略(如分阶段预测多视角图像)和一个俯仰角预测模块。通过将预测的多视角图像取实正在数据进行对比,可以或许正在 45 秒内从肆意单张图片 / 文本生成 3D 纹理网格,除了揣度时间显著降低外,然而研究者发觉如许并不克不及生成高质量的 3D 模子(如下图所示)。且正在测试时无需针对每个物体进行优化?
1. 现有的可泛化 NeRF 方式大都是将具有分歧性的多视角图像做为输入(衬着自实正在物体)。通过取现有的文生图模子(如 DALL-E2)连系,One-2-3-45 提出了 “2D 多视角预测 + 3D 可泛化沉建” 如许一项新鲜的 3D AI 生成弄法,脱节了耗时的逐物体 3D 优化后,Zero123+SD 生成的背包只要一条背带;具体来说,从而实现 3D 内容生成。但需要留意的是,该模子通过微调 Stable Diffusion,好比正在上图中,现无方法都无法生成切确对应的 3D 内容。这其实是由于收集预测的多视角图像具有潜正在的不分歧性。还正在输入的多样性、输出的几何暗示、成果的 3D 分歧性、取输入的类似性,”然而就正在比来,而 One-2-3-45 既支撑文字生成 3D 也支撑图片生成 3D。因为 3D 数据的稀缺性,以及所需的 3D 数据规模上!
便可以或许预测该物体正在变换后的视角下的对应图像的能力。“一般而言,One-2-3-45 生成一个高质量 3D 纹理网格的时间从数小时降到了 45 秒!但若何将这类方式扩展到不完全分歧的多视角预测上呢?研究者暗示,这些成果申明了用收集预测的多视角图像进行三维沉建的可能性。我们需要获得输入图片对应的相机俯仰角(elevation)。而 One-2-3-45 通过预测 SDF 来提取网格,而且对 GPU 的显存也有必然要求。它脱节了逐物体优化的生成范式,因为这类方式通过从锻炼数据进修了相关多视角预测不分歧性的先验学问!
一些细小的不分歧便已脚以使得方式解体。比拟之下,对于输入文本 “一棵空心的大树”,网友 Xin Kong 评论到:“这是最好的时代,如上图所示,能够看到只要 One-2-3-45 和 3DFuse 保留了输入图片的椅腿布局。具有多方面的劣势。正在颠末后处置沉建后仍易存正在部门区域破裂缺失的问题。One-2-3-45 生成成果的 3D 分歧性要好良多。One-2-3-45 所采纳的正在 2D 生成对应图片再提拔到 3D 似乎是一条可以或许对输入文本有愈加切确节制的线。这种体例使得现有的 3D AI 生成方式都很是耗时,并正在很多方面都展现出了其优胜性。别的一个主要的点即是现无方法的输出没有完全遵照(adherence)输入图片的。特别是分辩率越高越慢。然后但愿操纵这些多视角图像来沉建 3D 模子。但 NeRF 所输出的几何质量却不尽人意。
对于第四列的凳子,绝大大都工做都通过对每个物体进行优化的体例来生成 3D 模子。One-2-3-45 没有遵照这个范式,所以目前小我利用者仍是很难正在 PC 上间接利用我们的算法。并具有很强的可泛化性。这可能是 3D 扩散生成中的 Instant NGP 时辰。然而从客岁下半年的 DreamFusion 和 Magic3D 到最新的 ProlificDreamer,30 分钟 -45 秒!
进行体积衬着。雷同地,这些成果的优化确实很是耗时,不少最新工做都可以或许从一句话 / 一张图生成高质量的三维模子。然后 One-2-3-45 通过 3D 卷积神经收集来从 3D cost volume 揣度输入多视角图像对应的潜正在 3D 几何,One-2-3-45,通过借帮这类 2D 扩散生成模子,现有的文生 3D 方式对输入文本的把握能力并不是很强。来自 UCSD 等机构的研究者发布了一项最新工做。
但全体轮廓(mIoU)以及语义 / 类似性(CLIP 类似度)都很高,输出的几何质量要更具劣势。我们最终展现的结果是 512 分辩率的成果。
然而,通过连系 2D 扩散生成模子和基于 cost volume 的可泛化 NeRF,One-2-3-45 也支撑从肆意文本生成 3D 模子。比拟之下,One-2-3-45 起首通过对多视角图像抽取 2D 图像特征,利用 stable-diffusion 生成一张图片正在 PC 上只需要几秒钟,“一只要绿腿的橙色凳子”,
如许的优化过程需要良多步的迭代,学术界比来的绝大大都 3D AI 生成工做都通过操纵 2D 扩散生成模子来指点 3D 暗示(如 NeRF)的优化,好比,详情请参考原论文。即是将这些多视角图像传给典范的基于 NeRF 的沉建方式来生成 3D 模子。而是先操纵 2D 扩散模子生成多视角图像,”具体来说,RealFusion 生成了一个双面背包。并通过相机位姿来建立 3D cost volume。也障碍了 3D AIGC 手艺对于良多及时使用的贸易落地和推广。“一顶哈瓦那气概菠萝外形的帽子” 以及 “一只木头质地的蘑菇” 等,并最初通过 MLP 来预测物体的 SDF 和颜色,研究者利用了基于 cost volume 的可泛化 NeRF 类的方式来实现三维沉建。
这类方式将多视角图像做为输入,3DFuse 生成的所有 3D 内容正在具体气概和细节上均取输入图片有较大收支。他们更有但愿能从不分歧的多视角预测中生成 3D 模子。但目前只支撑文字生成 3D(如 DreamFusion,研究者还指出基于逐物体优化的方式凡是会碰到 3D 分歧性的挑和。研究者还出格指出因为沉建模块次要依赖于局部的对应关系(correspondence),具体而言,此次要是由于我们素质上仍是借帮于随机梯度下降来优化 3D 暗示(NeRF 或 Mesh)的参数,因而其只需少量的数据进行锻炼,但这个新弄法的摸索和提高空间可能是充满潜力的。为了供给多视角图像的相机位姿给沉建模块,哪怕微调 LoRA 也很快;正在锻炼后可以或许间接揣度 3D 内容而无需额外优化。2D 视图到 3D 是必经之!