Zero123++:从单张图像推理出多个视图模型

ROBOT@qwh 2023-10-25 阅读:136 评论:0
    Zero123++,这是一种图像条件扩散模型,用于从单个输入视图生成 3D 一致的多视图图像。为了充分利用预训练的 2D 生成先验,我们开发了各种条件和训练方案,以最大限度地减少现成图像扩散模...

    Zero123++,这是一种图像条件扩散模型,用于从单个输入视图生成 3D 一致的多视图图像。为了充分利用预训练的 2D 生成先验,我们开发了各种条件和训练方案,以最大限度地减少现成图像扩散模型(例如稳定扩散)的微调工作。Zero123++ 擅长从单个图像生成高质量、一致的多视图图像,克服纹理退化和几何错位等常见问题。此外,我们展示了在 Zero123++ 上训练 ControlNet 以增强对生成过程的控制的可行性。

    We report Zero123++, an image-conditioned diffusion model for generating 3D-consistent multi-view images from a single input view. To take full advantage of pretrained 2D generative priors, we develop various conditioning and training schemes to minimize the effort of finetuning from off-the-shelf image diffusion models such as Stable Diffusion. Zero123++ excels in producing high-quality, consistent multi-view images from a single image, overcoming common issues like texture degradation and geometric misalignment. Furthermore, we showcase the feasibility of training a ControlNet on Zero123++ for enhanced control over the generation process. 

teaser-low.jpg

论文下载:https://arxiv.org/pdf/2310.15110v1.pdf

项目源代码:https://github.com/SUDO-AI-3D/zero123plus

版权声明

本文仅代表作者观点,不代表本网站立场。
本文系作者授权本网站发表,未经许可,不得转载。

发表评论
热门文章
  • 与大型语言模型和机器人相关的资源、文章和观点列表

    与大型语言模型和机器人相关的资源、文章和观点列表
    我们收集了一些与大型语言模型(LLM)相关的文章,观点,视频和资源。其中一些链接还涵盖了其他生成模型。我们将定期更新此列表,以添加任何其他感兴趣的资源。本文是该系列的第三篇。(以前的版本在这里:v1 |v2.)什么是法学硕士以及它们是如何工作的什么是生成AI模型?,Kate Soule,来自IBM Technology的视频。大型语言模型简介,John Ewald,来自Google Cloud Tech的视频。什么是 GPT-4,它与 ChatGPT 有何不同?,A...
  • 在音频中将你的描述和内容分开模型AudioSep

    在音频中将你的描述和内容分开模型AudioSep
    语言查询音频源分离(LASS)是计算听觉场景分析(CASA)的新范例。LASS 旨在根据自然语言查询从音频混合物中分离出目标声音,这为数字音频应用程序提供了自然且可扩展的接口。最近的 LASS 工作尽管在特定源(例如乐器、有限类别的音频事件)上取得了有希望的分离性能,但无法在开放域中分离音频概念。在这项工作中,我们介绍了 AudioSep,这是一种使用自然语言查询进行开放域音频源分离的基础模型。我们在大规模多模态数据集上训练 AudioSep,并广泛评估其在音频事件分离、乐器...
  • 机器人烹饪方法YORI

    机器人烹饪方法YORI
    由加州大学洛杉矶分校的机器人与机械实验室一直在研究,既利用机器人友好的自动化,又利用人类技能,使事物味道正确,的烹饪机器人解决方案。   论文链接:https://spectrum.ieee.org/romela-cooking-robot...
  • 什么是边缘人工智能和边缘计算?

    什么是边缘人工智能和边缘计算?
    边缘人工智能是人工智能最引人注目的新领域之一,它的目标是让人们运行人工智能流程,而不必担心隐私或因数据传输而导致的速度减慢。边缘人工智能正在使人工智能得到更广泛、更广泛的使用,让智能设备无需访问云即可快速对输入做出反应。虽然这是 Edge AI 的快速定义,但让我们花点时间通过探索使其成为可能的技术并查看 Edge AI 的一些用例来更好地了解 Edge AI。什么是边缘计算?为了真正理解Edge AI,我们首先需要了解边缘计算,而理解边缘计算的最好方式就是将其与云计算进行对...
  • 新型的可重构机器人Tail STAR

    新型的可重构机器人Tail STAR
    Tail STAR是一种新型的可延展式机器人,具有双关节的尾巴,能够克服各种障碍。它可以用于搜索和救援应用。它可以穿过缝隙,爬过楼梯和人行道。它可以爬过比车轮半径大6倍的障碍物。视频: 论文:https://ieeexplore.ieee.org/document/10050748...