Zero123++：从单张图像推理出多个视图模型

ROBOT@qwh 2023-10-25 阅读:688 评论:0

Zero123++，这是一种图像条件扩散模型，用于从单个输入视图生成 3D 一致的多视图图像。为了充分利用预训练的 2D 生成先验，我们开发了各种条件和训练方案，以最大限度地减少现成图像扩散模...

Zero123++，这是一种图像条件扩散模型，用于从单个输入视图生成 3D 一致的多视图图像。为了充分利用预训练的 2D 生成先验，我们开发了各种条件和训练方案，以最大限度地减少现成图像扩散模型（例如稳定扩散）的微调工作。Zero123++ 擅长从单个图像生成高质量、一致的多视图图像，克服纹理退化和几何错位等常见问题。此外，我们展示了在 Zero123++ 上训练 ControlNet 以增强对生成过程的控制的可行性。

We report Zero123++, an image-conditioned diffusion model for generating 3D-consistent multi-view images from a single input view. To take full advantage of pretrained 2D generative priors, we develop various conditioning and training schemes to minimize the effort of finetuning from off-the-shelf image diffusion models such as Stable Diffusion. Zero123++ excels in producing high-quality, consistent multi-view images from a single image, overcoming common issues like texture degradation and geometric misalignment. Furthermore, we showcase the feasibility of training a ControlNet on Zero123++ for enhanced control over the generation process.

论文下载：https://arxiv.org/pdf/2310.15110v1.pdf

项目源代码：https://github.com/SUDO-AI-3D/zero123plus

版权声明

本文仅代表作者观点，不代表本网站立场。
本文系作者授权本网站发表，未经许可，不得转载。

上一篇：现代机器人I - 手臂式机械手(教程) 下一篇：DevOps 中的 AI：简化软件部署和运营

发表评论

热门文章

康普顿未来智慧农场

康普顿未来农场，使用更少的水和1%的土地，即可实现与产统农业相同产量....
拆解 OpenAI 的新董事会

在人工智能和技术领域掀起波澜的惊人事件中，人工智能领域的领先实体 OpenAI 最近的领导地位发生了重大转变。以萨姆·奥尔特曼 (Sam Altman) 戏剧性地重返首席执行官职位以及随之而来的董事会改组为标志，这些变化代表了该组织的关键时刻。OpenAI 以其在人工智能研究和开发方面的开创性工作而闻名，包括广泛认可的 ChatGPT 和 DALL-E 模型，站在人工智能进步的最前沿。因此，董事会的重组不仅仅是人员的变动，还标志着人工智能领域最具影响力的组织之一的方向、优先事...
一种自动确定计算机游戏状态中可能动作的方法

由于手动彻底测试视频游戏软件非常困难，因此需要拥有能够自动探索不同游戏功能的人工智能代理。此类代理的关键要求是玩家动作的模型，代理可以使用该模型来确定不同游戏状态下的可能动作集，以及对代理策略选择的游戏执行选定的动作。目前使用的典型游戏引擎不提供这样的动作模型，导致现有的工作要么需要人工手动定义动作模型，要么不精确地猜测可能的动作。在我们的工作中，我们通过为游戏中存在的用户输入处理逻辑开发最先进的分析方法来演示程序分析如何有效解决该问题，该分析可以使用离散动作空间自动建模游戏...
使用众包反馈来帮助训练机器人

为了教人工智能代理一项新任务，比如如何打开厨房柜子，研究人员经常使用强化学习——这是一种试错过程，在该过程中，代理会因采取更接近目标的行动而获得奖励。在许多情况下，人类专家必须仔细设计奖励函数，这是一种激励机制，赋予代理人探索的动力。当智能体探索并尝试不同的动作时，人类专家必须迭代地更新奖励函数。这可能非常耗时、效率低下，并且难以扩展，尤其是当任务复杂且涉及许多步骤时。来自麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法，该方法不依赖于专门设计的奖励函数...
HierSpeech++：通过零样本语音合成新架构

基于大语言模型（LLM）的语音合成已广泛应用于零样本语音合成中。然而，它们需要大规模数据，并且具有与以前的自回归语音模型相同的局限性，包括推理速度慢和缺乏鲁棒性。本文提出了 HierSpeech++，一种快速、强大的零样本语音合成器，用于文本到语音（TTS）和语音转换（VC）。我们验证了分层语音合成框架可以显着提高合成语音的鲁棒性和表现力。此外，即使在零样本语音合成场景中，我们也显着提高了合成语音的自然度和说话人相似度。对于文本到语音，我们采用文本到向量框架，该框架根据文本表...