BlenderFusion – 谷歌DeepMind推出的生成式视觉合成框架

0 2

BlenderFusion是什么

BlenderFusion是Google DeepMind推出的生成式视觉合成框架，将传统的 3D 编辑软件（Blender）与AI 模型相结合，实现精准的几何编辑和多样的视觉合成。框架基于三个步骤实现，首先从源图像中提取感兴趣的对象并将其转换为可编辑的3D元素（对象中心化分层），在Blender中对对象进行多样化的编辑（基于Blender的编辑），最后用生成合成器将编辑后的元素无缝融合，生成最终的逼真图像（生成合成）。BlenderFusion在复杂视觉合成任务中表现出色，能实现对象、相机和背景的灵活、解耦且具有3D感知的操控。

BlenderFusion的主要功能

精确的3D几何控制：基于Blender实现对对象的精确3D编辑，包括位置、旋转、缩放等变换，以及颜色、材质、形状等属性的修改。
灵活的相机控制：支持独立于对象操作调整相机视角，实现复杂的视角变化。
复杂的场景合成：将编辑后的对象和背景无缝融合，生成逼真的最终图像，支持多对象操作和复杂的场景编辑。
解耦的对象和相机控制：在保持相机固定的情况下操作对象，或在保持对象固定的情况下调整相机，实现高度解耦的控制。
泛化能力：支持应用在未见过的场景和对象，支持从简单到复杂的编辑任务，包括渐进式多步编辑。

BlenderFusion的技术原理

对象中心化分层（Object-centric Layering）：用视觉基础模型（如SAM2进行分割，Depth Pro进行深度估计）从输入图像中提取对象，转换为可编辑的3D元素。可选地使用图像到3D模型（如Rodin、Hunyuan3D）生成完整的3D网格，与2.5D表面网格对齐，以便在测试时进行更灵活的编辑。
基于Blender的编辑（Blender-grounded Editing）：将分层步骤得到的3D对象导入Blender，基于Blender的强大功能进行多样化的编辑操作，包括对象的基本变换、属性修改、非刚性变形等。支持相机控制和背景替换，为生成合成步骤提供精确的3D控制信号。
生成合成（Generative Compositing）：基于扩散模型的生成合成器将Blender的渲染结果与背景融合，生成最终的逼真图像。生成合成器基于双流架构，同时处理原始场景（编辑前）和目标场景（编辑后）的信息，基于交叉视图注意力机制将两者的信息进行融合。基于源遮罩（source masking）和模拟对象抖动（simulated object jittering）两种训练策略，提高模型在复杂编辑任务中的灵活性和解耦能力。