BlenderFusion是什么
BlenderFusion是Google DeepMind推出的生成式视觉合成框架,将传统的 3D 编辑软件(Blender)与AI 模型相结合,实现精准的几何编辑和多样的视觉合成。框架基于三个步骤实现,首先从源图像中提取感兴趣的对象并将其转换为可编辑的3D元素(对象中心化分层),在Blender中对对象进行多样化的编辑(基于Blender的编辑),最后用生成合成器将编辑后的元素无缝融合,生成最终的逼真图像(生成合成)。BlenderFusion在复杂视觉合成任务中表现出色,能实现对象、相机和背景的灵活、解耦且具有3D感知的操控。

BlenderFusion的主要功能
- 精确的3D几何控制:基于Blender实现对对象的精确3D编辑,包括位置、旋转、缩放等变换,以及颜色、材质、形状等属性的修改。
- 灵活的相机控制:支持独立于对象操作调整相机视角,实现复杂的视角变化。
- 复杂的场景合成:将编辑后的对象和背景无缝融合,生成逼真的最终图像,支持多对象操作和复杂的场景编辑。
- 解耦的对象和相机控制:在保持相机固定的情况下操作对象,或在保持对象固定的情况下调整相机,实现高度解耦的控制。
- 泛化能力:支持应用在未见过的场景和对象,支持从简单到复杂的编辑任务,包括渐进式多步编辑。
BlenderFusion的技术原理
- 对象中心化分层(Object-centric Layering):用视觉基础模型(如SAM2进行分割,Depth Pro进行深度估计)从输入图像中提取对象,转换为可编辑的3D元素。可选地使用图像到3D模型(如Rodin、Hunyuan3D)生成完整的3D网格,与2.5D表面网格对齐,以便在测试时进行更灵活的编辑。
- 基于Blender的编辑(Blender-grounded Editing):将分层步骤得到的3D对象导入Blender,基于Blender的强大功能进行多样化的编辑操作,包括对象的基本变换、属性修改、非刚性变形等。支持相机控制和背景替换,为生成合成步骤提供精确的3D控制信号。
- 生成合成(Generative Compositing):基于扩散模型的生成合成器将Blender的渲染结果与背景融合,生成最终的逼真图像。生成合成器基于双流架构,同时处理原始场景(编辑前)和目标场景(编辑后)的信息,基于交叉视图注意力机制将两者的信息进行融合。基于源遮罩(source masking)和模拟对象抖动(simulated object jittering)两种训练策略,提高模型在复杂编辑任务中的灵活性和解耦能力。
BlenderFusion的项目地址
- 项目官网:https://blenderfusion.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2506.17450
BlenderFusion的应用场景
- 影视制作:用在电影、电视剧的视觉效果(VFX)制作,添加虚拟对象、调整场景布局、改变背景等,创建逼真的合成场景。
- 游戏开发:助力游戏开发者快速设计和编辑游戏场景,添加和调整游戏中的对象、改变相机视角等,创造逼真的游戏环境。
- 广告:帮助广告设计师制作高质量的产品展示图,突出产品特点。
- 建筑设计:建筑师和室内设计师、进行室内设计可视化,添加和调整家具、装饰品等,生成逼真的室内效果图。
- 艺术创作:艺术家借助3D编辑和生成合成能力创作独特数字艺术作品,实现创意可视化。
© 版权声明
本站文章版权归 AI工具集 所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...