CVPR2025

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang

摘要

| Trains a single model for multiple prompts simultaneously | Shares computation across prompts, reducing training time | Generalizes to unseen prompts without additional optimization Uses Score Distillation Sampling (SDS) | Adopts DreamFusion's score distillation technique | Transfers knowledge from 2D diusion models to 3D | But applies it across multiple prompts simultaneously Prompt Interpolation enables smooth transitions between text prompts | Generates novel assets and simple animations | Achieved by interpolating text embeddings during inference Limitations of Current Methods Key limitations of existing approaches: Comparison of Text-to-3D Methods Training from Scratch Adapted from SD Data-driven Direct3D (Limited by data) PI3D (Still needs 3D data) Score Distillation ATT3D (Low quality) Our Method (Best of both worlds) Rows: Training approach (Data-driven vs. Score Distillation) Columns: Model initialization (From Scratch vs. Adapted from SD) Our approach: Combine score distillation training with SD adaptation | No need for 3D data + Leverages powerful SD priors