Arxiv paper - VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

In this episode, we discuss VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing by Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang. The paper introduces VideoGrain, a zero-shot method that enhances multi-grained video editing by modulating space-time attention mechanisms for class-, instance-, and part-level modifications. It addresses challenges like semantic misalignment and feature coupling by improving text-to-region control and optimizing feature separation within diffusion models. Extensive experiments demonstrate that VideoGrain achieves state-of-the-art performance in real-world video editing scenarios.

Arxiv paper – VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing