本文揭示了现代自编码器潜在空间高频成分过多的问题会阻碍潜在扩散模型的生成质量,创新性地提出了尺度等变正则化方法,在不显著降低重建质量的前提下,显著提升了图像和视频生成质量,强调了自编码器扩散性以及潜在空间频谱特性对潜在扩散模型性能的关键作用,并提供了一种简单有效的提升扩散模型性能的途径。 [CV]《Improving the Diffusability of Autoencoders》I Skorokhodov, S Girish, B Hu, W Menapace... [Snap Inc.] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#