首页   

【[59星]ThinkDiff:让扩散模型具备多模态上下文推理能-20250219195134

爱可可-爱生活  · AI  · 2 天前

正文

2025-02-19 19:51

【[59星]ThinkDiff:让扩散模型具备多模态上下文推理能力,彻底改变生成图像的方式!亮点:1. 将视觉语言模型与大型语言模型解码器对齐,而非直接对齐扩散解码器,大大简化了训练过程;2. 在CoBSAT基准测试中,将最佳准确率从19.2%提升至46.3%,仅需5小时训练;3. 仅用普通图像-文本对训练,无需复杂多模态数据集】
'I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models'
GitHub: github.com/MiZhenxing/ThinkDiff
#多模态推理# #扩散模型# #AI生成# #AI创造营#
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com