9 种多模态思维链 (MCoT) 方法↓先收藏了
▪️ KAM-CoT,知识增强多模态思维链推理(2401.12863)。这个轻量级框架将 CoT 提示与知识图谱 (KG) 相结合,准确率达到 93.87%
访问:网页链接
▪️ Multimodal Visualization-of-Thought (MVoT),空间推理中的想象:思维的多模态可视化(2501.07542)。让模型生成视觉推理轨迹,使用 token 差异损失来提高视觉质量。
访问:网页链接
▪️ Compositional CoT (CCoT)
大型多模态模型的组合思维链提示(2311.17076),使用 LMM 本身生成的场景图 (SG) 表示来提高合成和通用多模态基准测试的性能。
访问:网页链接
▪️ URSA,理解和验证多模态数学中的思路链推理(2501.04686),将系统 2 风格的思维引入多模态数学推理,使用 3 模块 CoT 数据合成过程,包括 CoT 提炼、轨迹格式重写和格式统一。
访问:网页链接
▪️ MM-Verify:通过思路链验证增强多模态推理(2502.13383),引入了 MM-Verifier 和 MM-Reasoner 的验证机制,实现了用于多模态推理的合成高质量 CoT 数据。
访问:网页链接
▪️ Duty-Distinct CoT (DDCoT),
DDCoT:语言模型中职责不同的思维链提示多模态推理(2310.16436)。将推理职责划分在 LM 和视觉模型之间,将视觉识别功能集成到联合推理过程中。
访问:网页链接
▪️ Multimodal-CoT,语言模型中的多模态思维链推理(2302.00923),两阶段框架将理论生成与答案预测分离开来,让模型能够使用多模态输入更有效地进行推理。
访问:网页链接
▪️ Graph-of-Thought (GoT),超越思维链,大型语言模型中的有效思维图推理(2305.16582)。
这个两阶段框架将推理建模为相互关联的想法图,从而提高了纯文本和多模式任务的性能。
访问:网页链接
▪️ Hypergraph-of-Thought (HoT),思维超图,使用具有跨模态共同注意的文本和视觉超图来模拟高阶多跳推理。
访问:网页链接
原文:网页链接
#ai创造营##程序员##科技#
▪️ KAM-CoT,知识增强多模态思维链推理(2401.12863)。这个轻量级框架将 CoT 提示与知识图谱 (KG) 相结合,准确率达到 93.87%
访问:网页链接
▪️ Multimodal Visualization-of-Thought (MVoT),空间推理中的想象:思维的多模态可视化(2501.07542)。让模型生成视觉推理轨迹,使用 token 差异损失来提高视觉质量。
访问:网页链接
▪️ Compositional CoT (CCoT)
大型多模态模型的组合思维链提示(2311.17076),使用 LMM 本身生成的场景图 (SG) 表示来提高合成和通用多模态基准测试的性能。
访问:网页链接
▪️ URSA,理解和验证多模态数学中的思路链推理(2501.04686),将系统 2 风格的思维引入多模态数学推理,使用 3 模块 CoT 数据合成过程,包括 CoT 提炼、轨迹格式重写和格式统一。
访问:网页链接
▪️ MM-Verify:通过思路链验证增强多模态推理(2502.13383),引入了 MM-Verifier 和 MM-Reasoner 的验证机制,实现了用于多模态推理的合成高质量 CoT 数据。
访问:网页链接
▪️ Duty-Distinct CoT (DDCoT),
DDCoT:语言模型中职责不同的思维链提示多模态推理(2310.16436)。将推理职责划分在 LM 和视觉模型之间,将视觉识别功能集成到联合推理过程中。
访问:网页链接
▪️ Multimodal-CoT,语言模型中的多模态思维链推理(2302.00923),两阶段框架将理论生成与答案预测分离开来,让模型能够使用多模态输入更有效地进行推理。
访问:网页链接
▪️ Graph-of-Thought (GoT),超越思维链,大型语言模型中的有效思维图推理(2305.16582)。
这个两阶段框架将推理建模为相互关联的想法图,从而提高了纯文本和多模式任务的性能。
访问:网页链接
▪️ Hypergraph-of-Thought (HoT),思维超图,使用具有跨模态共同注意的文本和视觉超图来模拟高阶多跳推理。
访问:网页链接
原文:网页链接
#ai创造营##程序员##科技#