本文提出一种名为“前缀共享”的简单但有效的技术,通过巧妙地组合和掩码处理选择的和被拒绝的回复,显著提高了直接偏好优化 (DPO) 的训练效率,尤其在长提示词场景下,实现了高达1.5倍的训练吞吐量提升,并通过与序列打包的结合进一步提升了效率,该成果具有广泛的适用性和可扩展性。 [LG]《Accelerating Direct Preference Optimization with Prefix Sharing》F Wang, S Hegde [MIT CSAIL & Anyscale] (2024) 网页链接 #机器学习##人工智能##论文#