首页   

本文提出一种名为“前缀共享”的简单但有效的技术,通过巧妙地组合和-20241103063938

爱可可-爱生活  · AI  · 2 月前

正文

2024-11-03 06:39

本文提出一种名为“前缀共享”的简单但有效的技术,通过巧妙地组合和掩码处理选择的和被拒绝的回复,显著提高了直接偏好优化 (DPO) 的训练效率,尤其在长提示词场景下,实现了高达1.5倍的训练吞吐量提升,并通过与序列打包的结合进一步提升了效率,该成果具有广泛的适用性和可扩展性。
[LG]《Accelerating Direct Preference Optimization with Prefix Sharing》F Wang, S Hegde [MIT CSAIL & Anyscale] (2024) 网页链接 #机器学习##人工智能##论文#
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com