首页   

【#最新论文或预示DeepSeekR2将近##DeepSeek重-20250407073338

新浪科技  · 科技媒体  · 4 天前

正文

2025-04-07 07:33

#最新论文或预示DeepSeekR2将近##DeepSeek重磅论文或预示R2将近#】4月4日,DeepSeek与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型(Meta Reward Model)两项核心技术,为提升大语言模型(LLM)的推理能力提供了全新方法论。这一成果被视为DeepSeek下一代推理模型R2的重要技术铺垫,引发全球AI界高度关注。(界面新闻)
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com