FineMath:精心打造的数学教育内容数据集。
包含了两个版本:
- 基础版(FineMath-3+):34B tokens的核心数学教育内容
- 增强版(FineMath-3+ with InfiMM-WebMath-3+):54B tokens的扩展内容
数据是如何筛选出来的?这里用了个巧妙的方法:先用LLama-3.1-70B-Instruct这个大模型来标注数据,然后训练了一个专门的数学内容分类器。这个分类器就像一位经验丰富的数学老师,它的任务是从海量的CommonCrawl数据中“挑选”出最适合教学的内容。
重点关注两个方面:
1. 清晰的数学概念解释
2. 详细的解题步骤说明
值得一提的是,制作方有意识地避开了晦涩的学术论文,而是专注于真正对学习者有帮助的教育内容。这让FineMath成为了一个面向实际教学需求的实用数据集。
简单说,这就是一个“把复杂的数学变简单”的数据集。
网页链接
#人工智能##AI创造营#
包含了两个版本:
- 基础版(FineMath-3+):34B tokens的核心数学教育内容
- 增强版(FineMath-3+ with InfiMM-WebMath-3+):54B tokens的扩展内容
数据是如何筛选出来的?这里用了个巧妙的方法:先用LLama-3.1-70B-Instruct这个大模型来标注数据,然后训练了一个专门的数学内容分类器。这个分类器就像一位经验丰富的数学老师,它的任务是从海量的CommonCrawl数据中“挑选”出最适合教学的内容。
重点关注两个方面:
1. 清晰的数学概念解释
2. 详细的解题步骤说明
值得一提的是,制作方有意识地避开了晦涩的学术论文,而是专注于真正对学习者有帮助的教育内容。这让FineMath成为了一个面向实际教学需求的实用数据集。
简单说,这就是一个“把复杂的数学变简单”的数据集。
网页链接
#人工智能##AI创造营#