自主 Agent / 上下文工程资料

大语言模型高质量数据集汇总(2025.8 更新)

预训练数据集

高质量数据集(有中文)大小特点
IndustryCorpus21TB Chinese / 2.2TB English进行行业分类(31个行业),并对数据质量评级。
Fineweb-Edu-Chinese-V2.1=1.5TBtokens有4.6B Tokens 高质量教育语料
m-a-p/Matrix4.69T tokens训练 MAP-Neo 模型的预训练数据集
Ultra-FineWeben 1T tokens / zh 120B tokens最新的,过滤的更好的数据集
opencsg/chinese-cosmopediazh 60B tokens参考 CosMopedia 创建的中文合成预训练数据集

数据处理工具

SFT 数据集

SFT 数据集大小语言特点
m-a-p/neo_sft_phase2109k中英MAP-Neo SFT 阶段2 Chat 数据,质量不错。
OpenCoder-LLM/opc-sft-stage13.2M中英(中文较少)从多个数据集中过滤和合成而来,有通用指令,更关注代码类数据。
OpenCoder-LLM/opc-sft-stage2436k高质量的代码类数据。
BAAI/Infinity-Instruct7M中英(中文较少)多个尺寸的指令和对话数据。
hfl/ruozhiba_gpt44.9k著名的弱智吧+GPT4回答,对模型的能力有提升。
Mxode/Chinese-Instruct485k从多个数据集中筛选的中文指令数据集,价值较高。
SmolLM Instruct Datasets多个开源数据集。其中自我认知部分值得参考。
Magpie-Qwen2-Pro-200K-Chinese200k使用 MagPie 从 Qwen2-72B 中提取的指令集。
lenML/longwriter-6k-filtered666长文本输出(写作)
THUDM/LongAlign-10k10k中英长文本输入
opencsg/smoltalk-chinese700k参考 SmolTalk 数据集创建的中文数据集
  • Yulan的数据 Recipe 不错,详细说明了其数据来源,可参考。

偏好数据集

偏好数据集大小语言特点
llamafactory/DPO-En-Zh-20k20k中英多个来源整理,质量较高,中英各10k
unalignment-toxic-dpo-v0.2-zh_cn541去除模型安全逻辑
ultrafeedback_binarized187k将 UltraFeedback改成二元偏好的数据集
opencsg/UltraFeedback-chinese58k多个中文资源库中收集了约58k条中文指令,使用DeepSeek V3 评分

推理数据集

推理数据集类型大小语言特点
m-a-p/COIG-WriterSFT914高质量中文创作与思考过程蒸馏数据集
INTELLECT-2-RL-DatasetRL285kRL math/code 数据集带ground_truth
open-thoughts/OpenThoughts3-1.2MSFT1MDeepSeek 蒸馏出的大量数据
Chinese-DeepSeek-R1-Distill-data-110kSFT110k中文的 DeepSeek 蒸馏推理数据集

评测数据集

根据 DeepSeek V3、Qwen3 等最新模型的评测数据集调整而来,选取最新、最流行、最具有代表性的评测数据集。

评测数据集类型大小语言特点
LiveBench综合(偏数学和代码)定时更新的综合评测集,质量较高
AlignBench v1.1多轮对话683中文对齐评测集,需要LLM作为裁判
IFEval指令遵循自动打分
大海捞针长上下文通过插入针的方法评测长上下文能力
Arena-Hard多轮对话Arena 中比较难的问题,需要 LLM 作为裁判
BFCL v3函数调用比较全面的函数调用评测集
MMLU-Redux综合(世界知识)MMLU的增强版本
GPQA-Diamond综合(世界知识、复杂推理)GPQA 中比较难的问题(博士级别)
AIME’24数学推理2024年的AIME数据集
LiveCodeBench v5代码生成定时更新的代码生成评测集
C-Eval综合(世界知识)中文场景下的综合评测集,目前模型多过拟合。
CMMLU综合(世界知识)中文场景下的综合评测集,目前模型多过拟合。
MATH-500数学推理OpenAI 的MATH数据集
AIME’25数学推理2025年的AIME数据
RULER长上下文评测模型上上下文的能力

本文来自

https://github.com/ninehills/blog/blob/gh-pages/articles/129.md

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注