中文大模型语料数据集 Top 8,2026 训练高质量中文模型必备

Q: 训练一个中文大模型大致需要多少 tokens

业界经验 几十亿到上百亿参数的模型通常需要数 T 的训练 tokens 才有竞争力 中文场景下中文 tokens 占比建议较高。具体每家配方差异很大 以各家技术报告为准。

Q: 这些数据集足够训练对标 GPT 旗舰的中文模型吗

不足够。GPT 旗舰的训练数据量远超公开开源数据集合 且包含大量人类反馈强化学习数据。要追旗舰需要专有数据 如人类指令对 专业领域数据 合成数据增强。

Q: 中文语料怎么处理繁简转换

主流做法是统一为简体。OpenCC 是事实标准工具。大批量转换适合在预处理阶段一次性完成。或者训练时让模型同时学习简繁 模型自动适配。

Q: 商用项目用开源中文数据集要注意什么

三个法律风险点。原始网页可能有版权 许可证传递问题 数据集可能包含个人信息。建议商用前找法务审一次。

Q: 怎么判断一个数据集适不适合我的任务

三步评估法。看域名和主题分布 用很小的子集做 small scale 预训练或微调看下游任务是否提升 看其他用过该数据集的项目效果。

🌐 Read in English

📅 2026-05-18 11:17:59 👤 抖文编辑部 💬 7 条评论 👁 13

2026 年大模型的核心竞争力已经从参数规模转向语料质量。同样的训练算法用高质量中文语料训练出的模型,在中文场景表现远超用翻译数据训练的版本。但中文互联网公开高质量语料相对匮乏,搜集和清洗是技术难点。本文盘点 2026 年值得关注的几个开放或半开放中文数据集,讲清来源、特征、获取方式。本文不引各家数据集的精确 token 数和体积,以官方页面为准。

中文语料的难点为什么和英文不一样

中文语料获取比英文困难,有 4 个原因。

第一,公开网页量整体偏少。Common Crawl 中英文占比悬殊,中文占比远低于英文。直接爬中文网站还受限于反爬虫和合规问题。

第二,高质量内容集中在闭源平台。微信公众号、知乎、小红书、抖音的优质内容大量存在,但开放接口受限。

第三,传统出版物数字化滞后。中文图书电子化率明显低于英文,中国国家图书馆数字化项目进度也相对缓慢。

第四,清洗成本高。中文分词、繁简转换、口语和书面语切换都增加预处理难度,同样规模的清洗工作中文比英文更费算力。

这些原因导致 2026 年中文大模型公司只能要么自己爬要么花钱买,而开源数据集是最经济的起步点。

WuDaoCorpora 北京智源的旗舰

WuDaoCorpora 是北京智源人工智能研究院发布的中文语料库,持续迭代多个版本。

来源构成:百度百科、知乎精选问答、官媒新闻、文学网站节选、学术论文摘要等。中文占比高,英文为辅助。

特征:文本长度均匀分布,从短句到长文都有。清洗过滤了广告、重复内容、低质短文本。每条数据带来源域名和时间戳。

获取:智源官网申请,学术用户免费,商业用户需要签授权。

适用场景:预训练通用基础模型。WuDaoCorpora 是国内 GLM、ChatGLM 等系列的核心训练数据之一。

OpenCSG 数据社区聚合的开放语料

OpenCSG 是国内崛起的"中国版 Hugging Face",聚合了大量数据集。

来源构成:包括 ChineseWebText 系列、Chinese Fineweb、Wikipedia 中文版,以及医学、法律、金融等专业领域的垂直语料。

特征:社区化运营,每个数据集都有质量评分和下载量统计。许多数据集附带 token 数、文档数、平均长度等元信息,方便预训练算力评估。

获取:opencsg.com 注册账号免费下载大部分,大规模商用按官方价目表为准。

适用场景:寻找特定领域中文语料的首选平台之一。

SkyPile Skywork 开放的大规模网页语料

SkyPile 是 Skywork 团队开源的中文网页语料,持续扩规模。

来源构成:基本来自公开网页爬取,Skywork 自有爬虫抓取大量中文站点,去广告、去重、过滤后保留。

特征:包括新闻、博客、论坛、电商商品描述、知识库,多样性高但质量参差。Skywork 提供了质量评分字段方便用户筛选。

获取:Hugging Face 上完全开源,Apache 2.0 协议。

适用场景:中文大模型预训练阶段的低成本起步。如果预算紧没钱买高质数据,SkyPile 是较便宜的入门方案。

不足:质量整体不如经人工清洗的语料库,需要二次清洗;新闻类内容存在版权风险,使用时要谨慎。

ChineseWebText 中科院的精选

ChineseWebText 是中科院自动化所发布的中文网页语料。

来源构成:来自 Common Crawl 中文部分加自有爬取补充。

特征:区分了多个质量级别,每篇打分。研究表明,高质量级别数据训出来的模型在中文评测上比混合数据更强。

获取:智源镜像和 Hugging Face 同步,Apache 2.0。

适用场景:教学和研究为主。ChineseWebText 的质量分级是研究语料质量与模型表现关系的好材料。

Chinese Fineweb 复刻 Fineweb 思路的中文版

Fineweb 是 Hugging Face 开源的英文高质量语料。Chinese Fineweb 是中文社区参考其思路推出的复刻品。

来源构成:基于 Common Crawl 多个 snapshots,清洗方法借鉴 Fineweb 的 C4 加去重流水线。

特征:重复内容删除较干净,长文偏多,short snippets 较少,适合训练长上下文模型。

获取:Hugging Face 上对应仓库,免费开源。

适用场景:Fineweb-Edu 风格的精选学术内容,和 SkyPile 互补——前者主打深度长文,后者主打覆盖广度。

CCI 系列智源高质量中文指令微调

CCI 是智源发布的中文指令数据集,持续迭代。

构成:涵盖问答、写作、改写、推理、代码、数学等任务,每条数据是人工或半人工标注的"指令加输出"对。

特征:比早期 Alpaca-Chinese 等数据集质量高一档,因为做了人工 review 和反向翻译验证;指令长度均匀。

获取:BAAI 官网申请,部分子集 Hugging Face 公开,学术免费。

适用场景:SFT 微调阶段。如果你已经预训练好基础模型,要做 instruction tuning,CCI 是国内较强的开放数据集之一。

MOSS Chinese 指令复旦的开放尝试

MOSS 是复旦大学发布的中文聊天模型,同时开源了它的指令数据。

构成:包含多轮对话样本,覆盖角色扮演、知识问答、工具使用等场景。

特征:多轮对话占比高,适合训练 chat 模型而非纯指令 follower。质量略低于 CCI 但开源协议宽松,商用友好。

获取:GitHub 上 OpenLMLab/MOSS 仓库,Hugging Face 镜像。

适用场景:商用 chat 模型的指令微调起步数据,开源协议宽松是优势。

CMMLU 和 C-Eval 中文评测数据集

虽然不是训练数据,但 CMMLU 和 C-Eval 是 2026 年中文模型必跑的评测基准。

CMMLU 覆盖中文学科广泛,包含人文、社科、理工、医学、法律等学科的选择题。

C-Eval 由清华团队发布,覆盖中等以上学历的考试题为主的多个学科。

获取:两者都在 Hugging Face 完全开源。

价值:判断中文模型质量的标尺,所有发布的中文模型都会公布两者的分数。

数据集的简单对比

质量整体排名(经验)。WuDaoCorpora、CCI 等人工清洗或标注的语料质量最高;Chinese Fineweb 去重严,质量也较高;ChineseWebText 中高(有分级);OpenCSG 集合质量参差,取决于具体数据集;SkyPile 中低,Web 爬取为主;MOSS 偏中,早期标注。

商用许可。SkyPile、Chinese Fineweb、MOSS 完全开源商用友好;WuDaoCorpora 和 CCI 需要授权;ChineseWebText 学术宽松,商用谨慎;CMMLU、C-Eval 评测用免费。

适合阶段:预训练用 WuDaoCorpora、SkyPile、Chinese Fineweb、ChineseWebText 为主力;SFT 用 CCI、MOSS 为主力;评测必跑 CMMLU 和 C-Eval。

自己搜集中文语料的实战建议

如果开放数据不够,自己爬要注意 4 件事。

第一,选合规来源。维基百科中文版完全开源,微博公开 API 有限度,知乎公开问答可爬但要尊重 robots.txt;商业平台如微信、抖音不可商业爬取。

第二,多样化。不要只爬一个领域,把新闻、论坛、百科、文学、长文按合理比例混合,模型泛化能力最强。

第三,严格去重。MinHash 或 SimHash 去近重,文档级去重比段落级有效。重复数据训出的模型会过拟合特定表达方式。

第四,质量评分。用一个小的分类模型给每篇打质量分,只用高质量子集训练。研究表明,同等算力下高质子集训练效果优于全量。

常见问题 FAQ

训练一个中文大模型大致需要多少 tokens

业界经验,几十亿到上百亿参数的模型通常需要数 T 的训练 tokens 才有竞争力,中文场景下中文 tokens 占比建议较高。具体每家配方差异很大,以各家技术报告为准。开源数据集合理拼合通常能覆盖中等规模模型一轮训练的需求,商用大厂的训练规模会更大。

这些数据集足够训练对标 GPT 旗舰的中文模型吗

不足够。GPT 旗舰的训练数据量远超公开开源数据集合,且包含大量人类反馈强化学习数据。仅靠开源数据训练的中文模型上限通常低于商用旗舰,要追旗舰需要专有数据,如人类指令对、专业领域数据、合成数据增强。这也是国内大厂愿意花钱建数据团队的原因。

中文语料怎么处理繁简转换

主流做法是统一为简体。OpenCC 是事实标准工具,Python 安装 pip install opencc-python-reimplemented。大批量转换适合在预处理阶段一次性完成。或者训练时让模型同时学习简繁,模型自动适配,但要确保某一字体占比足够高以避免对应场景表现下降。

商用项目用开源中文数据集要注意什么

三个法律风险点。第一,原始网页可能有版权,Common Crawl 抓取本身合法但二次使用大段文本可能侵权;第二,许可证传递,Apache 2.0 数据 fine-tune 出的模型可以商用,GPL 数据训出的模型必须开源;第三,个人数据,数据集可能包含个人信息,GDPR 和中国个保法都要求脱敏。建议商用前找法务审一次。

怎么判断一个数据集适不适合我的任务

三步评估法。第一,看域名和主题分布,该数据集主要包含什么领域内容,和你的目标场景对齐吗;第二,用很小的子集做 small scale 预训练或微调,看模型在你的下游任务上表现是否提升;第三,看其他用过该数据集的项目效果,如果几个开源模型都用过且公开了评测分数,可以直接对比。

灵感来源:阮一峰《科技爱好者周刊》第 390 期 https://www.ruanyifeng.com/blog/2025/08/weekly-issue-390.html

📝 本文来自抖文 www.douwen.me ，转载请保留出处。

原文链接：https://douwen.me/archives/1063/