现在网上关于“高质量数据集“的内容很多,但是什么是高质量数据集,如何测评认定高质量数据集呢?

 TC609-5-2025-04这份行业标准给出了答案,我们来一起学习下。”

首先说说,什么是高质量数据集 ?

经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。

看来就是质量很高,可以直接用于人工智能大模型的训练的数据成品。那么如何测评和认定高质量数据集呢? 该份标准也给出了明确的测评标准:高质量数据集的质量要求应覆盖说明文档数据质量模型应用三个维度的指标:

  • 说明文档:数据集的说明文档应完整,包含基本信息、内容特征、建设过程及应用说明等(就是描述性的元数据);
  • 数据质量:数据集中数据的质量应满足人工智能模型开发和训练的基本要求;
  • 模型应用:数据集应能有效支撑目标人工智能模型的开发和训练。

图片搞好高质量数据集的基础是学好数据管理哈~

说明文档指标要求包括子指标:

a)基本信息完整性:数据集说明文档应包含数据集规模(如样本数量、存储体积等)、格式规范、文件结构、访问渠道、技术支持方式等基本信息;

b) 内容特征完整性:数据集说明文档应包含模态类型、数据分布情况、标签类别统计、样本示例、局限性说明等内容特征;

c) 建设过程完整性:数据集说明文档应包含数据来源、采集方法、加工处理流程、标注规范、版本控制等建设过程;

d) 应用说明完整性:数据集说明文档应包含使用许可、目标应用场景、评估方法、基准测试结果、典型应用案例等应用说明。

数据质量指标要求包括子指标

a) 格式规范性:数据集中数据的格式应符合预定标准,可直接用于人工智能模型开发和训练;

b) 安全规范性:数据集中数据应符合人工智能模型开发和训练的安全要求,不包含违反社会主义核心价值观的内容、歧视性内容、商业违法违规、侵犯他人合法权益等非法内容;

c) 标注规范性:数据集中数据的标注应符合预定的标注规范,遵循预先设定的规范化流程;

d) 结构完整性:数据集中数据应填充完整,不包含缺失值或缺失值应在合理范围内;

e) 内容真实性:数据集中数据真实可追溯。非生成数据能追溯到采集源头,能与采集源头保持一致,不存在未经说明的篡改;生成数据能追溯到生成算法和过程,且能符合目标场景真实数据的分布规律;

f) 内容一致性:数据集中相关联的数据间内容一致,能在语义和表达上保持匹配,包括不同模态数据间的一致性和同模态数据间的一致性

g) 类型一致性:数据集中数据符合其所属数据集类型的要求,通识数据集中数据应蕴含通用知识,行业通识数据集中数据应蕴含行业领域通用知识,行业专识数据集中数据应蕴含行业领域专业知识;

h) 内容干净性:数据集中数据经过严格清洗处理,不包含脏数据。

模型应用指标要求包括子指标

a) 内容多样性:数据集的数据分布全面程度应满足目标应用场景人工智能模型开发和训练的要求;

b) 规模完整性:数据集的规模满足目标应用场景人工智能模型开发和训练的要求;

c) 内容时效性:数据集中数据的采集时间和更新状态满足目标应用场景人工智能模型开发和训练的要求;

d) 标注准确性:数据集中数据的标注能精准标记出目标应用场景人工智能模型开发和训练所需的所有信息;

e) 模型适配性:数据集应能有效提升目标应用场景人工智能模型的性能。

说了这么多,那么评测整体要求如何呢

数据集需要同时满足说明文档指标、数据质量指标和模型应用指标的要求,方可认定为高质量数据集。具体要求为:说明文档指标得分达到 90 分及以上,数据质量指标得分达到 90 分及以上,模型应用指标得分达到 90 分及以上。任一指标不满足要求的数据集不能认定为高质量数据集。

管理知识体系2.0》,《首席数据官管理手册》,《DataOps数据运营手册》,《数据质量管理手册》等多数据领域重量级图书,首次引入了数据管理专业认证CDMP,欢迎广大数据管理同仁加入会员和我们一起专业成长。