微博 微博
微信 微信公众号
简体版|繁体版
支持IPv6
无障碍
当前位置: 首页 > 动态要闻

专家解读 | 推进高质量数据集建设 筑牢数智时代新基座

2025-08-21 11:16     来源: 国家数据局
分享 微信
头条
微博 空间 qq
【字体: 打印

文 | 清华大学人工智能国际治理研究院副院长 梁正

《全国数据资源调查报告(2024年)》显示,2024年我国高质量数据集数量同比增长27.4%,标志高质量数据集建设进入加速期。随着人工智能技术更进一步发展,对高质量数据集的需求缺口必将继续增大。加强优质数据供给,以高质量数据驱动人工智能创新发展变得愈发关键。

明确高质量数据集建设的战略意义

习近平总书记围绕“发挥数据的基础资源作用和创新引擎作用”做过多项重要的战略部署,近日发布的《人工智能全球治理行动计划》《关于深入实施“人工智能+”行动的意见》也对“数据供给”议题予以特别关注。当前正值人工智能引领新一轮科技革命和产业变革的历史性窗口,数据作为新型生产要素的重要作用空前凸显,已经成为推动传统产业转型升级、培育新质生产力的中坚力量,数据领域的新技术、新模式、新业态不断涌现,数据要素对于经济社会发展的乘数效应进一步放大。在此背景下,高质量数据集建设的战略意义已经远超技术与应用层面。

一方面,高质量数据集是构筑国家核心竞争力的关键要素和维护国家安全的重要屏障。掌握高质量、主权可控的优质数据资源,不仅关乎我国是否能在全球数字经济版图占据有利地位,更是直接影响产业链、供应链的韧性与安全。尤其是对于金融、能源、交通、国防等关键领域,高质量数据集的建设与治理更是保障经济社会稳定运行、提升国家治理体系和治理能力现代化的内在要求,是国家安全体系不可或缺的组成部分。

另一方面,高质量数据集是驱动产业深度转型和催生重大科技突破的根本前提。产业应用方面,海量、优质、多样的数据集是人工智能性能跃升的基础。随着人工智能模型不断变“大”,数据供给不足已经成为亟待解决的问题。数据质量更是成为制约人工智能从“可用”向“好用”跨越,更深入赋能实体经济的瓶颈。只有通过建设面向具体场景的高质量数据集,才能真正打通技术落地的“最后一公里”。而在科技创新方面,未来的科学发现愈发依赖数据驱动的研究范式。蕴含深刻领域知识“更聪明”的数据集,是科学家探索、发现新规律的“创新燃料”。

阻碍高质量数据集建设的三重挑战

尽管我国高质量数据集建设已经取得初步进展,但其未来发展仍然面临许多挑战。供给侧层面,结构性矛盾尤为突出。一是当前支撑前沿科研与关键行业应用的中文,以及垂类领域高质量数据集总量不足;二是跨部门、行业和地区的数据标准不统一与互操作性缺失,导致海量异构数据资源整合困难、处理成本高;三是现有数据质量评估大多止于完整性、一致性等基础维度,普遍缺乏对于科学知识内涵与工程指标洞察的深度挖掘能力。所以,很多时候存在“量大质低”现象。

技术底座层面,高质量数据集建设的关键环节存在明显薄弱点。当前的数据加工、处理的自动化水平较低,多依赖传统的人工密集型方式。如此不仅成本高昂、效率低下,倘若标注者自身的学历、能力参差不齐,数据集的实际效用也会大打折扣——这样的情况会在医疗、建筑等专业性较强的领域尤为突出。面向复杂场景的数据合成、数据蒸馏等关键技术有待突破,尽管部分算法具备自主性的学习能力,但在很大程度上仍需要人来引导,难以规模化生产专业领域所需的“高质量”数据。更为关键的一点是,目前各个行业普遍缺乏广泛认可的高质量数据集评估标准、认证体系以及配套工具链。这不仅使数据价值难被客观、科学地度量,更使高质量数据集建设的目标定位变得模糊,进而,导致“为数据而数据”的本末倒置行为出现。

管理机制层面,高质量数据集建设的系统规划与协同能力仍有不足。一方面,从原始资源到高质量数据集的转化路径缺乏清晰的实施框架。因此,部分高质量数据集的建设呈现一定程度的碎片化、形式化。另一方面,跨部门、跨行业的协同机制缺位,致使难以汇聚资源合力,引起重复建设与资源分散问题。此外,由于数据要素本身兼具商业价值与社会价值,权属界定、利益分配等机制不明本身即对高质量数据集建设造成制度性阻碍。

推进高质量数据集建设的实施路径

首先,要尽快完善针对数据集质量的评价体系。针对通识类、行业通用类、行业专用类数据集制定分级分类标准与质量评估、认证体系,确保数据集质量能够符合应用场景的真实需求。特别是对于行业专用类数据集的质量评估、认证,需要紧密切合场景需求进行专门设计,避免简单追求所谓的完整性、一致性、正确性。此举将为各个参与方提供清晰的指引,并确保数据集建设的合规性、安全性与可用性。其次,要坚持场景驱动与示范先行的策略。聚焦工业、农业、医疗、金融等数据密集且有明确需求的重点行业,基此开展试点示范工程。通过将该行业的高质量数据集建设成果与具体业务产品紧密结合,以点带面形成可复制、可推广的成功模式。再者,要深化人工智能技术的应用。逐步推进数据清洗、标注直至质量评估实现全流程智能化,保障数据完整性、一致性、可用性的同时,大幅提高效率、降低成本。面对冷门学科等“低资源”场景,则更应当发挥人工智能用于数据合成、数据增强方面的独特优势,补齐数据多样性短板。最后,要大力建设开源与多方协同平台。借助开源机制汇聚集体智慧、打破“数据孤岛”,提升数据集的规模与质量。

为进一步确保我国高质量数据集建设的有效推进,还须同步构建三位一体的支撑体系。一是资源支持上,应设立国家人工智能数据集专项基金。加大对于数据合成、隐私计算等关键共性技术的研发支持,建设国家级的数据技术“测试场”与中试基地,加速新兴技术的验证、转化与应用推广。二是能力建设上,应高度重视跨学科人才的培养。尤其是注重吸纳应用场景的相关专家,为数据集价值评估和治理提供全面的视角。此外,还应积极推动国际交流。借鉴全球先进经验,参与国际数据治理规则制定。三是保障措施上,应建立明确的目标分解与责任机制。其一,需要统筹协调,避免重复建设与资源分散等问题。其二,需要通过常态化的效果评估与优化机制确保高质量数据集建设工作能够持续、稳定推进。其三,需要加快数据权属、数据合规等制度建设。明确相关主体的权利与义务,保障数据能在稳定、可预期的框架之内得到高效的流通利用。

文件下载:

关联文件:

简体  |  繁体
智能问答
微博
微信

专家解读 | 推进高质量数据集建设 筑牢数智时代新基座

2025-08-21 11:16     来源: 国家数据局
分享 微信
头条
微博 空间 qq
【字体: 打印

文 | 清华大学人工智能国际治理研究院副院长 梁正

《全国数据资源调查报告(2024年)》显示,2024年我国高质量数据集数量同比增长27.4%,标志高质量数据集建设进入加速期。随着人工智能技术更进一步发展,对高质量数据集的需求缺口必将继续增大。加强优质数据供给,以高质量数据驱动人工智能创新发展变得愈发关键。

明确高质量数据集建设的战略意义

习近平总书记围绕“发挥数据的基础资源作用和创新引擎作用”做过多项重要的战略部署,近日发布的《人工智能全球治理行动计划》《关于深入实施“人工智能+”行动的意见》也对“数据供给”议题予以特别关注。当前正值人工智能引领新一轮科技革命和产业变革的历史性窗口,数据作为新型生产要素的重要作用空前凸显,已经成为推动传统产业转型升级、培育新质生产力的中坚力量,数据领域的新技术、新模式、新业态不断涌现,数据要素对于经济社会发展的乘数效应进一步放大。在此背景下,高质量数据集建设的战略意义已经远超技术与应用层面。

一方面,高质量数据集是构筑国家核心竞争力的关键要素和维护国家安全的重要屏障。掌握高质量、主权可控的优质数据资源,不仅关乎我国是否能在全球数字经济版图占据有利地位,更是直接影响产业链、供应链的韧性与安全。尤其是对于金融、能源、交通、国防等关键领域,高质量数据集的建设与治理更是保障经济社会稳定运行、提升国家治理体系和治理能力现代化的内在要求,是国家安全体系不可或缺的组成部分。

另一方面,高质量数据集是驱动产业深度转型和催生重大科技突破的根本前提。产业应用方面,海量、优质、多样的数据集是人工智能性能跃升的基础。随着人工智能模型不断变“大”,数据供给不足已经成为亟待解决的问题。数据质量更是成为制约人工智能从“可用”向“好用”跨越,更深入赋能实体经济的瓶颈。只有通过建设面向具体场景的高质量数据集,才能真正打通技术落地的“最后一公里”。而在科技创新方面,未来的科学发现愈发依赖数据驱动的研究范式。蕴含深刻领域知识“更聪明”的数据集,是科学家探索、发现新规律的“创新燃料”。

阻碍高质量数据集建设的三重挑战

尽管我国高质量数据集建设已经取得初步进展,但其未来发展仍然面临许多挑战。供给侧层面,结构性矛盾尤为突出。一是当前支撑前沿科研与关键行业应用的中文,以及垂类领域高质量数据集总量不足;二是跨部门、行业和地区的数据标准不统一与互操作性缺失,导致海量异构数据资源整合困难、处理成本高;三是现有数据质量评估大多止于完整性、一致性等基础维度,普遍缺乏对于科学知识内涵与工程指标洞察的深度挖掘能力。所以,很多时候存在“量大质低”现象。

技术底座层面,高质量数据集建设的关键环节存在明显薄弱点。当前的数据加工、处理的自动化水平较低,多依赖传统的人工密集型方式。如此不仅成本高昂、效率低下,倘若标注者自身的学历、能力参差不齐,数据集的实际效用也会大打折扣——这样的情况会在医疗、建筑等专业性较强的领域尤为突出。面向复杂场景的数据合成、数据蒸馏等关键技术有待突破,尽管部分算法具备自主性的学习能力,但在很大程度上仍需要人来引导,难以规模化生产专业领域所需的“高质量”数据。更为关键的一点是,目前各个行业普遍缺乏广泛认可的高质量数据集评估标准、认证体系以及配套工具链。这不仅使数据价值难被客观、科学地度量,更使高质量数据集建设的目标定位变得模糊,进而,导致“为数据而数据”的本末倒置行为出现。

管理机制层面,高质量数据集建设的系统规划与协同能力仍有不足。一方面,从原始资源到高质量数据集的转化路径缺乏清晰的实施框架。因此,部分高质量数据集的建设呈现一定程度的碎片化、形式化。另一方面,跨部门、跨行业的协同机制缺位,致使难以汇聚资源合力,引起重复建设与资源分散问题。此外,由于数据要素本身兼具商业价值与社会价值,权属界定、利益分配等机制不明本身即对高质量数据集建设造成制度性阻碍。

推进高质量数据集建设的实施路径

首先,要尽快完善针对数据集质量的评价体系。针对通识类、行业通用类、行业专用类数据集制定分级分类标准与质量评估、认证体系,确保数据集质量能够符合应用场景的真实需求。特别是对于行业专用类数据集的质量评估、认证,需要紧密切合场景需求进行专门设计,避免简单追求所谓的完整性、一致性、正确性。此举将为各个参与方提供清晰的指引,并确保数据集建设的合规性、安全性与可用性。其次,要坚持场景驱动与示范先行的策略。聚焦工业、农业、医疗、金融等数据密集且有明确需求的重点行业,基此开展试点示范工程。通过将该行业的高质量数据集建设成果与具体业务产品紧密结合,以点带面形成可复制、可推广的成功模式。再者,要深化人工智能技术的应用。逐步推进数据清洗、标注直至质量评估实现全流程智能化,保障数据完整性、一致性、可用性的同时,大幅提高效率、降低成本。面对冷门学科等“低资源”场景,则更应当发挥人工智能用于数据合成、数据增强方面的独特优势,补齐数据多样性短板。最后,要大力建设开源与多方协同平台。借助开源机制汇聚集体智慧、打破“数据孤岛”,提升数据集的规模与质量。

为进一步确保我国高质量数据集建设的有效推进,还须同步构建三位一体的支撑体系。一是资源支持上,应设立国家人工智能数据集专项基金。加大对于数据合成、隐私计算等关键共性技术的研发支持,建设国家级的数据技术“测试场”与中试基地,加速新兴技术的验证、转化与应用推广。二是能力建设上,应高度重视跨学科人才的培养。尤其是注重吸纳应用场景的相关专家,为数据集价值评估和治理提供全面的视角。此外,还应积极推动国际交流。借鉴全球先进经验,参与国际数据治理规则制定。三是保障措施上,应建立明确的目标分解与责任机制。其一,需要统筹协调,避免重复建设与资源分散等问题。其二,需要通过常态化的效果评估与优化机制确保高质量数据集建设工作能够持续、稳定推进。其三,需要加快数据权属、数据合规等制度建设。明确相关主体的权利与义务,保障数据能在稳定、可预期的框架之内得到高效的流通利用。

文件下载:

关联文件: