国家数据局发文 推进行业高质量数据集建设

2026年06月10日 字数:1284
  近日,国家数据局发布了《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》),旨在明确国内行业数据建设与人工智能融合发展的具体路径。《实施方案》提出,到2028年底,我国将建成一批适配行业应用的高质量数据集,落地一批人工智能创新应用场景,培育一批优质数据企业和专业人才,完善数据集建设工具与行业标准。
  高质量行业数据集是人工智能模型研发、训练的核心基础资源。这类数据经过规范采集和加工,能够有效提升人工智能模型性能,主要分为行业通识数据和行业专业数据两类,是“人工智能+”赋能各行各业落地应用的关键支撑。为充分释放数据价值,《实施方案》围绕数据供给、流通、应用全链条,推出六大专项行动,打造完整的数据应用闭环,形成数据和人工智能协同发展的产业生态。
  当前人工智能技术持续升级,逐步从基础对话向多模态生成、智能决策、具身交互等方向拓展。立足产业发展实际,《实施方案》划定了清晰的数据集建设范围。建设领域既涵盖科研、制造、农业、能源、交通、金融、医疗、教育、城市治理等传统重点行业,也覆盖低空经济、智能驾驶、智慧海洋、生物制造等新兴产业。同时,我国将丰富数据建设类型,统筹推进文本、图像、音视频、点云、科学数据等多模态数据建设,满足人工智能训练、微调、测评等各环节的使用需求。
  数据标注是打造高质量数据集的核心工序,直接影响数据的专业度和使用价值。针对传统人工标注效率低、专业性不足的问题,《实施方案》提出推动数据标注行业转型升级,改变单一人工标注模式,推广人机协同、专家参与的新型标注方式。各地将加快研发智能化标注工具和平台,普及智能预标注、人工校准、机器核验等服务,提升标注效率与精准度。同时建立行业专家认证机制,邀请专业人员参与高精度数据标注,补齐高端行业数据的资源短板。
  为壮大数据标注产业,我国将稳步推进试点建设工作。依托现有首批数据标注试点城市夯实产业基础,同时择优布局一批创新试验区,形成产业集聚效应,重点扶持数据标注领域的龙头企业、独角兽企业和瞪羚企业。在人才培育方面,《实施方案》明确依托高校、职业院校开设相关课程,通过校企合作、职业技能认定等方式,搭建系统化人才培养体系,拓宽就业渠道,吸纳各类从业人员,组建专兼结合的专业化数据标注人才队伍。
  激活数据商业价值是本次《实施方案》的重点内容。《实施方案》鼓励盘活优质数据资源,创新数据集运营和交易模式,支持合规数据集在各类数据交易平台挂牌流通。行业将逐步普及订阅、定制、场景化服务等模式,让数据服务从简单的数据包销售,升级为接口调用、智能解决方案、全链条配套服务。此次政策创新引入词元交易新模式,打造以词元为基础的数据价值标准,真正实现数据价值的量化与定价。
  此外,《实施方案》明确从资金投入和安全管控两方面完善保障体系。各地将引导产业基金、社会资本参与数据建设,鼓励地方设立专项扶持资金,构建多元化投融资体系。同时建立数据全流程安全管理制度,严格遵守数据安全相关法律法规,防范数据污染、数据泄露等风险。在合规可控的前提下,充分释放数据要素活力,为国内人工智能产业高质量发展夯实产业发展数据根基。 记者张茜楠