6月8日,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《方案》),围绕数据赋能人工智能高质量发展作出全方位、系统性部署,进一步夯实我国人工智能产业发展的数据底座,助力“人工智能+”行动纵深推进。
高质量数据集是人工智能模型训练、技术迭代和场景落地的核心基础资源,更是赋能千行百业智能化转型的关键支撑。此次《方案》的出台,聚焦人工智能产业发展核心需求,立足数据要素供给、流通、应用全链条,精准破解行业优质数据供给不足、适配性不强等痛点,为我国行业数据规范化、高质量、规模化建设划定发展路径。
在基础数据资源建设方面,《方案》明确提出要紧扣人工智能多元化应用场景,持续推进文本、图像、音视频等多模态高质量数据集建设,丰富通用人工智能数据资源储备,为通用大模型能力迭代升级提供坚实数据支撑,补齐通用智能场景数据短板。
同时,《方案》聚焦实体经济与新兴产业发展重点领域,靶向发力推进细分行业数据集建设。重点围绕科学研究、工业制造、低空经济、具身智能等战略性领域,加快打造适配行业特性、贴合产业需求的高质量专属数据集,以精准、专业的行业数据赋能垂直领域人工智能技术落地,推动产业智能化、数字化转型升级。
为激活区域数据创新活力、完善数据集产业生态,《方案》提出引导具备基础条件的地区,结合区域产业特色与资源优势,因地制宜开展数据标注创新试验区建设。通过试点先行、示范引领的方式,探索数据标注新技术、新模式、新机制,持续提升数据精细化加工处理能力,打造可复制、可推广的高质量数据集建设经验,全面夯实人工智能产业发展根基。
下一步,各地各相关部门将对照《方案》部署要求,细化工作举措、强化协同联动,有序推进多模态数据资源积累、重点行业数据集搭建、数据标注试点建设等各项工作,持续完善高质量数据供给体系,推动数据要素与人工智能深度融合,以优质数据赋能技术创新、产业升级,助力我国人工智能产业高质量可持续发展。