北京发布大模型高质量数据集

《人民日报海外版》（ 2023年07月06日第 09 版）

　　本报电（记者贺勇）首批“北京市人工智能大模型高质量数据集”近日发布，10家单位的18个高质量训练数据集入选，包括人民日报语料数据集、国家法律法规语料数据集、两会参政议政建言数据集、“科情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等，涵盖经济、政治、文化、社会、生态等不同领域，总规模超过500T，将为通用大模型和行业大模型训练提供有力保障。

　　为更好把握这次通用人工智能发展的历史性机遇，近期北京市连续出台了《加快建设具有全球影响力的人工智能创新策源地实施方案》《北京市促进通用人工智能创新发展的若干措施》《北京市通用人工智能产业创新伙伴计划》等多项支持政策，释放明确信号、搭建伙伴平台、聚拢行业资源，助力人工智能技术赋能千行百业数智化转型。

　　目前，针对大模型训练的高质量中文语料占比较少，不利于中文语境表达及产业应用。为此，北京启动实施“通用人工智能产业创新伙伴计划”，其中一个重要领域就是针对大模型训练所需的高质量数据，发挥数据提供方海量数据资源优势，基于数据交易方搭建的流通交易平台和数据服务方的技术支撑，实现训练数据的有效供给及合规高效、安全有序的流动。