本报电 (记者贺勇)首批“北京市人工智能大模型高质量数据集”近日发布,10家单位的18个高质量训练数据集入选,包括人民日报语料数据集、国家法律法规语料数据集、两会参政议政建言数据集、“科情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过500T,将为通用大模型和行业大模型训练提供有力保障。
为更好把握这次通用人工智能发展的历史性机遇,近期北京市连续出台了《加快建设具有全球影响力的人工智能创新策源地实施方案》《北京市促进通用人工智能创新发展的若干措施》《北京市通用人工智能产业创新伙伴计划》等多项支持政策,释放明确信号、搭建伙伴平台、聚拢行业资源,助力人工智能技术赋能千行百业数智化转型。
目前,针对大模型训练的高质量中文语料占比较少,不利于中文语境表达及产业应用。为此,北京启动实施“通用人工智能产业创新伙伴计划”,其中一个重要领域就是针对大模型训练所需的高质量数据,发挥数据提供方海量数据资源优势,基于数据交易方搭建的流通交易平台和数据服务方的技术支撑,实现训练数据的有效供给及合规高效、安全有序的流动。