第10版:科技

中国城市报 2025年03月17日 星期一

返回目录    放大 缩小 全文复制        下一篇

加强语料数据应用  赋能未来产业发展

■中国城市报记者 王 迪 《中国城市报》(2025年03月17日 第 10 版)

  名词解释

  语料数据(Corpus Data)

  是指用于训练、测试和优化自然语言处理(NLP)模型或人工智能系统的一系列文本或语言数据。这些数据通常以文本形式存在,包括但不限于书籍、文章、新闻报道、对话记录、社交媒体内容、专业文献等。对于大语言模型(LLMs)的训练和优化而言,语料数据是自然语言处理和人工智能领域中不可或缺的基础资源。

  前不久,国产人工智能大模型DeepSeek以其广博的知识储备和快速的思考应答能力火爆“出圈”。作为其训练的基础与关键“燃料”,语料数据也走入公众视野,成为多领域热议的话题。

  在2月下旬于上海举办的2025全球开发者先锋大会上,业界针对大模型语料展开深度布局,不仅发布2025语料风云榜招募令,还启动了具身智能语料专项工程,成立了语料工作委员会。

  随着“大模型时代”的到来,如何进一步加强语料数据应用?未来产业相关企业如何突破发展瓶颈,加快语料库建设?

  场景应用

  贴合本土文化特征

  “如何能够让外语模型在交互过程中更好地展示中国的流行式表达?若借助常见的GPT-4大模型将‘上海City不City?’翻译成外语,易出现‘上海是一座城市还是一座城市?’的直译,缺少语句在实际运用中所传递出的时尚感和趣味性。而在我们最新开发的‘万卷·丝路’多语言语料库的助力下,通过对中国语义进行保真和本地化处理,在翻译时注重传递出‘City’作为一种流行热词所包含的时尚生活方式和氛围。”上海人工智能创新中心场景与数据联盟合作中心负责人王宇介绍,“万卷·丝路”是一款围绕高质量共建“一带一路”专门打造的多语种语料库,首期开源了包含泰语、俄语、阿拉伯语、韩语、越南语5个语种的语料,总规模超1.2TB(单语种均超过150GB),涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据,收集了多国网络公开信息、文献、专利等资料。

  除了常规翻译的应用,“万卷·丝路”语料库在文旅场景下也有精彩表现。例如,多语言的支持能够满足不同语言背景游客的需求,提升他们的跨文化交流体验。此外,该语料库还通过专家人工标注和数据智能处理,建立了包含7个维度的文本数据质量评估体系,确保数据的完整性、有效性、可理解性、流畅性、相关性、相似性和安全性。这种高质量的语料可以用于训练智能导览系统,为游客提供精准、流畅的语音导览及信息查询服务,并向游客讲述更多景点背后的历史故事,展示丰富的人文内涵。

  中国信息通信研究院华东分院院长廖运发对中国城市报记者表示,当前语料应用集中在通用服务、垂直行业与前沿探索三大领域。其中,通用服务以智能客服、内容生成为主,如百度“文心一言”依托搜索引擎语料优化问答体验。而在垂直行业中,金融、医疗、教育是重点。例如,财跃星辰的大模型通过高量级的金融语料训练,已实现智能投研与风险预警。前沿探索则包括自动驾驶的视觉语料训练、元宇宙的多模态内容生成等。

  廖运发称,国产大模型的语料应用特点可概括为“本土适配”与“政策驱动”。一方面,国产大模型注重融入主流媒体、古籍文献等中式价值观语料,进一步契合本土用户的文化认知。另一方面,政策引导推动语料向合规与安全倾斜。例如,《生成式人工智能服务管理暂行办法》要求训练数据需符合社会主义核心价值观,促使企业优先采用经过审核的语料。

  “要加强对各类场景需求的了解和挖掘,才能更好推动语料数据的实际应用。在大模型训练过程中,需要结合诸如外事、‘出海’等具体场景,对语料数据的需求进行价值挖掘。”王宇说。

  搭平台、育人才

  加速构建产业生态

  在语料应用如火如荼开展的同时,语料产业生态也在加速构建。

  去年12月召开的中央经济工作会议提出,要开展“人工智能+”行动,培育未来产业。

  上海市经济和信息化委员会副主任张宏韬表示,上海积极落实国家战略任务,加快建设人工智能“上海高地”。在顶层设计方面,瞄准技术前沿、坚持应用牵引,实施“模塑申城”行动方案,建设智能算力集群、语料供给体系、虚实融合实训场以及行业基座大模型等基础“底座”。在示范平台方面,依托公共算力平台,建设带动产业链协同发展。依托上海仪电(集团)有限公司、上海库帕思科技有限公司(以下简称库帕思)等企业,建设市级智能算力公共服务平台、语料公共服务平台,提升规模化先进算力调度和供给能力,打造大模型语料的“超级工厂”。

  创新是引领发展的第一动力,而人才则是创新的主体。作为一家专注于语料服务的公司,库帕思格外注重招募和培养语料行业人才。库帕思CEO黄海清在接受中国城市报记者采访时称,无论是人工智能公司还是大模型公司,其最核心的资产就是人才。“在人才培养方面,我们最关心的是如何能让年轻人快速成长与发展,提升技术技能。为此,我们提出了‘聪明地工作、努力地工作、开心地工作’理念。打造活泼、开放的企业氛围及文化。”黄海清说。

  多层面发力

  破解语料库建设难题

  大规模、高质量的语料数据能够显著提升大模型的理解、生成和推理能力。而有业内人士认为,高质量语言数据或将在2027年内被消耗殆尽。此外,当前主流大模型的训练大多基于英文语料,极大影响了国产大模型的性能提升和泛化推广。基于这些因素考虑,建设高质量中文语料库成为当务之急。

  廖运发分析,当前中文语料库建设面临多重挑战,核心问题可归纳为规模、质量、结构和生态4个维度。一是数据规模与多样性不足。尽管中文互联网内容庞大,但全球高质量语料库中中文占比不足5%,且通用语料多、垂直领域语料少。二是数据质量参差不齐。现有中文语料存在大量未经清洗的噪声数据,如错别字、语法错误甚至价值观偏差内容,直接影响模型输出的准确性和可靠性。三是标准化与共享机制缺失。国内语料库标注标准不统一,元数据规范化程度低,导致不同机构间的语料难以互通,资源重复建设现象严重。四是版权与隐私风险突出。语料收集需平衡知识产权保护与数据利用需求,而现行法律对语料使用的界定模糊,企业创新常因版权争议或隐私合规成本高而受限。

  如何突破建设过程中的障碍?廖运发建议,可从政策引导、技术创新、生态协同三方面发力。政策层面,强化顶层设计,例如设立国家级语料库建设专项基金,支持专业领域语料采集与标注,同时推动数据安全法、个人信息保护法在语料领域的实施细则,明确版权合理使用边界。技术层面,提升智能化处理能力,例如开发自动化清洗工具,降低噪声数据比例,利用半监督学习减少人工标注成本,并通过分布式存储和加密技术保障语料安全。生态层面,构建开放共享机制,可借鉴欧洲语言资源协调机构经验,由权威机构牵头制定元数据标准,推动高校、企业、出版机构共建语料联盟。此外,还可探索“语料银行”商业模式,通过数据确权与交易平台促进语料流通。

  “未来,中文语料库将具备实时更新(从静态学习到动态学习与更新)、精细加工(从源语料到精标语料)、品类丰富(多来源、多模态、多场景)等特点。总体来看,中文语料库建设是AI竞争的战略高地,需以规模扩容、质量提升、生态协同为核心,同时把握多模态与专业化趋势。国产大模型唯有扎根本土语料资源,才能在全球化竞争中凸显差异化优势,为数字经济时代发展提供坚实‘底座’。” 廖运发说。