摘要:情感分析作为“新华睿思”大数据平台的技术产品,秉承新华网集成创新理念,融合先进技术方法,兼顾算法算力,有效实现了情感分析技术方法的跨领域应用,较好解决了舆情、政务及行业大数据领域的情感分析应用问题。
关键词:情感分析 新华睿思 大数据
所谓AI中台,指的是基于分布式计算、深度学习等构建的,旨在为舆情、媒体、汽车等垂直领域打造的数据挖掘和分析建模平台。情感分析作为AI中台计算引擎的重要组成部分,主要为了明晰海量短文本(微博博文、论坛回帖等)和长文本(网站新闻、微信文章等)的褒贬倾向性。当下,很多情感分析算法模型在实际应用中难以达到令人满意的效果。
新华网自主研发的“新华睿思”品牌大数据产品矩阵,以舆情、媒体、汽车、旅游、快消等垂直领域的大数据业务为核心,充分应用云计算、机器学习、深度学习、知识图谱等先进技术,并辅以日增亿条和总量千亿级别的数据,提供睿思·舆情、睿思·数媒、睿思·企维、睿思·自媒体、睿思·汽车、睿思·文旅等全方位的产品服务。“新华睿思”AI中台作为三大中台(新华睿思数据中台、新华睿思AI中台,新华睿思指标中台)之一,主要提供大数据AI计算引擎,已集成上百种自主研发的数据挖掘及分析模型,形成具备行业领先水平的技术体系。因此,“新华睿思”AI中台的情感分析计算引擎,在技术选择上必须兼顾算法效率和效果。效率上,要满足日正亿级规模数据处理时效性的要求;效果上,要满足跨领域的短文本和长文本内容的情感分析需求,并具有一定灵活性,以满足不断变化的业务需要。
情感分析常用算法模型分类
从算法模型的角度来看,中文情感分析可以划分为三大类:一是基于情感词典或基于规则的方法;二是基于机器学习的方法,如决策树、贝叶斯、最大熵、SVM等;三是基于深度学习的方法,如LSTM、Bi-LSTM、CNN、GRU等。
基于词典的情感分析方法处理流程包括文本预处理、分词、训练情感词典、判断。这种方法的情感极性预测结果的好坏,高度依赖词典的创建和规则的设计,且无法解决词语语序问题,即一个句子里相同词语的不同组合,不同语气都会带来不同情感。
基于机器学习的情感分析法主要分为两类:监督和非监督学习。无论是监督学习还是非监督学习方法,特征工程都非常重要,因此,这两类方法也都依赖于选择和提取用于情感分析的适当特征集。常用的算法有支持向量机SVM和贝叶斯算法,机器学习方法的处理流程为样本处理、分词、提取特征、特征选择、分类模型、识别结果。
深度神经网络反向传播算法的提出,以及互联网的爆炸式发展和计算机算力的大幅提高,使得人们对语言学知识和有限标注数据的依赖逐渐降低,从自然语言处理领域迈入深度学习时代。与机器学习不同,深度学习模型不依赖于特征提取器,基于互联网海量数据,并结合深度神经网络的强大拟合能力,可以轻松学习到更深层次的语义信息。在情感分析上,深度学习模型的预测准确度更高。
从处理内容的长短上看,中文情感分析可以分为短文本情感分析和长文本情感分析两种,前者主要处理评论、微博等用户生成内容,后者主要处理新闻、微信等包含多主题多观点的内容。
短文本情感分析,也称评论褒贬分析、观点分析等,相关技术研究及应用较为广泛,从最初“词库+规则”的方法到机器学习方法,再到最新的“端-端”的深度学习方法,算法复杂度逐渐增加,预测效果也取得很大进步,尤其在特定领域应用方面。但在“新华睿思”大数据平台业务应用中,难以通过模型简单的迁移同时满足海量数据处理的时效性和与领域无关的情感分析预测。
长文本情感分析,尤其是针对新闻报道的研究相对较少,2019年中国计算机学会发起“互联网新闻情感分析”竞赛任务,针对提供的新闻数据进行情感极性分类。其中,正面情绪对应0,中性情绪对应1,负面情绪对应2。整个训练语料集只有7000多条新闻文本,覆盖领域较少,在实际业务中应用效果并不好。在“新华睿思”大数据平台应用中,需要解决日增百万级互联网新闻数据的情感极性计算,因为涉及跨领域应用,语言模型和情感极性分类模型更复杂,仅通过少量的标注数据,无法达到较好应用效果。
情感分析在“新华睿思”AI中台的应用
“新华睿思”作为新华网大数据核心业务,融合全域数据资源、新一代大数据智能分析技术,致力于提供领先级、专业性、全产业、全生态的大数据综合服务及解决方案。情感分析技术作为大数据智能分析技术体系的重要组成部分,需要为舆情、汽车、文旅等大数据业务提供快速精准的褒贬情感计算服务产品。因此,从算法算力上都对文本情感分析挖掘算法提出了很高要求。在深入分析大数据、机器学习、深度学习等相关技术基础上,“新华睿思”以“大数据+深度学习”技术,创新实现了算法和算力的有机结合。
情感分析计算引擎总体框架。以“大数据+深度学习”实现的情感挖掘分析计算引擎,是“新华睿思平台大数据智能挖掘分析系统”的组成部分之一,架构上遵循“分布式计算+微服务”设计理念,充分融合大数据、深度学习等先进技术方法,在实现业务各个处理环节松耦合的同时,能够满足同步和异步调优的业务需求,不仅实现了海量文本情感极性的精准预测,而且大大降低了单个业务系统升级维护的复杂性。
如图1所示,情感分析系统架构在Spark、Hadoop、Kafka和Zookeeper等大数据分布式并行平台之上,多端应用通过Web代理实现与情感分析计算服务的交互。其中,Spark Streaming通过设定时间窗口,监控计算任务并调度执行,可以实现海量数据的实时批处理。HDFS文件系统保证了大任务文件传输的稳定性,能有效避免临时存储的单点故障问题。Kafka分布式消息系统能够为系统间的数据交互提供灵活高效的方式。Web代理采用Spring Cloud微服务架构,不仅能够灵活适配多端应用,而且降低了升级维护的复杂性。
情感分析计算服务。情感分析计算服务的处理流程划分为两个阶段,情感分析模型训练和情感极性预测。情感分析模型训练主要在训练集上实现模型训练和调优,情感极性预测通过Spark流批处理框架实现基于深度学习的计算服务,实现对海量数据实时批量的极性预测。
如图2所示,在模型离线训练阶段,需要将获取到的新闻、微博、购物、影评等不同来源的数据,通过数据清理过程,处理成一致的训练语料,供模型训练使用,针对新闻长文本和微博、评论等短文本的不同特点,采用不同深度学习模型进行模型训练,以适应不同类型文本极性预测的不同需求。模型训练是一个反复操作以寻找超参的过程,需要人机交互不断优化,因此,在系统设计上,将该部分独立出来。
极性预测阶段的融合大数据和深度学习技术,整体包括任务监控、模型选择和极性预测。任务监控,通过Spark Streaming实现,运用流批处理方式,避免了每次Spark任务提交的初始化操作,提高了整体处理的时效性;模型选择,针对新闻长文本和微博短文本,动态选择不同处理分支和处理规则,以达到最佳预测效果;极性预测,通过调用训练好的情感分析模型,实现对新文本数据情感极性预测。实际上,Spark首先构建极性预测的DAG图;其次,依据Shuffle操作,将DAG图分解成若干Stage;再次,将Taskset发送给Task Scheduler;最后,由任务调度器将任务发送给Executor运行。每个阶段的任务都可以并行执行,可充分利用计算资源,有效提高任务处理效率。
情感分析应用。情感分析计算服务已经集成到“新华睿思”AI中台,每天处理新闻、微博、微信、APP、平媒、论坛等数据近亿条,为新华大数据产品提供情感极性计算服务,进而帮助政企用户及时了解网民的情感倾向,服务于市场研判和政策制定。
如图3所示,新华睿思已形成丰富的产品矩阵,覆盖从传统舆情监测领域到汽车、文旅等行业细分领域。
睿思·舆情:针对政企用户日常舆情、重大突发事件等需求提供大数据监测、分析服务,助力政府部门提升网络空间治理能力,为企业智慧决策提供有力依据。
睿思·数媒:针对媒体行业内容生产的选题策划、线索发现、素材采集、传播效果评估、多终端运营分析等,建立数据驱动下的策采编发全链条联动技术体系,助力新闻生产机制优化。
睿思·企维:为企业提供大数据视角下的全景分析评估服务,聚焦行业和竞品,量化品牌传播效果,数据赋能,助力企业智慧转型升级。
睿思·汽车:针对大型车企用户,从行业动态、品牌感知度、品牌影响力等多角度切入,用大数据赋能企业,提供品牌口碑分析、影响力分析,洞察汽车行业现状与发展趋势,助力车企智慧转型升级。
睿思·文旅:针对文旅部门、旅游管理部门、涉旅企业、文化场馆、景区景点等,提供多维度、多角度大数据,深入挖掘分析服务、可视化分析服务、创意策划服务,助力文旅行业用户打造智慧旅游。
结 语
情感分析作为“新华睿思”大数据平台的技术产品,秉承了新华网集成创新的理念,融合先进的技术方法,兼顾算法算力,有效实现了情感分析技术方法的跨领域应用,较好解决了舆情、政务及行业大数据领域的情感分析应用问题。后续将进一步细化新闻长文本情感分析的产品需求,为新闻报道建立精准情感画像。
(作者吴新丽系新华网副总工程师兼大数据中心总经理,赵立永系该中心技术总监,贺亚运系该中心大数据AI算法工程师)
责任编辑:陈利云