摘要:大数据时代,技术正在推动出版、报纸、影视等传媒行业的创新和变革,特别是以机器自动化和人工智能为代表的信息技术,正在重塑新闻内容生产的机制和形态。本文将探讨媒体技术革命与模式转型的大背景下,人工智能对媒体形态可能带来的影响,及如何做好政府监管与媒体商业模式上的应对准备。
关键词:机器写作 新闻生产自动化 人工智能 媒体转型
2015年以来,人工智能向媒体领域的渗透越来越快。虽然机器人新闻写作的历史只有10年左右,但目前,美联社、新华社、《纽约时报》等国内外的传媒巨头,都已争相在新闻写作、新闻阅读等领域引入人工智能。它已经不再是一个科学幻想或实验室玩具,而是不断展开大规模应用,并成为变革整个媒体行业生态的临界点。
“机器写作”已形成规模化趋势
2015年11月7日,新华社的机器写作项目“快笔小新”正式推出。“快笔小新”并非实体,在这个拟人化的名字背后,是一个名为“心知机器人新闻系统”的程序系统。它可以对上市公司财报、体育赛事等新闻进行数据采集、数据加工和自动写稿。这是到目前为止,“机器写作”的最新应用。所谓机器写作(Robot Writing),是自动搜集与处理数据,并生成完整的新闻报道的计算机程序的统称。与以往的新闻写作工具不同,在“机器写作”的过程中,人不再是新闻创作的关键要素,新闻生产主体实现了由人向机器的转变。
在新闻报道中,“机器写作”的比例将越来越大,这早已成为行业共识。在此之前,腾讯财经已于去年9月10日发布稿件《8月CPI同比上涨2%创12个月新高》。这条数据新闻由腾讯财经开发的机器写作软件Dreamwriter撰写。Dreamwriter会根据采集到的数据和算法,第一时间自动生成稿件,瞬时输出分析和研判,一分钟内将重要资讯和解读送达用户。
而在国外,类似的应用实现得更早。目前公认最早的机器写作出现于2006年。当时,汤姆森金融公司就已使用电脑程序取代财经记者,自动提取经济数据并撰写金融新闻。2009年,西北大学智能信息实验室的学生和研究人员出开发出了一款名为StatsMonkey的软件,并曾在美国职业棒球大联盟季后赛的较量中,自动编写出了详细的体育报道文章。很多人从中看到了商机。2010年,两名西北大学的教授和一名前网络公司主管合作成立叙述科学公司,并开发出一个名为鹅毛笔(Quill)的机器写作系统,在数千项大大小小的体育赛事中,进行了与比赛近乎实时的报道。
经过持续的发展,近两年来,机器写作已经在金融、证券、统计、天气、体育等数据结构化特征较强的领域付诸应用。比如,《福布斯》杂志已大范围使用叙述科学公司的机器写作程序;俄罗斯Yandex应用机器写作进行天气和交通报道;法国的《世界报》与Syllabs公司合作,通过机器写作报道各地选举情况;美联社使用自动化洞察力公司的机器写作软件Wordsmith平台撰写财报新闻;《洛杉矶时报》用机器写作报道地震新闻和犯罪新闻,等等。
事实上,“机器写作”的规模化应用趋势已经形成。叙述科学公司创始人克里斯蒂安?哈蒙德甚至预测,新闻报道最终将被机器写作主导,甚至份额会“超过90%”。2015年10月20日,自动化洞察力公司的机器写作Wordsmith甚至已经开放公众版本测试,预计今年上半年正式推出。届时,任何用户只需要确定模板和更新数据,都可以利用该平台自动生成文章。
“机器写作”优势日益明显
相对于传统新闻记者,“机器写作”的最大优势在于效率,挑战则在于对数据以外内容的关联性分析。因此,决定“机器写作”能力极限的因素有两个,一个是内容来源,一个是写作逻辑。对于前者来讲,取决于数据量与数据处理能力(比如芯片速度、网络传输速度、内存大小等)。随着计算能力持续提升、网络传输速度不断加快以及信息化应用的广泛普及,整个人类社会已经进入大数据的爆发时代,数据与信息的供应状态不再是紧缺,而是过剩。对于后者来讲,取决于程序的数据分析能力(比如数据重要性、关联度等)与表达能力(比如语法、修辞等)——这一点尤为重要,事实上,它已经成为“机器写作”的发展瓶颈所在。
伴随人工智能发展,除了枯燥的数字和逻辑表达,“机器写作”在拟人化写作的路上越走越远。不过,这些报道依然具有明显的缺陷,例如每一场体育比赛的报道都似曾相识,而且它永远是歌颂胜利者、批评失败者,即使失败者的表现存在亮点。在StatsMonkey的基础上,叙述科学公司的Quill进一步尝试了更多可能。它雇用了一批拥有自己写作风格的记者作为“元写手”,与工程师们一起创造更多的写作风格,“可以是一名神经紧张的财经记者从交易大厅发出的尖叫,也可以是卖弄学问的老学究讲课”,而不是过去永远如出一辙的文字风格。
而近几年来,人工智能与大数据的快速发展,让“机器写作”越来越多样化,在关联数据的整合使用上,更相对于传统记者表现出了越来越强大的优势。比如,《洛杉矶时报》针对当地杀人事件的报道,不但完成了“记录本地区发生的每一起杀人事件”的艰巨任务,而且详细记录了受害者的种族、性别、死因、发现地点等信息。可以预见,这样的压倒性优势,将随着技术的发展而越来越强大。
中文“机器写作”可能落后
值得注意的是,中文新闻的“机器写作”进展,或将大幅度落后于其他国家。当前外界在评价“机器写作”的技术进度时,并没有严格区分不同语言的差异,比如腾讯财经2015年上线的“机器写作”系统,创作的稿件受到外界批评,认为它的水准只相当于国外几年以前。
但实际上并非如此简单。中文的“机器写作”难度,远远大于英文等语言。目前,全世界使用人口超过100万的语言有140多种,其中主要分成三类:词汇汇附着型语言、字母附着型语言以及混合型语言,不同语言之间的语言特点完全不同。在这些语言中,汉语堪称最复杂的语言之一。拉丁语系以有限的字母构成词组,以词组作为最小的语义单位,而汉字则是以融合音、形、义于一体的方块字作为语言的最小单位,因此,汉字的语言中存在大量的多音字、多义字和通假字,尤其是在不同的语言环境下,同一个字或同一个词组,都可能代表数种甚至数十种截然不同的含义。
比如,描述傍晚的美好景色,在不同的环境下,可能用“这天美的要命”的俚语,也可能改用“落霞与孤鹜齐飞”的名句,如果涉及用典、影射等更多复杂的修辞手段时,更有可能发生一字改用语义全非的情况。
更不用说一些更具有特点的语言结构,比如回文诗的变形:“采莲人在绿杨津畔一阙新歌声漱玉”与“采莲人在绿杨津,在绿杨津畔一阙新,一阙新歌声漱玉,歌声漱玉采莲人”。因此,对于中文“机器写作”的开发者而言,不能一味仿效现有的国外技术思路,而是需要根据中文的字音、字形、字义以及语法特点,来进行更具针对性的技术创新。而即使有针对性的技术调整,由于汉语言的复杂性,中国“机器写作”的相对落后也将很难避免。
比记者失业更紧迫的问题
“机器写作”的普及,是否会造成记者的大规模失业或转型,这是传媒行业关心的问题。普遍的看法是,至少在较长一段时间内,由于人工智能的限制,“机器写作”还难以大规模替代专业记者的工作。
从某种意义上来看,在这样一个时期内,“机器写作”反而可以成为记者写稿时的得力助手,甚至将逐渐成为必要性工具。所以,在培育新闻人才的过程中,如何更好地运用甚至开发“机器写作”应用,如何在使用“机器写作”工具的情况下,提升其它能力,应该尽快加入到各所高校的专业课程中来。
同时,更紧迫的一件事,是在政策管理的层面考虑应对。比如版权问题,“机器写作”自动生成的稿件是否具有版权?如果有,应如何界定其拥有者?他人使用是否构成侵权?比如数据管理问题,如何在“机器写作”的信息来源中做好可靠性与丰富性的平衡以及如何保证“机器写作”过程中的安全,也都是网络新闻管理值得研究的课题。
(作者系中国传媒大学新闻传播学部2013级博士研究生)
责任编辑:武艳珍




放大
缩小
全文复制



