《新闻战线》概况
日 报周 报杂 志 人民网

大数据时代的新闻报道

● 林 凌 任孚婷 《 新闻战线 》(

    一个大规模生产、分享和应用数据的时代正在开启。在互联网的世界中,人类每天在社交网络、电子商务与移动通信等平台上产生的数据要以“PB”来计数。大数据正在影响人类生活的方方面面。“大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。”①在这样的浪潮之下,新闻业也不可避免地受到冲击。数据新闻,又称数据驱动新闻,是新闻机构应对大数据技术冲击的应对之策。英国的 《卫报》、德国的Zeit Online等新闻媒体纷纷建立了专业的数据新闻机构。但是,目前新闻业的数字化进程仅仅停留在浅层的“如何将新闻报道数字化的呈现”,并没有进行深度的数字化变革。②大数据技术对于新闻业的影响绝不仅仅是呈现方式的不同,新闻从业者必须在思维上加以积极转变。

    顺势而为:大数据时代的弄潮儿 

    全新的镜头:样本=总体

    在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。③在模拟数据时代,由于信息的匮乏和信息流通的受限,我们在进行调查研究时多采用抽样分析的方法,过去我们将这当成了理所当然的限制,但是高性能数字技术的出现让我们意识到,这其实是一种人为的限制。大数据思维的第一点,就是要分析与某种事物相关的所有数据,而不是分析少量样本。从这一点来看,新闻机构利用数据分析刻画出所要调查的事件的“轮廓”,大数据给予我们观察世界的“全新的镜头”。

    谷歌公司通过分析整个美国几十亿条互联网检索记录,进行流感趋势的预测。因为分析的是整个数据库,在微观层面上分析的准确性大大提高,甚至能够根据这个数据分析,预测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。大数据时代的调查记者必须转变过去依赖抽样调查的思维,学会“样本=总体”的思维。“样本=总体”是指我们能对数据进行深度研究,不会遗漏微观细节的信息,全数据的模式让我们拥有对某些特定子类别进行进一步研究的能力。

    财新网的数据可视化实验室在《周永康的人与财》中,运用大数据技术搜集和处理与周永康相关的人和事,使与周家腐败案相关联的人事关系、资金往来、股权交易清晰呈现出来。从报道技巧上说,它不是对报道对象的抽样分析,而且“全样本”分析,清晰地展现了所要调查事件的“轮廓”,增强了新闻报道的背景深度。

    新的工作重心:在混杂中建构新闻

    大数据时代,随着互联网的广泛覆盖,数字通信网络及智能手机、便携式电脑等数字产品的普及,大众可以方便、快捷、低成本地参与新闻的生产和传播,使新闻媒体对于重要事件的优先接近权和传播垄断权被草根新闻传播打破。新闻业再也不是专业媒体公司和职业记者自上而下的“广播”过程,而越来越成为一种受众、编辑、记者等一起互动的“网播”过程。胡泳认为,传统媒体的运作方式是“过滤,然后发布”,而自媒体的运作方式是“发布,然后过滤”,因此“未来人人都可以是记者”。④丹?吉尔默说:“我们的读者已经不必等着报纸和杂志为他们做好的半生不熟的新闻产品,他们完全可以自己下厨房。”⑤那么,在这样一个时代,难道新闻“厨师们”真的会失业吗?新闻记者的工作重心又将摆在何处?

    大数据技术给我们提供了答案。在大数据时代,新闻从业者的工作重心,从抢先报道新闻热点转向为大众解释事件发展的内在逻辑。大数据时代产生了大量的“非结构化的数据”,如网民在社交媒体上分享的文字、图片、视频等。大量“非结构化的数据”会造成混乱,但是其中也潜藏着具有新闻价值的数据。新闻从业者必须具备从海量的数据中找出真正有价值数据的能力,将公众从虚假信息、流言和信息过载的痛苦中解救出来。

    以2013年4月15日的波士顿爆炸案为例,波士顿爆炸案是大数据时代美国本土遭遇的第一次恐怖袭击。从规模上看,波士顿爆炸案与“9?11”事件相差很远, 两枚高压锅炸弹爆炸导致3人死亡、约264人受伤。有了发达的社交媒体,袭击信息的传播速度让我们震惊:1分钟后,一位目击者就在Twitter上发布了爆炸现场的照片,之后,社交媒体上就炸开了锅。#波士顿马拉松#迅速成为Twitter上的热门话题标签。根据皮尤研究中心的报告,在18~29岁的人群当中,超过一半(56%)通过社交网站得到关于爆炸案的信息。⑥灾难事件在数字世界的传播速度非常之快,与之相随的还有流言和各种未经证实的信息。在爆炸案中,用手机拍摄的照片、视频以及公众在社交网站上发布的事故描述等等给新闻带来了新鲜、生动的消息来源,但这些非结构化的数据也造成了混乱,可能误导事故的调查。在Twitter上一些虚假信息流传甚广:炸弹是四枚不是两枚;有人说是基地组织干的,也有人说是右翼极端分子;一位之前失踪的印美混血学生被错认成凶手……从中可以看出,大数据时代,数据传播的混乱包括两个方面:一是随着数据的增加,错误率也会相应增加;二是指数据格式的不一致,包括图片、文字、视频等等。如果要减少混乱,则必须降低错误率,并且在数据处理之前仔细地清洗数据。因而,新闻工作者要想在混乱中建构新闻并非易事。

    目前的数据获取主要有三种方式:对社交媒体内容、搜索引擎、用户数据进行深度挖掘;或是通过调查、众包、网络观察等方式收集、调查数据;从政府、企业、社会机构等等发布的公开数据中获取有用信息。波士顿爆炸案中,新闻机构采用了众包(crowd-sourcing)的方式。众包(crowd-sourcing)是一种利用集体智慧的信息处理方式,将传统上由某个中心点完成的任务分发到各处完成。⑦4月18日,在爆炸案的新闻发布会上,FBI公布了截自监控录像的两名嫌疑人照片,寻求公众帮助搜捕。社交新闻网站Reddit.com上用户整理了数以千计的照片,在仔细分析后,将自己推测的嫌疑人发布到自己的账号上。一些报纸如《纽约邮报》在其网站首页上转载了一张有两名身份不明者的照片,命名为“带包的人”,后来发现这并不是嫌疑人的照片。甚至CNN和美联社等等主流媒体为了追逐报道的时效性也犯了错。

    经过众包搜索的信息,混杂了许多的错误数据,基本上是信息碎片的集合。新闻工作者有必要对数据进行清洗,验证数据的客观性和真实性。NBC 《今天》(Today)节目的执行制片人Don Nash说:“社会化媒体时代,许多报道来自非常不同的消息源。对此,必须非常小心。与其冒着误报的风险争第一时间发稿,不如确保真实准确。”⑧为了报道一个完整、准确的新闻故事,新闻编辑室需要将来自众包的混杂信息核实、组织、整合,理出逻辑清晰的新闻脉络,从喧嚣的“噪音”中传递有价值的声音。

    获取并整理数据的另外一个方式是,将社交媒体、搜索引擎中的内容与政府、企业等发布的公开数据进行对比分析,寻找关联性。2011年8月,英国《卫报》搜集了Twitter上与骚乱相关的257万条信息,将这些数据与法庭审理骚乱案件资料及政府公布的关于社会经济状况的统计资料相结合,揭示了骚乱与贫穷之间的关联性,帮助舆论界纠正了之前的错误观念,一定程度上影响了政府的公共政策,成为从“非结构化数据”中找寻有价值新闻的成功典范。

    可视化手段:激发公众议题参与

    传统新闻大多数由对事实的描述或引用当事人话语构成,但是采用统计的方法分析数据并生产新闻的手段在新闻界并不是新鲜事物。上个世纪70、80年代的精确新闻,90年代中期的计算机辅助报道都试图用统计量化的方式生产新闻,发展到了21世纪,随着网络数据库的发展,数据新闻应运而生。数据新闻包括数据收集、数据处理和数据呈现三部分。运用可视化技术,将新闻由静态的文字、图片变为动态的、互动性更强的信息图表,属于数据呈现的部分。数据呈现的部分直接与受众接触,向公众展现数据与社会、数据与个人的复杂关系,以客观、易于理解的报道方式激发公众对公共议题的关注和参与。

    信息图表是数据可视化的手段之一,表面上只是一种呈现方式,但信息图表的意义并不仅仅在于呈现。信息图表的选题策划、数据搜集以及数据呈现的过程,就是一个发现和深化新闻的过程。⑨搜狐的“数字之道”、网易的“数读”等栏目采用信息图的模式,试图用数据向受众传达信息,但是这些信息图仅仅只是将文本变成图像呈现,符合“读图”时代的阅读趋势,但是就新闻价值层面来说,并没有实现新闻的发现和深化。

    英国伯明翰城市大学教授布拉德肖提出了数据新闻的“双金字塔结构”(见F图),这是在传统新闻的“倒金字塔结构”发展而来。数据被编辑、清理、情境化、合并,经由传播连接,通过视觉化和叙事,实现社交化、人性化、个性化和应用化。布拉德肖强调的是,数据新闻通过可视化手段,形成动态的新闻故事,之后在社交平台发布,实现社交化。读者在社交平台参与、分享这些故事,与自身经历结合,对于新闻作品加以应用,数据新闻实现了个性化和人性化。“数据可视化不仅仅是停留在简单地表达时事,陈述故事,还需要交互与更新,成为真正的数据驱动新闻,而不仅仅是数据表达新闻。”⑩英国《金融时报》与BBC合作,定期公布他们的预算互动图,普通民众可以在其中找到与自己切身相关的预算内容并加以反馈,这些反馈的新闻信息又自发地形成聚合,信息图表的内容得到了延展和深化,这些信息图表也就不再是冷冰冰的数据,而是有温度、有互动、有反馈的新闻作品。

    看上去很美:如何面对大数据陷阱

    看似“客观”的数据

    传统的抽样分析是模拟数据时代的产物,在研究时很多偏见和误差无法避免,这种偏见既包括研究者设计实验和问卷时的偏差,也包括被测试人员由于了解自己作为被测试的角色而产生的不同于日常心理和行为而产生的偏差。相比较而言,大数据由于拥有足够数量和全覆盖范围的原始数据,而显得“客观”得多。但是大数据时代的数据真的有那么可靠吗?

    让我们考察一下数据产生的整个过程。数据的收集、处理和呈现都是人为的结果。丽莎?吉特曼认为:“数据从来都不可能是原始存在的,因为它不是自然的产物,而是依照一个人的倾向和价值观念被构建出来的。”目前的三种主要数据获取方式都可能在一定程度上被价值取向左右:用社交媒体、搜索引擎上的数据进行调查分析社会事件,应当注意到,当前社交媒体的用户主要是高收入的年轻群体,并不能代表整个社会群体的意见;通过众包、网络观察的方式搜集数据,公众在参与提供数据时很难不带有自己的价值判断;政府、社会机构、企业等组织在公开数据时可能会隐藏对自身不利、有损自身形象的数据,这些数据可能根本没有被收录进公开的数据库中。

    由此看来,数据并不是绝对客观的,用来解释数据的统计模型和挖掘技术也并非是天然中立的。因此,新闻从业者需要对挖掘的数据保持怀疑的态度,在拿到元数据之后,再进行数据处理,决定数据如何呈现的时候多问自己几个为什么,不能被看似“客观”的数据蒙蔽了双眼。

    坏数据

    数据本身是中立的,那如何认定,何为好数据,何为坏数据?坏数据是站在数据使用者的角度上来说的。搜集的数据帮助人们更好地理解事件经过,有利于决策的就是好数据;相反,造成可视化枯燥,信息冗余的数据就是坏数据。

    还有一种情况是,数据的处理被剥离了数据产生的时空背景。数据本身虽然看似与时空背景毫无关系,但是现实生活中人类的决策并不是在真空中做出的。“人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中,正像Big Data-Context=Bad Data一样,大数据被抽离了社会语境后就是坏数据。” 

    那新闻工作者如何分辨好数据与坏数据?在制作数据新闻之前,问题意识很重要。新闻工作者在搜集数据之前就要以问题为导向,在数据处理和数据呈现的一系列过程中都要带着问题意识。1948年,拉斯韦尔提出传播过程有5个基本构成要素,即谁(who)、说了什么(says what)、通过什么渠道(in which channel)、对谁说(to whom)、取得了什么效果(with what effect)。在数据搜集的开始,新闻工作者也应该问自己这5个问题,即弄清数据由谁收集、何时收集、为何收集、如何收集、有何意义。有了明确的问题意识,将数据置于特定的时空背景,新闻工作者才可以理顺数据之间的逻辑关系,才不会在数据搜集阶段就丧失焦点或者错失了有趣、特别的报道角度。

    “收集数据有时就像收集垃圾,收集之前你就应该想好要怎么处理。”技术不能代替人的常识和判断,弄清数据由谁收集、何时收集、为何收集、如何收集、有何意义仍然十分必要。在数据处理阶段,新闻界也有必要建立一套对数据编辑处理的准则。《数据新闻手册》是新闻业界与学术界共同推出的有关数据新闻实践的手册,其中包含了对于进行数据新闻操作的建议以及对数据新闻未来趋势的预测。但是目前对于数据编辑处理的准则仍然是个空白,相信随着数据新闻实践的进一步发展,这套编辑准则也将在未来被建立起来。

    你侵犯隐私了吗?

    新闻从业者利用大数据技术进行网络舆情研究,每一个数据的背后都是一个个体的行为。这种精准化的社会测量方式,将每个个体的行为都记录下来,大规模的隐私泄露就变得更加轻易。用李彪的话来说,“通过大数据研究,就像透过透明的玻璃鱼缸观察鱼群游动的行为乃至其中每一条鱼的表情活动。”

    大数据时代,信息传播的碎片化使得个人信息遍布社交网络、搜索引擎当中,数据和个人信息的获取难度大大降低。新闻工作者在获取数据时如何避免侵犯个人的网络隐私权成为一个无法避免的问题。

    一方面,大部分的隐私是由用户主动泄露的。虽然大部分的数据来自用户主动的信息披露行为,但是并不代表他不存在隐私担忧心理。社交网络用户在使用社交媒体时的确担忧其隐私问题,但是这种担忧并不会影响到其披露个人信息的行为,这是著名的“隐私悖论”。另一方面,由于在大数据时代,数据具有永久性的特征。作为数字数据的创造者和使用者,公众对遗忘过去的企图与永久存储数据的渴望也存在着天然的矛盾。我们的世界数字化程度越高,我们的隐私就愈加无所遁形。

    2010年,美国康涅狄格州的罗琳?马丁的家被警察突击检查,并发现有毒品,她和两个成年儿子被逮捕。在她同意接受防吸毒课程之后,案件被撤销并且官方档案记录也随之消除。但是,由于网上档案库中流传的《母子面临毒品犯罪指控》之类的文章,导致她无法找到完全能胜任的工作。欧洲法院在2014年做出判决,个人有权利要求搜索引擎移除附有其个人信息的链接,如果该信息是“不准确、不充分、不相关或过分”的话。这就是有关大数据时代“被遗忘权”的判决。

    新闻工作者在使用大数据技术时遭遇的问题在于:一方面,当数据量越来越大,算法越来越优化之时,侵害隐私权的成本大大降低;另一方面,获得隐私权主体(指用户)知情同意的成本却又大幅增加。而且基于大数据而形成的媒介受众市场,由于数据的贡献者太多,要取得所谓的知情同意十分困难。新闻工作者在使用数据时如何避免侵犯受众的网络隐私权依然是一个亟待解决的问题。

    余论

    大数据不仅仅是一个时髦术语,它将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。美国消费电子协会(CEA)首席经济学家肖恩?杜布拉瓦茨认为我们正处在第二个“数字十年”当中。1998年第一台高清电视被售出,开启了第一个“数字十年”。在第二个“数字十年”,世界将会完全数字化。“数字科技不仅仅是改变我们之前做过的事以及做事的方式,它会彻底改变文化的结构,重新定义社会规范。”新闻业也必然被大数据技术彻底颠覆。过去新闻工作者的工作重心在于寻找热点事件,发生事件之后,记者便会赶去现场,采访当事人,了解事故的来龙去脉,数据在当时只是为了辅助报道。在大数据时代,数据将成为报道的基础。

    在数据的基础上进行新闻报道,迫切需要新闻从业者转变思维,从过去的描述事件现状、抢先报道热点转向解释新闻、向大众阐释事件发生的内在逻辑。在某种程度上说,这是“陈述方式”的改变。新算法的出现让我们拥有了处理视频、图像甚至声音在内的海量信息的能力。更多的算法和信息可以帮助新闻从业者从数据中提取价值,通过更先进的成像程序,我们还可以更形象地呈现新闻报道,例如用信息图表对数据进行形象化转述。

    大数据时代,新闻从业者的思维变革将导致未来新闻业务方向上的调整。当新闻报道重心转向“解释新闻”,即向大众阐释事件发生的内在逻辑,趋势预测性新闻和数据挖掘的深度报道数量必定会大大增加。同时,数据收集、处理和呈现对于新闻从业者的素质和能力要求也必然会随之提高。未来新闻界与科技界的跨界合作一定会增强,例如Five Thirty Eight的创始人纳特?希尔福的团队中就包含了记者、多媒体专家、量化分析师和数据库拓展专员等专业人才。利用与外部的合作,新闻从业者可以处理更复杂的新闻课题。但是,如果将数据收集、处理的权力都交予技术领域,技术领域的价值观和新闻媒体的理念表达可能会存在冲突,如何平衡这种冲突也值得学界进一步思考。这些都意味着大数据带来的不仅有机会,还有挑战。大数据时代也存在更多的风险和制约。趋势无法更改,无论是否愿意,新闻从业者必须拥抱这个时代。

    (作者林凌系华东政法大学人文学院教授、博士生导师;任孚婷系华东政法大学研究生院研究生)

    责任编辑:郭潇颖

    注释:

    ① ③维克托·迈尔-舍恩伯格、肯尼思?库克耶著,盛杨燕、周涛译:《大数据时代:生活、工作与思维的大变革》,浙江人民出版社2013年版。

    ②方师师:《深度数字化已经开启——2014美国新闻媒体报告》,《新闻记者》2014年第9期。

    ④胡泳:《众生喧哗:网络时代的个人表达与公共讨论》,广西师范大学出版社2013年版,第20页。

    ⑤Gillmor,Dan, “Here Comes ‘We Media’ ”,Columbia Journalism Review, Jan. -Feb. ,2003[6],p20

    ⑥Laura Petrecca, “After Bombings, Social Media Informs(and Misinforms),” USA Today, April 23,2013,http://www.usatoday.com/story/news/2013/04/23/social-media-boston-marathon-bombing/2106701

    ⑦刘兆明:《社会化媒体时代的突发事件新闻传播图景——波士顿爆炸案的传播分析与启示》,《新闻记者》2013年第6期。

    ⑧David Freedlander,“NBC, Today Show Get Boston Marathon Bombing CoverageRight”,http://www.thedailybeast.com/articles/2013/04/20/nbc-today-show-get-boston-marathon-bombing-coverage-right.html。

    ⑨彭兰:《“信息是美的”:大数据时代信息图表的价值及运用》,《新闻记者》2013年第6期。

    ⑩梁延:《大数据视野下“数据新闻”的发展现状、趋势及其困境》,《东南传播》2014年第11期。

    徐端:《大数据战略》新世纪出版社2014 年版,第 59 页。

    李彪:《大数据视域下社会舆情研究的新境界》,《编辑之友》2013年第6期。

    转引自[美]肖恩?杜布拉瓦茨:《数字命运:新数据时代如何颠覆我们的工作、生活和沟通方式》,电子工业出版社2015年版,第3页。

    “Factsheet on the ‘Right to Be Forgotten’ Ruling(C-131/12),” European Commission, http://ec.europa.eu/justice/data-protection/files/factsheets/factsheet_data_protection_en.pdf.

    徐敬宏、张为杰、李玲:《西方新闻传播学关于社交网络中隐私侵权问题的研究现状》,《国际新闻界》2014年第10期。

    [美]肖恩?杜布拉瓦茨:《数字命运:新数据时代如何颠覆我们的工作、生活和沟通方式》,电子工业出版社2015年版,第5页。

大数据时代的新闻报道
舆情场域变迁下社会治理的机遇与挑战
新时代新闻与传播硕士培养模式探究
从“双微”看政府宣传工作的路径与创新
抗战时期共产党的新闻实践及启示
新媒体时代广播内容创新策略研究
新媒体对学前儿童音乐教育的影响
文学副刊需要坚守