摘要:在内容获取领域,算法经历了从“全不全”到“准不准”的演进过程,而从“准不准”到“对不对”也是技术发展的必经之路。算法也有“价值观”,践行主流价值观不仅仅是数据和技术问题,现有的算法对“欲知”关注很多,但对“应知”关注较少。在内容选择面极宽的今天,借助技术手段,便可以从个性化和渐进性两个角度,在不牺牲“欲知”的情况下,强化“应知”,实现价值观的可控传递。应尽早投入研究开发力量,重点关注是否可以、如何借助算法实现主流价值观的传播。
今年1月25日,习近平总书记在主持十九届中央政治局第十二次集体学习时指出:“从全球范围看,媒体智能化进入快速发展阶段。我们要增强紧迫感和使命感,推动关键核心技术自主创新不断实现突破,探索将人工智能运用在新闻采集、生产、分发、接收、反馈中,用主流价值导向驾驭‘算法’,全面提高舆论引导能力。”
数据是当今社会最核心的生产要素,个性化推荐算法将成为这个时代人们“寻找”信息的重要手段
从社会发展阶段看,我们经历了农业时代、工业时代到信息时代,前两者分别以土地、资本为生产要素,而在信息爆炸的当下,数据将成为最重要的资源,成为最核心的生产要素。随着万物互联的物联网技术的发展,数据爆发的趋势会越来越迅速。同时,对数据的存储技术、处理技术的要求也会越来越高。据互联网数据中心(IDC)出版的数字世界研究报告显示,2013年人类产生、复制和消费的数据量已达到4.4泽(ZB)。到2020年,数据量将增长10倍,达到44泽(ZB)。可以说,随着社会的发展,信息的存量不断增加,信息增长的速度越来越快,“人类正从IT时代走向DT时代”,如何快速获取有效信息将成为这个时代的核心焦点。
互联网发明之初,获取信息的方式仍然是分类目录,与图书馆无异。第一次突破是搜索引擎的发明,用户可以瞬间定位并获取信息。但人们必须知道自己想要什么,才能搜索到,人接收信息的方式仍然是“寻找”信息。这种方式随着信息量的爆炸增长已越来越不能满足人们的需求,所以有了第二次信息获取的革命,即个性化推荐算法。
海量的信息可以精准到达用户眼前。算法甚至比用户自己还要了解用户,信息的获取不再依赖于用户的主动需求和描述限定。因此,现在人们接收信息的方式是“过滤”信息。个性化推荐算法有时候被称为过滤算法,例如“协同过滤”,简单来说,就是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息。
算法也有“价值观”,践行主流价值观不仅仅是数据和技术问题
在内容领域,算法所做的事情可以概括为:借助于各种辅助信息,从浩如烟海的内容中帮助或“代替”人做出选择。值得注意的是,当前一些商业公司正是利用这一点,给用户持续推荐毫无营养的“垃圾”内容,甚至蓄意迎合低级趣味。在后续的研究中,我们更应该关注是否可以以及如何借助算法实现正面价值观的传递。也就是说,在内容获取领域,我们已经经历了从“全不全”到“准不准”的进化,而接下来,从“准不准”到“对不对”也是技术发展的必经之路,应尽早投入研究开发力量,加速这个进程,并在内容生产、审核、传播、获取的过程中发挥作用,为传播主流价值观提供重要的辅助手段。
哈佛大学教授凯斯·桑坦斯在《信息乌托邦》中指出,“信息传播中,公众自身的信息需求并非全方位的,公众只注意自己选择的东西和使自己愉悦的领域,久而久之,会将自身桎梏于像蚕茧一般的‘茧房’之中。”具体到新闻领域,“就是广大群众欲知、应知而未知的重要事实”。现有的算法对“欲知”关注很多,但对“应知”关注较少。在推荐系统的学术领域,有著名的“E&E”问题,也就是迎合(Exploitation)与探索(Exploration)之间的平衡。这仍然是不够的,因为在这些提法中似乎隐含了一个假设:人的兴趣是静态的。事实显然并非如此,人的喜好会随着所接收内容的不同而动态改变。甚至可以说,作为时间连续体存在的人,其兴趣是一个敏感系统,未来的思想情趣走向会受到内容本身近似“蝴蝶效应”般的干扰。尤其在蛊惑、色情等不良信息方面,单纯的个性化推荐算法是一个正反馈的循环系统。而正反馈的系统是不稳定的,即所谓“越陷越深、难以自拔”。另外一个算法中性论所模糊的事实是,即便从纯功利的角度,适合接收者的内容仍然很多,算法的选择并非是唯一的,这个二次选择就体现了算法的“价值观”。
因此,算法并不是没有价值观的,算法也绝不仅是简单的技术问题。在数据挖掘的过程中,其中的参数模型、迭代方向等,都需要与产品的商业逻辑甚至是价值观取向有效融合。当算法迭代优化时,决定其方向的不仅是数据和技术本身的特性,更包含了我们对产品本质的理解、对人性的洞察。
从“未知”“欲知”到“应知”,内容选择琳琅满目的今天,实现算法主流价值观可控传递仍然有很长的路要走
从用户欲知的信息中做出二次选择,便是算法“价值观”存在的空间,也就是从“欲知而未知”中选出“应知”。在这个空间中,商业公司偏向于流量价值,而对新闻行业而言,新闻道德无疑高于流量价值。但在理论上两者并不矛盾,若能投入足够的技术和精力进行研究,是可以达到二者兼顾的。
另一个角度是从信息接收者来看。很多接收低俗信息的网民,并非不接受主流价值观,而是未能接触到高质量的主流价值观内容,在协同推荐算法中被其他人裹挟,或者说互相裹挟,陷入“沉迷”。比如,对航空事故新闻的阅读者,既可以推荐关于乘客、航空公司的负面新闻,也可以推荐机长和驾驶员的正面新闻,阅读者对于两者感兴趣的程度可能接近,但读后情绪是不同的。选择前者可能会引致对其他社会负面新闻的连续阅读,而推荐后者则可能会引向对各行业英雄人物的连续阅读。在同样的关注度下,两条路径的结果是完全不同的。
人的主观意愿和客观行为之间也存在自制力的鸿沟,沉迷于低俗信息的接收者未必情愿如此,就如同吸烟者并非都不愿戒烟,而是意志力不足使然。当不以绝对理性的理想假设来看待内容消费者的时候,技术手段的辅助便理所当然。当然,在内容选择面极宽的今天,千人一面的价值宣传难以产生实效。而借助技术手段,便可以从个性化和渐进性两个角度,在不牺牲“欲知”的情况下,强化“应知”,实现价值观的可控传递。比如,为庆祝新中国成立70周年,人民网联合陆军政治工作部宣传局开展了“祖国在我心中”界碑描红主题活动,在利用好报纸、电视报道的同时,还在百度、今日头条、抖音、快手等展开全方位、多角度、立体式传播。在不到两个月时间里,短视频账号浏览量达11.3亿,单条视频浏览量破千万的有14条。这说明,好的作品是有市场的,我们可以在推荐算法中加大主流媒体好作品的权重,对“度”的把握也可以细化调整。
《算法帝国》一书的作者克里斯托弗·斯坦纳说:“前行路上,各行各业的数据科学家和程序员,都将面对一个如何划定效用和威胁之界限的困境。未来20年的故事是人工智能算法和大数据的故事,而这个故事将取决于如何划定这些界限以及由谁来划定。”其中谈到的“效应”已通过几乎所有互联网公司体现得淋漓尽致,而“威胁”方面,研究者的关注才刚刚开始。
具体到实践中,可以细化为几个需要研究的子问题:
首先是基于价值观的内容衡量维度和分类分级框架,例如内容真实性、来源权威性、政治反动性、色情程度、情绪煽动性、乐观/悲观程度、青少年友好度、观点主流程度、吸引受众范围等。这些价值元素的确定需要仔细斟酌,并吸收各领域各部门积累的专家经验。
其次是内容价值的计算。以文字内容为例,情感分析等自然语言处理技术是显而易见的必备元素,但远远不够。在实践中必定会涉及诸多困难的情况,比如隐晦的价值宣扬、间接的价值引导等。以“蓝鲸游戏”为例,其内容并非直接唆使人自杀,而是通过一关一关的任务让人一步步与周围环境脱离。“第一个任务是照镜子,两只眼睛一直直勾勾地盯着镜子里的自己,直到对镜子里的那张面孔产生陌生感,第一个任务就算完成。”在这样的文本中,通过自动计算分析出其隐含价值导向是很困难的。实践中这样极端的情况可能只占少数,但管中窥豹,需要知识图谱等多种深入的技术手段才能进行有效的价值计算,如何建立与之相关的理论和计算框架,是值得深入研究的课题。
至于音频、图像、视频等多媒体内容,则要涉及更多相关领域的研究,需通过深度学习技术将之语义化,才能进行进一步的价值判断。
对算法价值观的研究或主流价值的算法推荐,涉及诸多人工智能领域的技术及人文社会科学的结合方法,各手段要素并非简单的叠加,而是需要在一个有机的创新框架下结合。在这个过程中,必定催生新技术新理论的诞生,甚至新学科的形成,产生“1+1>2”的效果。从新闻传播或内容传播的角度来说,这是新时代媒体生存所需要关注的。随着社会进步和科学发展,商业利益和价值引导的兼顾是内容生产、审核、传播、获取领域的必然诉求。在此领域的“识在人先、走在人前”对新时代中国的发展是十分必要的。
(作者系人民网股份有限公司大数据产品部主任)
责任编辑:陈利云




放大
缩小
全文复制
上一篇



