《新闻战线》概况
日 报周 报杂 志 人民网

智能推荐:认知和改进完善都需要时间

——访今日头条总编辑张辅评

● 建 文 《 新闻战线 》(

    摘要:“算法”既非“算数”,也非“魔法”,被社会认知需要时间,本身也并不完美,需要改进和完善;“算法”肯定需要人工干预,每周都会对算法模型进行优化和调整;机器将通过用户的各类数据来为用户“画像”,使用时间越长、反馈信息越多,机器推荐会越准确。

    关键词:智能推荐     数据挖掘     用户画像     信息茧房

    创办于2012年的今日头条,正好赶上中国移动互联网快速发展之“风口”,短短5年时间,创造了移动新闻信息传播的一个又一个奇迹,其日活跃用户数、用户日均启动次数及日均使用时长等数据都跃居中国移动媒体首位,每日信息发布量、年广告收入也遥遥领先于其他移动端媒体。

    伴随着今日头条高速成长的,有肯定、赞扬、褒奖,也有批评、指责、诟病,所涉及的问题甚多,其中备受称赞也广受批评的是智能推荐(算法)。今日头条自视为“基于数据挖掘的推荐引擎产品”,算法是它大获成功的“神器”,也是众“矢”之“的”。对于这些批评,今日头条直接回应的并不多。经多次沟通,今日头条总编辑张辅评就这一问题回答了《新闻战线》的书面提问。现全文刊载如下,供参考,欢迎探讨、争论。

    问:基于数据挖掘的推荐引擎(又称智能推荐、“算法”)成就了今日头条,也带来诸多非议。今日头条的算法究竟是个什么样的东西?它是怎样发挥作用的?请您先对它做个通俗、简单的介绍。

    答:很多人把算法错误当成“算数”,认为算法就是:哪篇文章热、阅读量高,就推那篇。这不是算法,这样的算法,任何一个程序员,花一下午就能写出这样的程序来。 

    还有一些人把算法当成了“魔法”,认为算法能完全了解和掌控人性,然后对它产生恐惧感。这也不对,在可预见的未来,人工智能技术都做不到这一点。

    把算法当算数,是把科技理解得太简单;把算法当魔法,是把科技理解得太高深。

    简单地说,今日头条推荐引擎是依赖人工智能、机器学习等技术,根据数百万位用户标签以及相关性、环境、热度、协同等模型特征,了解用户的状态变化从而推荐最合适的信息。 

    通俗点解释,要给每一个用户推荐用户关心的内容,今日头条要去了解三方面的特征:一是用户特征,也就是关于人的信息,比如这个用户他的兴趣是什么,是喜欢财经还是体育或是军事;他的职业是什么,在哪个年龄段,使用的手机机型是什么,他过去读过哪些内容,也许未来会喜欢这方面的内容。 

    二是我们通过机器学习去分析文章和内容的特征,内容的关键词、主题是什么,它有哪些标签,它的热度、时效性怎么样。有些内容它的时效性比较强,有些内容受时间影响不大,不同情况采用的推荐策略也并不一样。

    三是关于环境的特征,我们的算法也会根据时间地理位置、网络情况天气情况等等环境特征,因时因地给用户做推荐。

    问:今日头条的“算法”自诞生以来,毁誉参半,媒体(包括传统媒体、新兴媒体、自媒体)、学界都有称赞和否定的声音,最主要的批评是“它创造了一个信息闭环(信息茧房)”,为用户获取信息造了一堵墙,为用户的欲念、懒惰、猎奇造了一个温床。您怎么看待这些评论,怎么看待“信息茧房”?

    答:全社会从认知层面消化任何一项新技术,都需要时间。汽车、电脑刚出现的时候,都遇到过这样类似的质疑。说汽车比马车危险,说汽车比马车容易坏在路上,说电脑会带坏孩子,染上网瘾,等等。

    部分是因为公众对新技术不了解,有很多以讹传讹的误解。部分是因为新技术尚不完美,需要改进和完善。

    关于算法会导致“信息茧房”,是一个典型的因为不了解,所以以讹传讹的误解。

    事实上,“信息茧房”这个概念最早是由哈佛大学法学院教授桑斯坦在其2006年著作《信息乌托邦》中提出的。信息茧房从一开始,质疑的就不是“算法推荐”,而是此前门户时代兴起的订阅模式。信息茧房是指,用户过分地只通过自己的订阅查看信息,会导致信息窄化,而这个问题是所有的媒体形态都会造成的现象。 

    今日头条的人工智能推荐,恰恰提供了破解信息茧房的方案。机器推荐用于评估平台内容信息价值的模型,包括四个维度:兴趣价值、质量价值、影响力价值和多样性价值。其中多样性价值的实现主要依靠“兴趣探索”和“泛化”来完成,主要用来规避单纯订阅模式导致接受信息收窄困境,利用人工智能和大数据帮助用户开拓更多标签的内容阅读。 

    “兴趣探索”是指机器在进行信息推荐时,也会对用户的兴趣进行探索,依兴趣标签的关联程度,机器会持续进行“联想式”的推荐。“泛化”指把一个人的推荐扩大到其他有共同特质的人身上。比如当机器发现阅读“总统大选”相关信息的用户群体中有很大部分人都在同时关注“股票”信息,那么机器就会把“股票”信息推荐给那部分关注“总统大选”但尚未关注“股票”信息的人。

    问:人工智能为“用户画像”,有画得像的,有画得不像的。像不像,既与技术有关,也与资金投入、用户数据积累等有关。请问,今日头条的用户画像是基于用户多长时间的浏览数据,基于今日头条哪些频道的浏览数据?是否还通过一定的途径获取用户在其他平台的信息来为用户“画像”?

    答:机器是通过学习分析用户的行为轨迹建立用户特征模型,为用户进行精准的个性化信息推荐。用户每一次对内容的浏览和反馈都会作为数据积累,比如点击(不点击)、阅读时间、终止阅读、顶(踩)、分享、收藏、搜索、屏蔽、投诉等。当然,用户的使用时间越长,反馈动作越多,机器推荐的就会越好。

    问:人是复杂的,不同时间、不同时期会有不同需求。机器、算法能否做到真正了解用户?今日头条对“算法”是否有人工干预?如果有,又是怎么干预的?如果不干预,是否采取了某些调整、完善的技术措施?

    答:正如您所言,人是复杂的,不同时期、不同时间会有不同需求,其需求是不断变化的。所以机器是很难完全了解用户的,甚至我们自己也无法完全了解自己。“算法”肯定是有人工干预的,我们有超过50%的员工都是技术人员,每个星期都会对算法模型进行一些优化和调整,近一年内今日头条的算法进行了4次比较大的模型迭代,以更好地服务用户,为读者推荐更多优质的内容。

    问:有人说,“算法”比用户自己更了解自己,但不少用户又埋怨“算法”推荐自己不需要的内容。今日头条怎么判断“算法”对用户的了解准确与否?是否通过问卷调查、访谈、用户反馈等情况调整其“算法”?

    答:头条号平台目前自媒体作者超过90万,每天有大量内容产生,针对这些内容可能出现的低质、标题党等不被读者认同的问题,头条曾专门对此从用户中抽样建立了1000人规模的专业评估团,每天反馈千余份对于机器推荐效果满意度的问卷。

    同时,普通用户每一次“举报”“不感兴趣”等点击也都会作为重要反馈信息与调研一起用于改善机器推荐模型。

    问:有专家说目前的人工智能只相当于6岁的孩童,那么基于数据挖掘的推荐引擎(智能推荐、算法)相当于几岁的孩童?这项技术未来会怎样发展和完善?今日头条有哪些打算?

    答:推荐引擎实际上也是人工智能技术的一个应用方向。尽管今日头条在推荐引擎技术上已经处于行业领先水平,但整个行业距离成熟还有非常大的距离。未来今日头条将进一步提高在人工智能方向上的技术能力,对机器模型持续优化、完善,更深地理解用户,为用户提供更有价值的内容,成为“最懂你的信息平台”,更好的连接人与信息,促进创作和交流。

智能推荐:认知和改进完善都需要时间
用优质内容占领渠道,提升主流媒体影响力
打造TV+互联网惠农服务新平台
乡村直播的兴起及优化发展