智能推荐：认知和改进完善都需要时间

——访今日头条总编辑张辅评

● 建文《新闻战线》（）

摘要：“算法”既非“算数”，也非“魔法”，被社会认知需要时间，本身也并不完美，需要改进和完善；“算法”肯定需要人工干预，每周都会对算法模型进行优化和调整；机器将通过用户的各类数据来为用户“画像”，使用时间越长、反馈信息越多，机器推荐会越准确。

关键词：智能推荐数据挖掘用户画像信息茧房

创办于2012年的今日头条，正好赶上中国移动互联网快速发展之“风口”，短短5年时间，创造了移动新闻信息传播的一个又一个奇迹，其日活跃用户数、用户日均启动次数及日均使用时长等数据都跃居中国移动媒体首位，每日信息发布量、年广告收入也遥遥领先于其他移动端媒体。

伴随着今日头条高速成长的，有肯定、赞扬、褒奖，也有批评、指责、诟病，所涉及的问题甚多，其中备受称赞也广受批评的是智能推荐（算法）。今日头条自视为“基于数据挖掘的推荐引擎产品”，算法是它大获成功的“神器”，也是众“矢”之“的”。对于这些批评，今日头条直接回应的并不多。经多次沟通，今日头条总编辑张辅评就这一问题回答了《新闻战线》的书面提问。现全文刊载如下，供参考，欢迎探讨、争论。

问：基于数据挖掘的推荐引擎（又称智能推荐、“算法”）成就了今日头条，也带来诸多非议。今日头条的算法究竟是个什么样的东西？它是怎样发挥作用的？请您先对它做个通俗、简单的介绍。

答：很多人把算法错误当成“算数”，认为算法就是：哪篇文章热、阅读量高，就推那篇。这不是算法，这样的算法，任何一个程序员，花一下午就能写出这样的程序来。

还有一些人把算法当成了“魔法”，认为算法能完全了解和掌控人性，然后对它产生恐惧感。这也不对，在可预见的未来，人工智能技术都做不到这一点。

把算法当算数，是把科技理解得太简单；把算法当魔法，是把科技理解得太高深。

简单地说，今日头条推荐引擎是依赖人工智能、机器学习等技术，根据数百万位用户标签以及相关性、环境、热度、协同等模型特征，了解用户的状态变化从而推荐最合适的信息。

通俗点解释，要给每一个用户推荐用户关心的内容，今日头条要去了解三方面的特征：一是用户特征，也就是关于人的信息，比如这个用户他的兴趣是什么，是喜欢财经还是体育或是军事；他的职业是什么，在哪个年龄段，使用的手机机型是什么，他过去读过哪些内容，也许未来会喜欢这方面的内容。

二是我们通过机器学习去分析文章和内容的特征，内容的关键词、主题是什么，它有哪些标签，它的热度、时效性怎么样。有些内容它的时效性比较强，有些内容受时间影响不大，不同情况采用的推荐策略也并不一样。

三是关于环境的特征，我们的算法也会根据时间地理位置、网络情况天气情况等等环境特征，因时因地给用户做推荐。

问：今日头条的“算法”自诞生以来，毁誉参半，媒体（包括传统媒体、新兴媒体、自媒体）、学界都有称赞和否定的声音，最主要的批评是“它创造了一个信息闭环（信息茧房）”，为用户获取信息造了一堵墙，为用户的欲念、懒惰、猎奇造了一个温床。您怎么看待这些评论，怎么看待“信息茧房”？

答：全社会从认知层面消化任何一项新技术，都需要时间。汽车、电脑刚出现的时候，都遇到过这样类似的质疑。说汽车比马车危险，说汽车比马车容易坏在路上，说电脑会带坏孩子，染上网瘾，等等。

部分是因为公众对新技术不了解，有很多以讹传讹的误解。部分是因为新技术尚不完美，需要改进和完善。

关于算法会导致“信息茧房”，是一个典型的因为不了解，所以以讹传讹的误解。

事实上，“信息茧房”这个概念最早是由哈佛大学法学院教授桑斯坦在其2006年著作《信息乌托邦》中提出的。信息茧房从一开始，质疑的就不是“算法推荐”，而是此前门户时代兴起的订阅模式。信息茧房是指，用户过分地只通过自己的订阅查看信息，会导致信息窄化，而这个问题是所有的媒体形态都会造成的现象。

今日头条的人工智能推荐，恰恰提供了破解信息茧房的方案。机器推荐用于评估平台内容信息价值的模型，包括四个维度：兴趣价值、质量价值、影响力价值和多样性价值。其中多样性价值的实现主要依靠“兴趣探索”和“泛化”来完成，主要用来规避单纯订阅模式导致接受信息收窄困境，利用人工智能和大数据帮助用户开拓更多标签的内容阅读。

“兴趣探索”是指机器在进行信息推荐时，也会对用户的兴趣进行探索，依兴趣标签的关联程度，机器会持续进行“联想式”的推荐。“泛化”指把一个人的推荐扩大到其他有共同特质的人身上。比如当机器发现阅读“总统大选”相关信息的用户群体中有很大部分人都在同时关注“股票”信息，那么机器就会把“股票”信息推荐给那部分关注“总统大选”但尚未关注“股票”信息的人。

问：人工智能为“用户画像”，有画得像的，有画得不像的。像不像，既与技术有关，也与资金投入、用户数据积累等有关。请问，今日头条的用户画像是基于用户多长时间的浏览数据，基于今日头条哪些频道的浏览数据？是否还通过一定的途径获取用户在其他平台的信息来为用户“画像”？

答：机器是通过学习分析用户的行为轨迹建立用户特征模型，为用户进行精准的个性化信息推荐。用户每一次对内容的浏览和反馈都会作为数据积累，比如点击（不点击）、阅读时间、终止阅读、顶（踩）、分享、收藏、搜索、屏蔽、投诉等。当然，用户的使用时间越长，反馈动作越多，机器推荐的就会越好。

问：人是复杂的，不同时间、不同时期会有不同需求。机器、算法能否做到真正了解用户？今日头条对“算法”是否有人工干预？如果有，又是怎么干预的？如果不干预，是否采取了某些调整、完善的技术措施？

答：正如您所言，人是复杂的，不同时期、不同时间会有不同需求，其需求是不断变化的。所以机器是很难完全了解用户的，甚至我们自己也无法完全了解自己。“算法”肯定是有人工干预的，我们有超过50%的员工都是技术人员，每个星期都会对算法模型进行一些优化和调整，近一年内今日头条的算法进行了4次比较大的模型迭代，以更好地服务用户，为读者推荐更多优质的内容。

问：有人说，“算法”比用户自己更了解自己，但不少用户又埋怨“算法”推荐自己不需要的内容。今日头条怎么判断“算法”对用户的了解准确与否？是否通过问卷调查、访谈、用户反馈等情况调整其“算法”？

答：头条号平台目前自媒体作者超过90万，每天有大量内容产生，针对这些内容可能出现的低质、标题党等不被读者认同的问题，头条曾专门对此从用户中抽样建立了1000人规模的专业评估团，每天反馈千余份对于机器推荐效果满意度的问卷。

同时，普通用户每一次“举报”“不感兴趣”等点击也都会作为重要反馈信息与调研一起用于改善机器推荐模型。

问：有专家说目前的人工智能只相当于6岁的孩童，那么基于数据挖掘的推荐引擎（智能推荐、算法）相当于几岁的孩童？这项技术未来会怎样发展和完善？今日头条有哪些打算？

答：推荐引擎实际上也是人工智能技术的一个应用方向。尽管今日头条在推荐引擎技术上已经处于行业领先水平，但整个行业距离成熟还有非常大的距离。未来今日头条将进一步提高在人工智能方向上的技术能力，对机器模型持续优化、完善，更深地理解用户，为用户提供更有价值的内容，成为“最懂你的信息平台”，更好的连接人与信息，促进创作和交流。

返回目录

放大

缩小

全文复制下一篇