《新闻战线》概况
日 报周 报杂 志 人民网

人工智能中的 “人工” :众包平台的实践与反思

● 姚建华 《 新闻战线 》(

    摘要:不少西方大数据初创企业和大型互联网企业通过以MTurk为代表的众包平台,在全球范围内向拥有计算机和网络连接的劳动力发布和分包海量化、微型化的任务。这些任务既是人工智能持续完善其算法,进行快速迭代的基础,也是企业降低劳动力成本,实现更优化劳动力管理的有效途径。与此同时,如何为在线劳动力提供基础性的保障机制、如何加强其网络社区建设等是众包平台及其相关多元主体亟待反思的一系列问题。

    智能化是下一代互联网的根本特征,下一代互联网的发展与人工智能的迭代紧密相连。虽然人工智能在影像识别、语言分析、棋类游戏等领域已经超越了人类的水平,但目前它尚无法甄别网络中文本、图像、声音和视频之间细微的文化差别,所以人工智能的开发离不开“人工”,即人类劳动。基于此,2005年,全球最大的网络电子商务公司亚马逊推出了MTurk(Amazon Mechanical Turk),旨在搭建一个新型的、标准化的众包平台。在此,任务发起者(requester)向全球拥有计算机和网络连接的劳动力(称为托客,turkers)发布和分包任务,托客选择要完成的任务,任务发起者审查(批准或者拒绝)任务并支付报酬。这些任务都是当前计算机(或者人工智能)难以处理、但人类擅长的,其中就包括数据标注,它是训练人工智能模型的基础,也是研发智能驾驶、人脸识别、智能医疗、工业自动化等诸多技术的起点。

    所谓数据标注,是指通过运用数据标注工具,对大量文本、图像、语音、视频等数据进行归类、整理、纠错和批注等工作,赋予数据新的价值。在工作过程中,首先需要对大数据进行挖掘,并在此基础上,创建模型和完善算法,而这离不开反复学习不同场景和不同角度中由人工标注的数据。早在2005年,美国斯坦福大学人工智能实验室的李飞飞博士与她的研究团队就从互联网上下载了近10亿张图片,通过MTurk在全球范围内雇佣了近5万名托客,对这些图片进行分类和标注,为人工智能提供学习用的“题库”,这个“题库”后来发展为著名的ImageNet图像数据集。由此可见,作为人工智能中的“人工”,从事数据标注的托客是人工智能产业链上的重要一环,为人工智能行业提供源源不断的“燃料”。

    众包平台实践中的任务发起者

    在MTurk,任务发起者为每项任务定价,开发算法用于接收和验证托客处理后的数据,并将它们集成到MTurk的工作流程和计算机系统之中。当前,任务发起者每天通过软件自动发布和分包(基于亚马逊Web服务应用程序接口)的线上任务超过60万项,每项任务的完成时间通常在几分钟以内。

    这些海量化、微型化的任务主要来自西方大数据初创企业和大型互联网企业。大数据初创企业因有限的资金投入,更倾向于选择轻资产战略(即近乎“零劳动力成本”的企业运营战略)来降低人力成本、简化业务流程。实现这一战略的有效途径就是,通过MTurk以相对低廉的价格获取全球劳动力的智慧和技能,加速推进企业劳动力的整体外包和实现更优化的劳动力管理。此外,奥斯卡·施瓦茨(Oscar Schwartz)等学者强调,大数据初创企业通过MTurk而实现的轻资产战略,同样有助于它们快速拓展业务能力,不断提升市场估值,赢得投资者的青睐。大型互联网企业也是MTurk的主要任务发起者,如Google和LinkedIn。与大数据初创企业不同,这些企业使用MTurk出于三方面的考量:其一,MTurk有助于企业有效控制规模,规避因正式员工数量骤增而带来的企业风险。其二,它有助于增强企业数据收集和分析能力,加快机器学习的开发速度。其三,因低廉的用工和试错成本,MTurk成为企业在开拓新商业领域时首选的试验田。

    众包平台实践中的托客

    目前,MTurk活跃的托客人数约有5万,主要来自美国和印度。其中高度活跃的托客约为1万名,平均年龄为31.6岁,他们“全职”在MTurk上工作,完成了平台超过80%的任务。从职业构成来看,他们中有退休教师、退伍军人、自由撰稿人、大学生、全职母亲,等等。

    托客的工作技能要求和工作流程是怎样的呢?在MTurk,数据标注任务并不要求托客具有高超的技术能力,会使用电脑的初中生就可以胜任此项任务,因此数据标注位于整个人工智能高科技产业链的低端。就工作流程而言,数据标注任务也相对简单,托客只需要把文本、图像、语音或者视频中的事物识别出来,进行标注即可,所以他们的工作内容相对枯燥和单一,需要极大的耐心。为了提高任务完成的整体质量,在分包上述任务时,任务发起者首先会明确规定托客的申请资质,尤其是他们历史任务的合格率。任务发起者在支付托客报酬时所具有的“自由裁量权”同样在保障任务完成的质量方面发挥了重要的作用,即在托客提交任务后,任务发起者有权决定是否支付他们报酬。任务发起者一般采用算法来判断任务完成的质量,即把相同的任务分发给不同的托客,依据最常见的结果即为正确的原则,统计他们各自的正确率,“大多数原则”构成了这种方法的基本逻辑。因此,未能提供“大多数答案”的托客无法获得报酬,任务发起者甚至会屏蔽他们接收与新任务相关的信息。

    就托客的报酬而言,根据美国加州大学欧文分校乔尔·罗斯(Joel Ross)教授的统计,托客的时薪约为8美元,这远远低于美国在职人员的平均时薪标准。在MTurk,大部分任务的报酬普遍较低:25%的任务报酬低至0.01美元,70%的任务报酬低于0.05美元,只有不到10%的任务报酬超过0.10美元。即使在这样的薪酬水平下,仍有20%和50%的托客分别将MTurk的收入作为自己的第一和第二大经济来源。

    对众包平台相关问题的思考

    随着新媒体传播技术的快速演进,众包作为一种新型的劳动力组织方式应运而生。它的发展呈现出“一体两面”的特性。一方面,任务发起者在全球范围内吸纳分散的、闲置的、廉价的劳动力,大幅度提升了企业的生产和运营能力;另一方面,托客跨越时空限制,积极参与到全球生产活动之中,实现自身劳动力价值的最大化。大卫·马丁(David Martin)等学者的经验研究发现,托客大多很难进入传统劳动力市场,来自MTurk的报酬成为他们日常生活的重要经济来源。

    但是,我们不能忽视这样的事实:在MTurk,托客和平台或者任务发起者之间并没有确立长期固定的雇佣关系,而是建立在双方签署的“参与协议”基础之上的短期用工关系,托客的工作因此呈现出越来越不稳定的特征——在这种弹性用工体制下,托客缺乏养老金、失业和医疗等基本保障。需要反思的是:在众包平台的发展过程中,如何建构涵盖平台、任务发起者、托客和政府相关部门等多元主体共同参与的管理机制,为这一数量庞大的数字劳工群体提供基础性的保障机制,以抵御市场的风险? 

    此外,加强托客的网络社区建设是众包平台及其相关多元主体亟待反思的又一重要问题。当前,Turker Nation和MTurk Forum是两个由托客自主发起和运营的网络社区,成千上万的托客聚集于此,形成了托客的“生态圈”。在上述网络社区,托客表达对任务发起者的质疑(针对他们发布和分包的某项任务或者产生的某个问题),讨论工作规范,提出自己的利益诉求。如何打造更多联结托客的网络社区,鼓励他们相互管理、帮助和关心,进而拉近彼此之间的距离,增进彼此之间的感情?更重要的是,在网络社区中,托客如何通过集体协商的方式与任务发起者建构互动性和参与性的关系,让后者听到他们的质疑和诉求,在持续的压力下,检验算法的有效性,并对之不断进行完善?这些问题兼具重要性和紧迫性,它与探索智能时代劳动力市场的新变化及其对全球政治、经济影响等更为宏大的时代议题紧密联系在一起。

    当然,对于众包平台的反思离不开对人类和机器之间边界和关系的探讨与厘清,而这已经成为当下计算机科学、传播学、政治学、社会学等不同学科研究者共同关注的焦点。

    (作者系复旦大学新闻学院副教授、复旦大学马克思主义新闻观教学与研究基地研究员)

    责任编辑:武艳珍

借力5G技术,助推深融发展
智媒云: 助推 “西部封面” 迈向 “中国封面”
做小而美的内容流量运营
人工智能中的 “人工” :众包平台的实践与反思