《新闻战线》概况
日 报周 报杂 志 人民网

“MAGIC”对新闻智能生产的探索

● 沈 南 陈毅华 《 新闻战线 》(

    人工智能 “MAGIC” 在俄罗斯世界杯期间惊艳亮相。这个新华智云“媒体大脑”2.0版,具有全链路自动完成画面分析、捕获、制作、配乐、加标题、合成、发送等等功能,可高效地生产出有趣有料的短视频。 “MAGIC” 提供了一条“数据+AI+计算资源”的解决路径,成为新闻内容生产的好帮手。

    媒体大脑     新闻智能生产     视频新闻

    俄罗斯世界杯前夕,由新华智云自主研发的国内首个媒体人工智能平台“MAGIC”惊艳亮相。从6月13日俄罗斯世界杯开赛至7月7日16时,“MAGIC”平台生产世界杯短视频35511条,播放总量已突破8330万。截至7月7日16时,2018年俄罗斯世界杯共进球170个,MAGIC对所有进球都实时产生进球视频,平均用时50.7秒,最快一条《俄罗斯2∶0领先埃及》的生产仅耗时6秒。这些短视频在新华社客户端、优酷、UC、今日头条等平台同步推送,充分满足了读者的不同需求。

    同时,为了满足用户个性化定制进球视频的需求,“MAGIC”平台应用人工智能技术,还成功研发出“MAGIC进球机器人”。7月4日,“MAGIC进球机器人”入驻新华社公众号,为用户提供世界杯开赛以来最全的进球视频。手机用户在进入新华社微信公众号后,点击下方菜单栏最左侧的《世界杯》栏目,选择“进球机器人”,根据提示向机器人“发出指令”,即可获取相应进球视频推送。机器人可接收的指令包括球员名字、球队名称、比赛名称、进球类型以及不同关键词的交叉搭配等。

    受众对“MAGIC”平台生产的世界杯视频产品给予积极评价,并期待后续有更优质的报道内容和更好的用户体验。

    从媒体大脑1.0到“MAGIC”

    2017年12月26日,新华社面向全球发布了中国第一个媒体人工智能平台——“媒体大脑”1.0。

    “媒体大脑”(www.shuwen.com)是由新华智云自主研发的国内首个媒体人工智能平台,融合云计算、物联网、大数据、人工智能等多项技术,为媒体机构提供线索发现、素材采集、编辑生产、分发传播、反馈监测等服务,使新闻场景下的应用和服务更加智能化。

    “媒体大脑”1.0包含八大功能:自动采集生产新闻的2410智能媒体生产平台;实时语音识别及自动转写的工具“采蜜”,帮助记者提高采访及新闻生产效能;从图片、视频中识别特定人物身份,特殊标识的图片识别工具;监测新闻信息内容在接近全网300万个网站及头部自媒体的传播、版权行为状况;面向未来的新闻信息传播场景的新闻分发以及基于用户阅读偏好的新闻分发系统;为媒体机构提供描绘自身用户群体特征、偏好的用户画像服务等。

    在“媒体大脑”发布时,同步生产了首条MGC(机器生产内容)新闻。随着移动互联网的发展,UGC(用户生产内容)除指一般的受众用户生产内容外,还细分出PGC(专业生产内容)和OGC(职业生产内容),这些内容的生产者一般而言是人,新华智云首创的MGC是基于“媒体大脑”,运用人工智能技术,由机器智能生产新闻。

    今年全国两会期间, “媒体大脑”自动生成一系列两会视频报道,平均耗时不超过15秒。其中最经典的案例是:算法发现了历年政府两高报告中一些“消失”的司法名词。新华智云内容团队和技术团队对算法进行了定义。随后,算法通过文本、视频和图片的识别和比对技术,对历年两会两高报告的数据进行处理、比对和分析,从而得出了一些有意思的结论。比如“反革命”“投机倒把”等司法名词在近些年的两高报告中消失不见。最后,算法将这些结论自动合成为一个完整的新闻视频。

    新华智云基于媒体大脑各项技术及MGC的应用积累,在今年6月13日发布的“MAGIC”智能生产平台可以被看做是“媒体大脑”的2.0版,“MAGIC”这一名字是“MGC”(机器生产内容)和“AI”(人工智能)的结合。

    数据+算法、人机协作的“MAGIC”智能生产平台

    “MAGIC”智能生产平台以大数据处理技术、智能算法技术以及人机协作技术为核心,包含智能数据工坊、智能媒资平台、智能生产引擎、智能主题集市四大智能系统,自动产出成品视频内容及文字、图片内容。“MAGIC”的目标是要让内容生产者更多地获取新闻资源、更好地处理新闻资源、更快地传播新闻信息。

    四大智能系统构成“MAGIC”

    智能数据工坊是数据采集中心、数据加工中心和数据产出中心,通过爬虫等算法挖掘各类视频、图片、文本中的数据,随后将数据进行处理从而得到结构化的数据;智能媒资平台是内容资源的“仓储中心”和“算法中心”,包含各类新闻信息、图片、视频等素材,记者可以在智能媒资平台上搜寻需要的素材;智能生产引擎,顾名思义,具体负责自动生成内容,通过分析时间、地点、人物等信息,调度相应的素材,自动剪辑合成一条视频新闻;智能主题集市则更像是内容产品创意中心,为内容生产者提供选题和写作思路。

    “MAGIC”智能生产平台如同零部件生产组装流水线,智能数据工坊和智能媒资平台的任务,就是将新闻内容自动拆解为一个个颗粒化的零部件。智能生产引擎则是负责把这些零部件重新组装。经过机器的拆解和组装,更多新的内容就产生了。

    数据+算法是“MAGIC”的核心

    MAGIC的核心是数据+算法,可以概括为一个“业务数据化-数据业务化”的闭环反馈过程:一是让传统的业务资料成为数据,让线下的数据走向线上,和计算相接,这个过程对应的就是业务数据化;二是让数据形成闭环,回到业务的使用场景中,对业务进行改善并让人工智能不断自我进化,这个过程对应的就是数据业务化。

    人机协作在“MAGIC”必不可少

    人工参与和观察的角色依然存在,“MAGIC”的本质是人的智慧+机器的智能,这是一种全量数据+人机协同的工作模式。首先,“媒体大脑”产出的内容以及质量在一定程度上依赖于人工的经验和反馈。其次,在判断黄色、暴力、敏感等内容方面,现有的智能技术可以进行初步筛选和校对,但最终还是需要人的再校对。相信随着人工智能技术和计算资源量的提高,人工审核的依赖度会逐渐下降。

    “MAGIC”通过机器辅助,海量的历史和实时内容将被精细化地自动拆解,并以颗粒的形式存储在云端,一旦有最新的事件发生,机器会自动调用云端的数据颗粒,实时生成视频新闻,内容经过数据化后,会产生新的内容,这就是“MAGIC”的魔法。

    通过对所有内容数据化后,在未来计划中,“MAGIC”还能够帮助内容生产者找到新闻角度。

    “MAGIC”智能生产平台的应用——实时自动生产俄罗斯世界杯视频稿件

    世界杯4年一届,是全球瞩目的焦点,也是媒体角逐的热点,同时,体育新闻事实性强、较为结构化,“MAGIC”的实战运用选择了世界杯报道,实时自动生产世界杯成品视频稿件。

    “MAGIC”智能生产的最大特点是时效快。比赛进球后,MAGIC智能生产平台AI进球视频链路非常高效,全链路自动完成画面分析、捕获、制作、配乐、加标题、合成、发送到优酷等视频站点,整个过程不超过30秒。用户在视频网站可以看到《球进了!塞尔维亚0∶1落后巴西 比赛第35分钟》《球进了!韩国2∶0领先德国 比赛第97分钟》等世界杯所有进球视频。通过对比发现,人工剪辑、合成并发布的同类进球视频,最快需要4分钟,算法和机器自动化的优势非常明显。

    “MAGIC”智能生产的特点还在于内容全和可学习性。基于视频和图片资源,生产全量内容。如韩国和墨西哥的比赛中,韩国队被判罚点球,“MAGIC”智能生产平台第一时间生产《2018俄罗斯世界杯:14个点球全回顾 本届点球数已超2014整届》,将14个点球的进球视频一一呈现。每场比赛,“MAGIC”都会依据设定的模板,自动生产赛事相关进球、射门、角球、任意球、精彩过人、红黄牌、犯规、球迷表情、半场和全场集锦,全部球员比赛表现等视频,时间不晚于比赛结束后3分钟。每天自动生产射手榜、进球榜等盘点类集锦。“MAGIC”还对所有球员,尤其是明星球员、对位进行pk分析,产生pk类视频集锦,关联球员所在球队、俱乐部,场外花絮,分析比对,挖掘价值点,生产视频新闻。基本上,人工能找到的角度,能想到的选题,“MAGIC”智能生产平台都能及时生产相关视频。人工定义的选题,机器通过算法学习后,可以复用到全部的比赛中。

    除了比赛集锦,“MAGIC”算法还生成了不少有意思的短视频,其智能程度让人大呼意想不到。“MAGIC”精准抓取了马拉多纳多场观看不同比赛时的夸张表情和肢体动作,生成了《戏真多!马拉多纳:看台上一只行走的表情包》(时长82秒)、《马拉多纳激情“作法”!梅西能为阿根廷逆天改命吗?》(时长27秒)、《阿根廷惨败,马拉多纳难掩失落》(时长23秒)、《紧张到吃手指,失球后马拉多纳很捉急》(时长6秒)、《你的好友【马拉多纳】进入了直播间》(时长17秒)等视频。

    如果按照传统的编辑部模式生产制作高时效、海量的世界杯短视频,需要调动大量的人力物力。“MAGIC”提供了一条“数据+AI+计算资源”的解决路径。

    新华智云负责人表示:“MAGIC”将帮助内容生产者更多地获取新闻资源,更好地处理新闻资源和更快地传播新闻资源,在未来计划中,它还要成为一个发现新闻的平台,机器通过数据之间的联系比对,将会发现人发现不了的角度和新闻点。

    机器不是用来取代人的,而是来帮助人的。新华智云最大的价值和核心及方向目标就是在MGC的领域有所突破。新华智云将自己定位为:内容生产者的帮助者。“媒体大脑”的这些功能的本质是机器帮助内容生产者更多地占有新闻资源,所有技术能力的释放都围绕着帮助记者占有更多新闻资源来做。目前,我国媒体从业者和媒体机构对数据的使用能力不强首先表现在观念上,很多记者可能还没有意识到,经过处理以后的数据能够对媒体产生什么样的帮助。他们在观念上没有意识到这一点。

    以“MAGIC”为核心的“媒体大脑”2.0可以看做是机器的智能+人的智能的双赢和重生,这将开启一个全新的AI内容生态系统。“媒体大脑”的目标是成为智能媒体时代的基础设施,成为AI内容的定义者和发布者。“媒体大脑”不是要取代记者和编辑,而是要在更高层面上,把人与物的延伸连接起来,更快、更准、更智能地获得新闻线索和新闻素材,赋能记者和编辑,帮助媒体提高生产力。

    (作者沈南系新华社体育部主任编辑,陈毅华系新华智云科技有限公司董办主任)

    责任编辑:建  文

媒体融合的起点是用户端融合
数据新闻产品趋于多样化
“MAGIC”对新闻智能生产的探索
报业视频业务的探索和突破