第04版:经济

中国城市报 2024年02月26日 星期一

返回目录  放大缩小全文复制   下一篇

文生视频模型Sora问世 变革与风险并存

■中国城市报记者邢灿 《 中国城市报 》( 2024年02月26日   第 04 版)

  近日,美国人工智能公司“开放人工智能研究中心”(OpenAI)发布了旗下首款文生视频模型Sora,持续引发关注。这是继文本模型ChatGPT和图片模型Dall-E之后,OpenAI又一款极具颠覆性的AI大模型产品。

  

  在受访专家看来,Sora的出现对现实生活和传统行业带来深远影响。目前,国产AI大模型在视频生成技术上与Sora相比存在明显差距。Sora的出现对人工智能技术的监管能力提出了诸多新挑战,需提防AI大模型潜藏风险。

  

  AI大模型Sora影响几何

  

  据OpenAI介绍,Sora可根据文本指令创建近似现实且富有想象力的场景,生成多种风格、不同画幅、最长为一分钟的高清视频。该模型还能够根据静态图像生成视频,或对现有视频进行扩展或填充缺失的帧。

  

  Sora将带来什么?盘古智库高级研究员江瀚在接受中国城市报记者采访时表示:“随着文字生成视频大模型技术的不断发展,我们可以预见它将深刻改变人们的生活方式。”

  

  具体而言,江瀚认为,在教育领域,Sora可迅速生成个性化、生动有趣的教学视频,减轻教师制作课件的负担。在广告和营销领域,它助力企业打造创意广告,吸引顾客,增强品牌影响力。影视制作、动画、虚拟现实和游戏开发行业也能因此提高效率、降低成本,创作出更多惊艳作品。对于新闻报道和社交媒体内容创作者,Sora则有望成为他们制作高质量视频的得力助手。

  

  “和其他的视频AI软件相比,Sora的优势在于生成的视频足够长、足够真实,并拟合了物理规律,起到了以假乱真的效果。”江苏省道德发展智库研究员、东南大学哲学与科学系副教授张学义分析,该技术目前还在内测阶段,尚未对公众开放;如果开放,可能应用的领域最直接的就是电影、自媒体、动画、广告等行业,它可以根据输入文本直接生成对应的视频,也可以剪辑修改已有的视频。

  

  在万兴科技AI创新中心总经理齐镗泉看来,Sora通过文生视频技术快速生成短视频素材,减少了对传统素材库的依赖,对视频素材行业带来一定冲击。同时,Sora提高了短视频制作效率,降低了成本,为创作者提供了更多创作自由,推动了行业创新,对短视频行业而言是重大机遇。

  

  “Sora无疑具有颠覆性影响。”中国政法大学传播法研究中心副主任朱巍告诉中国城市报记者,过去,艺术家与普通人之间的区分主要依据在于他们如何表达思想和这种表达所引发的共鸣程度。随着技术的发展,尤其是AI大模型,艺术家和普通人的界限将被打破,人人皆可成为艺术家。

  

  “技术使得创意转化变得更加容易和迅速。以前,创意转化为成果需要艺术家付出大量的时间和精力。现在,普通人通过技术也能很轻松地将自己的创意转化为成果。”朱巍进一步分析说。

  

  国产AI大模型如何迎头赶上

  

  Sora并非首个文生视频大模型。2023年11月,Pi-kaLabs发布首个产品Pi-ka1.0,能够生成和编辑3D动画、动漫、卡通和电影,被视为一款零门槛“视频生成神器”。此外,Runway、谷歌Lumiere视频AI生成模型、StabilityAI的SVD1.1也相继问世。

  

  齐镗泉在接受中国城市报记者采访时表示,Sora验证了大模型,尤其基于世界模型的文生视频大模型这条路是可行的。但真正要实现世界模拟器,打破模拟和现实,目前也还面临一些难点。

  

  “例如,物理交互的准确性,尽管Sora能够模拟一些基本的物理交互,但它在处理更复杂的物理现象时可能会遇到困难。又如,空间细节的精确性,处理空间细节方面可能不够精确,可能影响到视频内容的准确性和可信度。”齐镗泉举例说。

  

  在江瀚看来,“文字生成视频”大模型面临四大技术挑战:一是模型训练成本。由于生成高质量视频的模型通常需要大量的数据和计算资源进行训练,这导致了较高的成本。二是生成内容的准确性和逼真度。虽然现有的模型已经可以生成相当真实的效果,但要达到人类专家的水平还有很长的路要走。三是模型的解释性和可控性。目前的模型往往缺乏足够的解释性,用户很难了解模型是如何从输入的文字生成视频的,这限制了其在某些领域的应用。四是版权和隐私问题。在使用公共数据集进行训练时,可能会涉及版权和用户隐私的问题。

  

  记者注意到,国内科技公司在文生视频领域早已有布局。公开信息显示,包括字节跳动、百度、阿里、海康威视、万兴科技、拓尔思、当虹科技在内的科技公司,都在积极布局文生视频。

  

  “相比Sora,目前国产AI大模型在视频生成技术上存在不小差距。”齐镗泉认为,要缩短这一差距需要加强大模型算法开发,深入研究Sora开源框架的细节;同时,积累中文数据,建立统一标准以解决数据清洗和标注问题;此外,提升算力支持,实现本土化以满足大数据训练需求。

  

  提防AI大模型潜藏风险

  

  从人工智能技术驱动的自然语言处理工具ChatGPT到如今的Sora,从自动生成文字、图片,再到自动生成视频,人们在为技术不断取得新突破鼓掌的同时,对其带来的新型风险也必须警惕。

  

  “AI大模型对传统版权保护制度提出了挑战。”朱巍认为,随着Sora等视频大模型的涌现,全球版权制度正面临前所未有的调整。技术的进步不仅推动了视频生成和内容创造的革新,也深刻影响了版权的意义和定义。从网络收费到免费,再到当前的收费模式,版权的演变始终与技术进步紧密相连。

  

  此外,AI大模型的崛起对内容合规监管带来了新挑战。朱巍认为,随着AI技术的快速发展,创造力极大提升,成本大幅下降,这导致造谣的门槛大幅降低,内容监管变得愈加困难。尤其是迈入AI时代,有的法律体系却还停留在工业时代,有的思维观念甚至停留在农业社会,这种错位使得人们对一些问题的认知出现了割裂。

  

  同时,朱巍提醒,因为担心它可能带来未知风险而限制其发展,将与时代脱节。像历史上的英国发布《红旗法案》一样,试图限制汽车速度使其低于马车,这显然是不现实的。在对人工智能监管时,相关部门应坚持包容审慎的监管原则,严守底线,如网络安全和信息安全,特别是个人权利的保护。对于其他潜在问题,可以暂时保持观察,根据实际情况作出应对。

  

  “文生视频大模型作为一项新兴技术,确实存在一定的潜在风险。”江瀚提到,首先,它可能被滥用,比如生成假新闻或者误导性内容,对社会秩序构成威胁。其次,由于模型生成的视频可能与现实世界难以区分,这可能导致公众对真实性的认知产生混淆。再者,模型的决策过程不透明,可能会导致责任归属问题,当生成的视频出现问题时,难以确定责任方。

  

  针对上述潜在风险,江瀚建议,一是建立相应的法律法规,对模型的使用进行规范和监管,确保其不会对社会秩序造成负面影响;二是提高公众对AI生成内容的辨识能力,培养批判性思维,以应对假新闻和误导性内容的问题;三是推动模型的透明度和可解释性研究,使人们能够更好地理解和控制模型的行为;四是加强行业自律,鼓励开发者和企业在追求技术创新的同时,承担起相应的社会责任。

  

  接受采访时,张学义同样强调了健全法律法规的重要性。张学义提到,如果相关监管的法律法规不健全,文生视频模型还可能被用于诈骗等违法之事。由此带来的伦理风险就是可能会对相关行业从业者乃至普通民众的自主性、尊严、隐私、知情同意等权益造成侵犯。

  

  面对上述风险,张学义认为需要采取标本兼治的策略:一方面,采取“自上而下”的方式,建立健全针对生成式人工智能的伦理审查制度和法律监管制度,同时对人工智能研发人员进行科技伦理教育和培训;另一方面,采取“自下而上”的路径,将具有实操性的伦理原则嵌入到人工智能产品的设计之中,并做好流程监管,真正做到“科技发展、伦理先行;敏捷治理、快速反应”,最终实现“科技向善”的目的。