正在阅读:

商汤科技数字文娱事业部总经理栾青:未来三到五年,更多大模型应用场景将逐步解锁 | REAL大会

扫一扫下载界面新闻APP

商汤科技数字文娱事业部总经理栾青:未来三到五年,更多大模型应用场景将逐步解锁 | REAL大会

在视频生成领域,商汤在7月发布首个“可控”人物视频生成大模型Vimi。

管家婆马报图今晚

商汤科技数字文娱事业部总经理栾青。图源:界面图库

界面新闻记者 | 陈振芳

界面新闻编辑 | 文姝琪

9月6日上午,在界面新闻举办的2024 REAL科技大会上, 商汤数字文娱事业部总经理栾青在演讲中介绍,商汤为AI大模型全方位布局,覆盖算力基础层、AI模型层与上层应用。

商汤大装置管理的算力实现了全国联网的统一调度,在上海、深圳、广州、福州、济南、重庆等地都拓展了新的计算节点,截止2024年7月,总算力规模高达20000 petaFLOPS ,已有超5.4万块GPU。

今年7月,商汤发布“日日新5o”模型,交互体验对标GPT-4o,实现全新AI交互模式。该模型能够整合跨模态信息,通过基于声音、文本、图像和视频等多种形式,呈现实时的流式多模态交互。

在视频生成领域,商汤在7月发布首个“可控”人物视频生成大模型Vimi,该模型主要面向C端用户,支持聊天、唱歌、舞动等多种娱乐互动场景。Vimi可生成长达1分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,通过已有人物视频、动画、声音、文字等多种元素进行驱动。

栾青提出,2024年将成为AI视频的应用元年,未来三到五年,更多应用场景将随着模型能力提升和推理成本下降逐步解锁。

其次,AI视频生成将重塑传统视频制作工作,整合音视频创作的流程方法变为一个整体,降低AI视频内容的制作门槛,并以全新视频交互界面展现。

过去十几年,视频产业一直不断地发展,制作一个视频从几百人的团队,精简至几十个人的网剧团队,再到个人也可以创作短视频。技术推动下,视频团队和制作时间不断精简,而视频数量却在指数级的爆增,人类的消费习惯从曾经的看文案、图片、新闻,变成了看视频。

栾青认为,当视频的生成速度更快,甚至达到实时生成视频,AI能够带来新的交互体验,例如通过算法自动地控制人物动作,实时可交互的视频。

当前,AI视频生成有两大方向,一是用文字提示生成视频;另一个则是用其他信号,比如可控的逻辑性信号。例如动画设计师会捕捉人体和自然信号,再让人工智能学习,最终完成。这样生成的人物不仅合理,还能随着可控的信号进行变化。

栾青也提到,AI视频大模型在人物类视频生成上存在三大挑战:人物动作、表情难以精确控制,出效果仅靠大量“抽卡” ;人物身份稳定性不高,“常常换长相” ;仅支持稳定生成3-4秒时长,难以满足需求。因此,日常视频创作尚未达到可用的阶段。

“当前人们每天看到的视频80%都是人物为主题的视频。”

栾青介绍,商汤正在尝试用APP帮助用户来生成视频写真大片,利用AI算法控制运镜、光影变化、人物背景,让内容变得更真实和自然。例如用户输入一张照片,大模型产品也可以用不同的动画方式去制作内容,让内容形式更为丰富。

栾青认为,随着AGI技术在视频领域的深入,除了生产效率的变化,更多的是全新体验。大模型的能力可以让普通人更好的进行创作。

未经正式授权严禁转载本文,侵权必究。

商汤科技

2.8k
  • 2024界面新闻REAL科技大会在上海举办,共话大模型落地如何重塑现实
  • 商汤数字文娱事业部总经理栾青:商汤投建的国产化人工智能算力集群已拥有5.4万张GPU

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

商汤科技数字文娱事业部总经理栾青:未来三到五年,更多大模型应用场景将逐步解锁 | REAL大会

在视频生成领域,商汤在7月发布首个“可控”人物视频生成大模型Vimi。

管家婆马报图今晚

商汤科技数字文娱事业部总经理栾青。图源:界面图库

界面新闻记者 | 陈振芳

界面新闻编辑 | 文姝琪

9月6日上午,在界面新闻举办的2024 REAL科技大会上, 商汤数字文娱事业部总经理栾青在演讲中介绍,商汤为AI大模型全方位布局,覆盖算力基础层、AI模型层与上层应用。

商汤大装置管理的算力实现了全国联网的统一调度,在上海、深圳、广州、福州、济南、重庆等地都拓展了新的计算节点,截止2024年7月,总算力规模高达20000 petaFLOPS ,已有超5.4万块GPU。

今年7月,商汤发布“日日新5o”模型,交互体验对标GPT-4o,实现全新AI交互模式。该模型能够整合跨模态信息,通过基于声音、文本、图像和视频等多种形式,呈现实时的流式多模态交互。

在视频生成领域,商汤在7月发布首个“可控”人物视频生成大模型Vimi,该模型主要面向C端用户,支持聊天、唱歌、舞动等多种娱乐互动场景。Vimi可生成长达1分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,通过已有人物视频、动画、声音、文字等多种元素进行驱动。

栾青提出,2024年将成为AI视频的应用元年,未来三到五年,更多应用场景将随着模型能力提升和推理成本下降逐步解锁。

其次,AI视频生成将重塑传统视频制作工作,整合音视频创作的流程方法变为一个整体,降低AI视频内容的制作门槛,并以全新视频交互界面展现。

过去十几年,视频产业一直不断地发展,制作一个视频从几百人的团队,精简至几十个人的网剧团队,再到个人也可以创作短视频。技术推动下,视频团队和制作时间不断精简,而视频数量却在指数级的爆增,人类的消费习惯从曾经的看文案、图片、新闻,变成了看视频。

栾青认为,当视频的生成速度更快,甚至达到实时生成视频,AI能够带来新的交互体验,例如通过算法自动地控制人物动作,实时可交互的视频。

当前,AI视频生成有两大方向,一是用文字提示生成视频;另一个则是用其他信号,比如可控的逻辑性信号。例如动画设计师会捕捉人体和自然信号,再让人工智能学习,最终完成。这样生成的人物不仅合理,还能随着可控的信号进行变化。

栾青也提到,AI视频大模型在人物类视频生成上存在三大挑战:人物动作、表情难以精确控制,出效果仅靠大量“抽卡” ;人物身份稳定性不高,“常常换长相” ;仅支持稳定生成3-4秒时长,难以满足需求。因此,日常视频创作尚未达到可用的阶段。

“当前人们每天看到的视频80%都是人物为主题的视频。”

栾青介绍,商汤正在尝试用APP帮助用户来生成视频写真大片,利用AI算法控制运镜、光影变化、人物背景,让内容变得更真实和自然。例如用户输入一张照片,大模型产品也可以用不同的动画方式去制作内容,让内容形式更为丰富。

栾青认为,随着AGI技术在视频领域的深入,除了生产效率的变化,更多的是全新体验。大模型的能力可以让普通人更好的进行创作。

未经正式授权严禁转载本文,侵权必究。