全球首个大一统多模态视频模型可灵O1发布 智能应用 影音
D Book
236

全球首个大一统多模态视频模型可灵O1发布

  • 美通社

领先的内容社区及社交平台快手科技(「快手」或「公司」;港币柜台股份代号:01024 / 人民币柜台股份代号:81024)宣布,12月1日,可灵AI正式发布其全新产品「可灵O1」,定位为首个大一统的多模态创作工具。可灵O1基于全新的视频和图像模型,整合文字、视频、图片、主体等多模态输入,将所有生成和编辑任务融合于一个全能引擎之中。可灵O1的推出,彻底解决了AI视频生成中角色、场景等一致性难题,为影视、自媒体、广告电商等应用场景,提供了深度适配的一站式解决方案。

大一统模型,解决视频创作的所有难题

作为首个大一统多模态视频模型,可灵O1基于多模态视觉语言(MVL)理念,突破传统单一视频生成任务的模型边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务,融合于同一个全能引擎之中,用户无需切换模型及工具,即可一站式完成从生成到编辑的全流程创作。

凭藉深层语义理解力,可灵O1可将用户上传的图片、视频、主体、文字均视为指令。模型打破了模态限制,能够从不同视角综合理解一张照片、一段视频或一个主体,精准生成各项细节。

可灵O1的多模态指令输入区,让繁琐的剪辑后期变成了简单的对话。使用者无需手动遮罩或输入关键帧,只需输入「移除路人」、「将白天改为黄昏」或「替换主角服装」等指令,模型即可读懂影像逻辑,实现从局部主体替换到整体风格重绘的像素级语义重构。此外,它也全面支持图片/主体参考、视频内容编辑、镜头切换、首尾帧生成及文生视频等多种能力。

针对AI视频落地中常见的角色与场景不一致的痛点,可灵O1底层强化了对输入图像及视频的理解。它能像人类导演一样,「记住」主角、道具和场景,确保主体特徵在镜头变化中始终保持稳定。此外,该模型展现了强大的多主体融合能力。用户可以自由组合多个不同主体,或将主体与参考图混搭。即便是在复杂的群像戏或互动场景中,模型也能独立锁定并保持每一位角色或道具的特徵,确保「主角」在不同镜头中实现工业级的特徵统一。

可灵O1支持「技能组合」,不再局限于单点任务。使用者可以指令其「在视频中增加主体的同时修改背景」,或者「在图片参考生成时,同步修改风格」。这种一次生成多种创意变化的能力,极大地拓展了创作的自由度,让创意的化学反应成为可能。

在时长控制上,可灵O1将定义时间的权力交还给创作者,支持3-10秒自由生成。无论是短促的视觉冲击,还是悠长的故事铺陈,都由使用者自由掌控。值得一提的是,作为统一模型的一部分,可灵O1的首尾帧能力也将支持3-10秒的生成时长选择(即将发布),进一步增强叙事的张弛度。

同时发布的还有可灵图像O1模型,可实现从基础图像生成到高端细节编辑全链路无缝衔接,用户既可通过纯文本生成图像,也可上传最多10张参考图进行融合再创作。该模型具备四大核心优势:特徵高度保持,让主体元素稳定不偏差;细节修改精准响应,让每一处调整都符合预期;风格调性准确把控,让画面氛围始终统一;超丰富想像力,让创意呈现更具张力,真正实现「所想即所得」。

一个模型覆盖多创作场景:影视、自媒体、广告电商

全新的可灵O1集生成与编辑于一体,广泛适用于影视、自媒体、广告电商等多种场景。无论是从零构建的叙事生成,还是对既有素材的深度重塑,可灵O1都能根据不同需求,灵活调用其参考、编辑的能力,轻松完成创作。

在影视创作领域,可灵O1凭藉强大一致性的图片(主体)参考,结合主体库功能,可以精准锁定每个分镜的角色及服化道,轻松生成多个连贯的影视镜头。对于视频后期、自媒体创作者而言,只需输入「删除背景中的路人」、「让天空变蓝」等简单对话指令,就能让可灵O1自动完成像素级的智能修补与重构。

针对传统线下广告实拍成本高,制作周期长的问题,用户现在只需上传商品、模特和场景图,辅以简单指令,即可快速生成多个酷炫的商品展示广告,大幅降低实拍成本。针对模特约拍麻烦与换装难题,可灵O1可搭建永不落幕的虚拟T台:上传模特和服装实拍图,输入指令,便能完美还原服饰的质感和细节,批量生产高品质的Lookbook视频。

可灵O1能实现上述强大而全面的功能,源于在技术底座的深层创新。全新的可灵视频O1模型打破视频模型在生成、编辑与理解上的功能割裂,构建了全新的生成式底座。通过融合多模态理解的Multimodal Transformer和多模态长上下文,实现了多任务的深度融合与统一。

关于快手 

快手作为中国乃至全球领先的内容社区及社交平台,致力于成为全球最痴迷于为客户创造价值的公司。作为一家以人工智能为核心驱动和技术依托的科技公司,快手专注于通过持续的技术创新和产品升级,不断丰富服务和应用场景,为客户创造价值。在快手,用户通过短视频和直播来记录和分享他们的生活,发现所需,发挥所长。通过与内容创作者和企业紧密合作,快手提供的技术、产品和服务可满足用户的多元化的需求,包括娱乐、在线营销服务、电商、本地生活、游戏等。

前瞻性声明 

除过往事实的陈述外,本新闻稿载有若干前瞻性陈述。前瞻性陈述一般可透过所使用前瞻性词汇识别,例如「或会」、「可能」、「可」、「可以」、「将」、「将会」、「预期」、「认为」、「继续」、「估计」、「预计」、「预测」、「打算」、「计划」、「寻求」或「时间表」。该等前瞻性陈述受风险、不确定因素及假设的影响,可能包括业务展望、财务表现预测、业务计划预测、发展策略及对我们行业预期趋势的预测。该等前瞻性陈述是根据本集团现有的数据,亦按本新闻稿刊发之时的展望为基准,在本新闻稿内载列。该等前瞻性陈述是根据若干预测、假设及前提作出,当中许多涉及主观因素或不受我们控制。该等前瞻性陈述或会证明为不正确及可能不会在将来实现。该等前瞻性陈述涉及大量风险及不明朗因素。鉴于上述风险及不明朗因素,本新闻稿内所载列的前瞻性陈述不应视为董事会或本公司声明该等计划及目标将会实现,故投资者不应过于依赖该等陈述。除法律要求的情形外,我们并无责任公开发布可能反映本新闻稿日期后发生的事件或情况或可能反映意料之外事件的该等前瞻性陈述的任何修订。

投资者及媒体问询 
快手科技 
投资者关系
邮箱:ir@kuaishou.com