多模態視頻創作 快手可靈O1全球問世

情境示意。圖 / Chuko Cribb @ Unsplash 提供

解決AI視頻生成 無法一致性難題

快手科技(01024.HK)2日宣布,旗下可靈AI正式發佈全新產品「可靈O1」,成為全球首個大一統多模態創作工具。可靈O1以全新視頻與圖像模型為基礎,整合文字、視頻、圖片、主體等多模態輸入,可將所有生成與編輯任務融合在同個全能引擎中。

快手指出,可靈O1的推出,徹底解決AI視頻生成過程中,有關角色、場景等碰到的一致性難題,將為影視、自媒體、廣告電商等應用場景,提供進一步深度適配的一站式解決方案。

快手為當前中國甚至全球領先的內容社群及社交平台,致力替全球客戶創造價值。做為以AI為核心驅動技術的科技公司,快手透過與內容創作者、企業緊密合作,提供技術、產品和服務,以滿足用戶包括娛樂、線上營銷服務、電商、本地生活、遊戲等多元需求。

打破模態限制 精準生成各項細節

可靈O1做為首個大一統多模態視頻模型,以多模態視覺語言(MVL)理念,突破傳統單一視頻生成任務的模型邊界,將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務,融合在同個全能引擎中,用戶無需切換模型與工具,就可一站式完成從生成到編輯的全流程創作。

憑藉深層語義理解力,可靈O1可將用戶上傳的圖片、視頻、主體、文字均視為指令。模型打破了模態限制,能夠從不同視角綜合理解一張照片、一段視頻或一個主體,精準生成各項細節。

可靈O1的多模態指令輸入區,讓繁瑣的剪輯後期變成簡單的對話。使用者無需手動遮罩或輸入關鍵幀,只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」等指令,模型即可讀懂影像邏輯,實現從局部主體替換到整體風格重繪的像素級語義重構。

多主體融合能力 能「記住」主角

可靈O1也全面支援圖片/主體參考、視頻內容編輯、鏡頭切換、首尾幀生成及文生視頻等多種能力。針對AI視頻落地中常見的角色與場景不一致的痛點,可靈O1底層強化對輸入圖像與視頻的理解。能像真人導演一樣「記住」主角、道具和場景,確保主體特徵在鏡頭變化中始終保持穩定。

此外,該模型展現強大的多主體融合能力。用戶可自由組合多個不同主體,或將主體與參考圖混搭。即便在複雜的群像戲或互動場景中,模型也能獨立鎖定並保持不同角色或道具的特徵,確保「主角」在不同鏡頭中實現工業級特徵統一。

支援多技能組合 拓展創作自由度

可靈O1支援「技能組合」,不再局限單點任務。使用者可以指令其「在視頻中增加主體的同時修改背景」,或者「在圖片參考生成時,同步修改風格」。這種一次生成多種創意變化的能力,極大拓展創作的自由度,讓創意的化學反應成為可能。

在時長控制方面,可靈O1將定義時間的權力交還創作者,支援3-10秒自由生成。無論短促的視覺衝擊還是悠長的故事鋪陳,使用者可自由掌控。值得一提的是做為統一模型的一部分,可靈O1的首尾幀能力將支援即將發佈的3-10秒生成時長選擇,以進一步增強敘事張力。

4大核心優勢 實現「所想即所得」

可靈圖像O1模型,同時發佈的還有可實現從基礎圖像生成到高階細節編輯全鏈路無縫銜接,用戶既可通過純文本生成圖像,也可上傳最多10張參考圖進行融合再創作。

模型具備特徵高度保持,可以讓主體元素穩定不偏差;精準回應細節修改,讓每處調整都符預期;準確把控風格調性讓畫面氛圍始終統一;超豐富想像力讓創意呈現更具張力,真正實現「所想即所得」等4大核心優勢。

生成編輯一體化 適多元創作場景

全新的可靈O1集生成與編輯於一體,廣泛適用於影視、自媒體、廣告電商等多種場景。無論是從零構建敘事生成還是對既有素材的深度重塑,都能根據不同需求,靈活調用其參考、編輯能力,助力完成創作。

在影視創作領域,可靈O1憑藉強大一致性的圖片(主體)參考,結合主體庫功能,可以精準鎖定每個分鏡角色與服化道,輕鬆生成多個連貫影視鏡頭。後製、自媒體創作者只需輸入「刪除背景中的路人」、「讓天空變藍」等簡單對話指令,就能讓可靈O1自動完成像素級的智能修補與重構。

針對傳統線下廣告實拍成本高、長製作週期問題,可靈O1可使現用戶只需上傳商品、模特兒與場景圖,輔以簡單指令就可快速生成多個酷炫的商品展示廣告,大幅降低實拍成本。

此外,針對模特約拍麻煩與換裝難題,可靈O1也可搭建永不落幕的虛擬T台,只要上傳模特和服裝實拍圖,輸入指令便能完美還原服飾質感和細節,批量生產高品質的Lookbook視頻。

可靈視頻O1 視頻生成編輯不割裂

源於在技術底蘊的深層創新,全新的可靈視頻O1模型打破以往視頻模型在生成、編輯與理解上的功能割裂,構建全新的生成式基底,透過融合多模態理解的多模態轉換器(Multimodal Transformer)與多模態長上下文,實現多任務的深度融合與統一。

 

延伸閱讀

 

前一篇文章東元獎譜科文共裕 8得主讓臺灣有礦
美通社 精選新聞

美通社在1954年開創了企業新聞稿發佈行業的先河,通過分佈在南北美洲、歐洲、亞洲和中東16個國家和地區的無與倫比的辦事處網路,借助與全球領先新聞機構之間的獨特關係,用40多種語言將客戶與170多個國家的受眾聯繫起來。全球4萬多家公司、組織和政府機關都在使用美通社的服務,其中包括50%以上的財富500強企業。

策略風知識新聞網為提供海內外更完整的資訊服務,自2025年11月起與美通社透過媒體合作方式,擇優將國外最新資訊引入,供產業經理人決策參考。相關圖文含他網再授權均經美通社全權授權,策略風將就圖文內容進行必要轉譯、優化與改寫以對準全網風格,加速新知流通。本項合作圖文版權與文責悉歸美通社暨原提供者。

發表評論

請輸入您的評論!
請在這輸入你的名字

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料