商湯推可控人物視頻大模型 Vimi僅需一張相 生成片長達1分鐘
世界人工智能大會(WAIC 2024)昨天開幕,商湯(0020.HK)在會上推出可控人物視頻生成大模型Vimi,只需要一張任意風格的照片,便能生成和目標動作一致的人物類短片,且時長可長達1分鐘,畫面效果不會隨着時間變化而降低品質或失真。Vimi已經在商湯的官網開放預約。
Vimi是基於商湯「日日新大模型」的能力,一張照片即可生成人物視頻,並支持多種驅動方式,可通過已有人物影片、動畫、聲音、文字等多種元素進行驅動。
支援聊天唱跳等互動場景
商湯表示,讓照片中的人物動起來已非新鮮事,但目前市面上的產品實際應用仍存在挑戰,例如人物動作或表情動作無法精準控制、效果不穩定、時長限制在3至4秒等。
公司稱,與圖片表情控制類技術只能控制面部表情動作不同,Vimi不但可以精準控制人物表情,還可控制照片中人物上半身的自然肢體動作,並自動生成與人物相符的頭髮、服飾及背景變化。
Vimi將向廣大用戶開放使用,上傳不同角度的高清人物照片後,可自動生成數碼分身和不同風格的寫真短片。針對喜愛自拍的用戶,Vimi支援聊天、唱歌、舞動等多種娛樂互動場景。
今年世界人工智能大會一連三天在上海舉行,圍繞核心技術、智慧終端、應用賦能三大領域,聚焦大語言模型(LLM)、算力、機械人、自動駕駛等。據內地媒體報道,本屆大會將現場展示百款LLM,首度發表超過50款LLM新品。今年大會的展覽規模、參展企業數、首發新品數均創新高。
李強籲推動網絡算力普惠化
國務院總理李強在大會開幕式致詞時表示,中國始終積極擁抱智能變革,大力推進人工智能創新發展,高度重視人工智能安全治理。他亦建議,推動網絡、算力、數據等普惠化,為廣大中小企業和普通民眾提供低門檻、低價格的人工智能服務。
百度(09888)創始人李彥宏在大會發表演講提到,過去兩年人工智能急速發展,但如果沒有應用,基礎模型將「一文不值」。基礎模型應用在各行各業、不同領域已經開始逐步滲透,然而要避免掉入「超級應用陷阱」,認為一定要出現DAU(日活躍用戶)達10億的應用才算成功,這是流動時代的思維,AI時代「超級能幹」的應用,比只看DAU的「超級應用」更重要。