如果開源,大家可以用自己既 selfie,甚至別人的頭像,衣著等數據訓練虛擬人物。
理論上,算力足夠的話,以後各大小 YouTuber ,網紅病左,搵 AI 替身做直播,唔使親自上陣。
相對同類大模型,講野咀型較自然、情緒起伏較自然和能夠隨著時間保持一致、聲畫至表情相對較同步,唔睇開 AI 短片,較難一下子分辨片中人是真人還是 AI 生成。
https://www.facebook.com/reel/3417954295040161
網紅的末日來了,Large Performance Model 將產生億萬個虛擬人物
昨天米哈游公司推出來 LPM 1.0 模型引擎,將從前只有用 Sora(已停止服務)或 Veo3 產生出的以人類表演為主的視頻,用一般的模型可以表現出來。
這種專注於人物為第一視角的模型,解決了從前 AI 表演人的對話自然度,可控性,性緒表演,長時一致性的重大問題。這個模型主要就是使用了大量的表演人的影片當作預訓練資料,在經過嚴格選擇之後,留下3100萬個影片進行訓練。
第二就是針對聲音的處理。因為人在說話,傾聽,微笑時的表情會有所不同,模型會針對這一點來加強。LPM 是一個標準的 DiT 模型,擁有170個參教,是由 WAN 2.1 I2V 優化而來的。
最可怕的大家來看一下影片的示範吧!如果開源了一定玩爆,以後YouTuber也不用每次都親自上陣了。
技術細節不多說,大家可參考論文:
https://arxiv.org/pdf/2604.07823
GitHub說明:
https://large-performance-model.github.io/


