(資料圖)
IT之家 12 月 18 日消息,據(jù)“龍貓 LongCat”公眾號(hào)今晚的推文,美團(tuán) LongCat 團(tuán)隊(duì)正式發(fā)布并開(kāi)源 SOTA 級(jí)虛擬人視頻生成模型 ——LongCat-Video-Avatar。
該模型基于 LongCat-Video 基座打造,延續(xù)“一個(gè)模型支持多任務(wù)”的核心設(shè)計(jì),原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及視頻續(xù)寫(xiě)等核心功能,同時(shí)在底層架構(gòu)上全面升級(jí),實(shí)現(xiàn)動(dòng)作擬真度、長(zhǎng)視頻穩(wěn)定性與身份一致性三大維度的突破。
據(jù)官方介紹,該模型具備如下技術(shù)亮點(diǎn)。
“告別僵硬,迎接鮮活”:不僅能指揮嘴型,還能同步指揮眼神、表情和肢體動(dòng)作,實(shí)現(xiàn)豐富飽滿(mǎn)的情感表達(dá)。
連“不說(shuō)話”的時(shí)候,都很像人:美團(tuán)通過(guò) Disentangled Unconditional Guidance(解耦無(wú)條件引導(dǎo))訓(xùn)練方法,讓模型明白了“靜音”不等于“死機(jī)”。在說(shuō)話的間歇,虛擬人也會(huì)如同人類(lèi)一般自然地眨眼、調(diào)整坐姿、放松肩膀。
據(jù)介紹,LongCat-Video-Avatar 因此成為首個(gè)同時(shí)支持文字、圖片、視頻三種生成模式的“全能選手”,虛擬人從此有了“真正的生命力”。
在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等權(quán)威公開(kāi)數(shù)據(jù)集上的定量評(píng)測(cè)表明,LongCat-Video-Avatar 在多項(xiàng)核心指標(biāo)上達(dá)到 SOTA 領(lǐng)先水平。
IT之家附項(xiàng)目地址:
關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 供稿服務(wù)| 友情鏈接
咕嚕網(wǎng) jz3f.com 版權(quán)所有,未經(jīng)書(shū)面授權(quán)禁止使用
Copyright©2008-2023 By All Rights Reserved 皖I(lǐng)CP備2022009963號(hào)-10
聯(lián)系我們: 39 60 29 14 2@qq.com