Egészen megdöbbentő, mire képes a Microsoft új mesterséges intelligenciája

A Microsoft egy olyan új mesterséges intelligencián dolgozik, amely egyetlen fotó és hangminta alapján képes olyan hiperrealisztikus videót készíteni rólunk, amin beszélünk, írja 24.hu

A VASA-1 mindössze egyetlen fotó alapján képes olyan videót szerkeszteni, amin a szájmozgás, az arcvonások változásai és a fejmozgás is reálisan történik. A modell jelenleg csak egy kutatási demó, és a Microsoft Research csapatán kívül senki sem próbálhatja ki, a videók azonban lenyűgözőek.

A példákban szereplő emberek mindegyike szintetikus, DALL-E képgeneráló programmal készült, de ha képes valósághű MI-képet animálni, akkor bizonyára a valódi fotók animálásával is elboldogul majd a rendszer.

A szoftver nemcsak olyan felvételek alapján képes videót létrehozni, amin az alany előre néz, így kevésbé jól sikerült fotókkal is lehet élethű videókat gyártani. A fejlesztők szerint a program fő felhasználása a videójátékokban lehet, ezzel ugyanis élethű NPC-ket létrehozni reális szájmozgással és mimikával.

A csapat azonban azt állítja, hogy nem tervezik nyilvánosságra hozni a programot, és fejlesztők számára sem akarják elérhetővé tenni.

A program mindössze annyi a korlátja, hogy 512×512 pixeles mozgóképeket lehet csak készíteni 45 képkocka/másodperc sebességgel, és ehhez is Nvidia RTX 4090 GPU kell.

KÖVESSEN MINKET A FACEBOOKON !