Google har presenterat VLOGGER, en artificiell intelligens som kan ge liv åt stillbilder

Av: Bohdan Kaminskyi | 19.03.2024, 20:13

Google

Googles forskare har utvecklat ett nytt system för artificiell intelligens som kallas VLOGGER och som kan generera realistiska videor av människor som rör sig och pratar från bara ett foto.

Här är vad vi vet

VLOGGER kan ta ett foto av en person och ett ljudspår som input, och sedan syntetisera en video av personen som säger ord, gör lämpliga ansiktsuttryck, gester och huvudrörelser. Även om de genererade videorna inte är perfekta visar de på betydande framsteg när det gäller att ge liv åt statiska bilder.

För att skapa modellen samlade utvecklarna in en enorm MENTOR-datauppsättning med mer än 800 000 personer och 2 200 timmar video. Genom detta har VLOGGER lärt sig att generera en mängd olika karaktärer i olika åldrar, med olika etnisk bakgrund och i olika miljöer.

Tekniken öppnar för många tillämpningar, bland annat automatisk dubbning av video, redigering och komplettering av saknat material samt skapande av hela videor från ett enda foto. Detta kan vara användbart inom underhållningsindustrin, virtual reality, utbildningsprogram och för att skapa AI-drivna virtuella assistenter.

Det finns dock en risk att VLOGGER används för att skapa deepfakes - syntetiska mediefiler där en verklig person ersätts av en fejk. I takt med att sådana videor blir mer sofistikerade kan de förvärra problemen med felaktig information och förfalskningar på internet.

Utvecklarna erkänner att VLOGGER har begränsningar. De videor som skapats är relativt korta, har statiska bakgrunder och personerna rör sig inte i en 3D-miljö. Trots detta kallar forskarna modellen för en milstolpe inom AI-forskningen.

Källa: VentureBeat: VentureBeat