Meta har utvecklat en generativ AI-modell för text-till-tal

Av: Bohdan Kaminskyi | Uppdaterad 16.06.2023, 18:01

Meta har introducerat en generativ modell för konvertering av text till tal kallad Voicebox. Enligt utvecklarna kommer algoritmen att göra för tal vad ChatGPT och DALL-E gjorde för text och bilder.

Vad vi vet

I likhet med generativa system för text och bilder kan Voicebox skapa utdata från grunden, konvertera stilar och modifiera det medföljande provet. Systemet har tränats på 50 000 timmar inspelat tal och public domain-ljudbokstranskriptioner på engelska, franska, spanska, tyska, polska och portugisiska.

Som ett resultat kan Voicebox redigera klipp, ta bort brus och ersätta felaktigt uttalade ord.

"En person kan identifiera vilket råsegment av talet som skadas av brus (t.ex. en hund som skäller), klippa bort det och instruera modellen att regenerera det segmentet", säger forskarna.

Voicebox kan också återge tal från ett två sekunder långt utdrag, överföra språkstil och skapa en mängd olika prover för syntetiska dataset.

När kan vi förvänta oss det?

Meta publicerade inte källkoden för modellen. Utvecklarna hänvisade till "potentiella risker för missbruk" trots de "många intressanta användningsområdena för generativa språkmodeller".

Källa: Meta.

Artificiell intelligens