Amazon har skapat den största text-till-tal-modellen hittills

Av: Bohdan Kaminskyi | 20.02.2024, 17:46

Christian Wiediger/Unsplash

Amazons forskningsgrupp för artificiell intelligens har tillkännagivit utvecklingen av den största text-till-tal-modellen hittills. "Största" avser antalet parametrar och mängden data som används för träning.

Här är vad vi vet

Den presenterade modellen, kallad BASE TTS, innehåller 980 miljoner parametrar. Den tränades på 100 000 timmar ljudinspelningar av tal från offentliga resurser, mestadels på engelska.

Systemet fick också se exempel på talade fraser på andra språk så att det kunde uttala vanliga uttryck korrekt.

Under tester med små datamängder identifierade Amazon-teamet ett "hopp" i kvaliteten på talsyntesen när den nådde 150 miljoner parametrar. Samtidigt började modellen demonstrera ett antal nya språkfunktioner.

Experter noterar att BASE TTS kommer att visas i den offentliga domänen för att undvika oetisk användning. Istället kommer den att fungera som en träningsbas för att förbättra befintliga lösningar inom detta område.

Källa: TechXplore: TechXplore