Meta presenterar ett dataset som gör det möjligt att träna taligenkänningssystem på "kluster" av talare

Av: Bohdan Kaminskyi | Uppdaterad 14.07.2023, 21:03

Meta AI har presenterat ett nytt dataset som lovar att öka effektiviteten hos verktyg för automatisk taligenkänning (ASR) genom att klustra talare.

Vad är känt

Många dataset som används för att träna ASR-modeller är organiserade efter demografi: åldersgrupp, kön, nationalitet och engelsk accent. Detta begränsar de olika uttal som algoritmerna tränas på och hindrar dem från att förstå ett brett spektrum av användare.

För att komma runt detta problem har Meta AI utvecklat en dataset som bygger på en metod för klustring av yttranden. Varje kluster innehåller en liknande uppsättning fraser från olika talare. Detta innebär att ASR-modellen kommer att lära sig att känna igen samma yttrande som uttalas av olika personer.

Den slutliga Meta-datauppsättningen innehåller drygt 27 000 grupputtryck som samlats in från 595 frivilliga i USA. Deras fraser täcker sju huvudområden: musik, fotografering, verktyg, hantering av aviseringar, meddelanden, samtal och diktering.

Som uppmaningar fick talarna frågor om hur de skulle söka efter en låt med rösten eller göra upp planer med vänner.

Resultaten av testerna av datasetet var lovande: modellens prestanda förbättrades "i alla demografiska grupper [...], även om de största vinsterna uppnåddes genom den ökade användningen av accenter ", står det i blogginlägget.

Totalt sett ökade ASR:s prestanda med 10 % när klustringsmetoden användes. Samtidigt uppnåddes också en betydande ökning i gruppen 66-85 år, som traditionellt är underrepresenterad inom röststyrning.

Källa: Meta AI: Meta AI.

Artificiell intelligens