Maskininlärning förutspår känslor från rösten på 1,5 sekunder med människoliknande noggrannhet

Av: Bohdan Kaminskyi | 20.03.2024, 22:11

Domingo Alvarez E/Unsplash

Forskare från Tyskland har utvecklat maskininlärningsmodeller som kan känna igen känslor i korta röstsnuttar på bara 1,5 sekunder med en noggrannhet som är jämförbar med människor.

Här är vad vi vet

I en ny studie som publicerats i tidskriften Frontiers in Psychology jämförde forskarna tre typer av modeller: deep neural networks (DNN), convolutional neural networks (CNN) och en hybridmodell (C-DNN).

Modellerna tränades på tyska och kanadensiska dataset med meningslösa meningar som talades av skådespelare med olika känslomässiga toner för att utesluta påverkan av språk och mening på igenkänning.

"Våra modeller uppnådde en noggrannhet som liknar människors när de kategoriserar meningslösa meningar med känslomässig färgning som talas av skådespelare", säger huvudförfattaren Hannes Diemerling från Max Planck Institute for Human Development.

Forskarna fann att DNN och en hybrid C-DNN som kombinerar ljud- och bilddata presterade bättre än CNN som enbart använder spektrogram. Sammantaget överträffade alla modeller slumpmässiga gissningar när det gäller noggrannhet för igenkänning av känslor.

Dimerling sa att det faktum att människor och AI-modeller presterade jämförbart kan innebära att de förlitar sig på liknande mönster i ljud för att upptäcka emotionell undertext.

Forskarna konstaterade att sådana system kan komma att användas inom områden som kräver tolkning av känslor, t.ex. terapi eller kommunikationsteknik. Det behövs dock ytterligare forskning om den optimala längden på ljudklipp och analys av spontana känslouttryck.

Källa: TechXplore: TechXplore