Xiaomi har utvecklat en ultraf snabb röstigenkänningsmodell och gjort den öppen källkod

Av: Viktor Tsyrfa | 04.08.2025, 10:08

Xiaomi har utvecklat en röstigenkänningsmodul kallad MiDashengLM-7B. Genom att använda neurala nätverk istället för fasta algoritmer har företaget uppnått den snabbaste röstigenkänningsprestationen i 22 syntetiska tester. Detta gör det möjligt att bygga användarplattformar som fungerar med nästan ingen fördröjning. Modellen kan användas i smartphones, smarta hem-system, bilar, etc.

MiDashengLM-7B analyserar ljud i realtid och separerar omgivande ljud eller musik. Xiaomi tillämpar redan aktivt denna röstmodell i praktiken i sina produkter, exempelvis analyserar YU7-bilen konstant ljud och kan upptäcka ljudet av skrapande eller krossande glas, vilket gör det möjligt att aktivera larmet även när det inte finns någon påverkan som skulle upptäckas av rörelsesensorn.

Xiaomi har publicerat källkoden för den avancerade rösten under Apache License 2.0, samt detaljerad dokumentation om träning och implementering av teknologin. Modellen kan fungera som en grund för utvecklare och akademiska forskare som vill skapa öppna röstsystem utan beroende av stängda ekosystem.

Kinesiska företag är inte kända för att arbeta med öppna källkodsprojekt. Genom att göra språkmodellen öppen attraherar Xiaomi fler utvecklare, vilket kommer att hjälpa den här produkten att konkurrera på lika villkor med motsvarigheter från stora teknikföretag. Erfarenheten har visat att stora och komplexa programvaruprodukter, såsom ett operativsystem eller en webbläsare, utvecklas snabbare och blir mer konkurrenskraftiga om de utvecklas av en öppen gemenskap av programmerare istället för ett enda företag.