OpenAI tillkännager ny teknik för att klona röster från 15-sekunders ljud

Av: Nastya Bobkova | 30.03.2024, 03:47

OpenAI har introducerat ett nytt innovativt verktyg kallat Voice Engine, som kan klona en persons röst från ett 15 sekunder långt ljudprov.

Det här är vad vi vet

Voice Engine analyserar en kort ljudsignal och skapar naturligt klingande tal med "emotionella och realistiska röster". Denna innovativa teknik, som bygger på OpenAI:s befintliga API för talsyntes, kan vara användbar för en rad olika ändamål: ljudböcker, språköversättning och hjälp till personer med talsvårigheter.

OpenAI är medvetet om de allvarliga riskerna med att använda denna teknik, inklusive möjligheten att den missbrukas av skrupelfria personer. Därför arbetar företaget aktivt för att säkerställa integritet och säkerhet och genomför ett antal åtgärder, t.ex. vattenmärkning och proaktiv övervakning av systemanvändningen.

Enligt tillkännagivandet befinner sig Voice Engine fortfarande på förhandsgranskningsstadiet, men företaget har redan genomfört framgångsrika pilotprogram som visar potentialen hos Voice Engine. Förhandsvisningen genomfördes vid Brown University, där funktionen användes för att hjälpa patienter med talsvårigheter.

Enligt OpenAI kommer deras Voice Engine att implementeras samtidigt som man samlar in feedback från partners och följer en policy som förbjuder användning av klonade röster utan individens samtycke. Dessutom planerar de att skapa en "lista över förbjudna röster" för att undvika missbruk.

Hur mycket kostar det?

Den uppskattade kostnaden för att använda Voice Engine är cirka 15 USD per miljon tecken, vilket motsvarar cirka 162 500 ord.

Källa: Engadget