Apple-forskare utvecklar ett avancerat AI-system för att förbättra röstassistenter

Av: Bohdan Kaminskyi | 03.04.2024, 00:27
Apple-forskare utvecklar ett avancerat AI-system för att förbättra röstassistenter
Jimmy Jin/Unsplash.

Ett team av Apple-forskare har presenterat ett nytt system för artificiell intelligens som kallas ReALM (Reference Resolution As Language Modeling). Det kan förstå tvetydiga referenser till objekt på skärmen, samt ta hänsyn till konversation och kontextuell bakgrund, vilket möjliggör en mer naturlig interaktion med röstassistenter.

Det här är vad vi vet

ReALM använder stora språkmodeller för att omvandla den komplexa uppgiften att lösa skärmreferenser till en språkmodelleringsuppgift. Detta tillvägagångssätt har visat sig ge betydande prestandavinster jämfört med befintliga metoder.

"Att kunna förstå sammanhang, inklusive referenser, är avgörande för en konversationsassistent", konstaterade Apple-forskarna. De visade att ReALM till och med överträffar GPT-4 på den här uppgiften.

En viktig innovation i ReALM är rekonstruktionen av skärmen till en textuell representation som förmedlar den visuella layouten och placeringen av objekt. Detta, i kombination med finjustering av språkmodeller, har gett betydande förbättringar i upplösningen av skärmreferenser.

Apple-forskare utvecklar ett avancerat AI-system för att förbättra röstassistenter-2
ReALM förstår referenser till objekt på skärmen, vilket möjliggör en mer naturlig interaktion med röstassistenter

Forskningen belyser potentialen för specialiserade språkmodeller för att lösa specifika problem i produktionssystem där stora helhetsmodeller är svåra att använda. Apples publicering visar att företaget fortsätter att investera i att förbättra användbarheten för Siri och andra produkter.

Författarna varnar dock för att automatiserade skärmanalyser har begränsningar. Mer komplexa visuella uppgifter kommer sannolikt att kräva datorseende och multimodala metoder.

Medan konkurrenterna aggressivt satsar på generativ AI försöker Apple minska avståndet inom detta snabbt föränderliga område. Företaget förväntas presentera nya funktioner baserade på stora språkmodeller och artificiell intelligens vid den kommande WWDC-konferensen.

Källa: VentureBeat