Apple utvecklade den multimodala modellen MM1 för bild- och texttolkning

Av: Bohdan Kaminskyi | 19.03.2024, 22:58

Zhiyue/Unsplash.

Apples forskare har skapat en ny artificiell intelligens kallad MM1 som kan tolka både bild- och textdata. Företaget publicerade en artikel på arXiv som beskriver en familj av multimodala modeller (MLLM) och deras testresultat.

Det här är vad vi vet

Enligt utvecklarna har MM1-familjen av multimodala modeller gjort betydande framsteg när det gäller bildtextning, visuella frågesvar och sökfrågor genom att integrera text- och bilddata. Vissa av dem innehåller upp till 30 miljarder parametrar.

Modellerna använder datamängder som består av bildtexter, bilddokument och vanlig text. Forskarna hävdar att MM1 kan räkna objekt, identifiera dem i bilder och använda "sunt förnuft" för att förse användare med användbar information.

Dessutom kan MLLM lära sig kontextuellt, dvs. använda kunskap från den aktuella dialogen i stället för att börja om från början varje gång. Som ett exempel laddas en bild från en meny upp, och modellen kan sedan beräkna kostnaden för drycker för en grupp baserat på de priser som visas.

Flashback

Stora språkmodeller (LLM) har fått mycket uppmärksamhet i media, men Apple har beslutat att inte använda utveckling från tredje part utan istället fokusera på att bygga sin egen nästa generations LLM med multimodal kapacitet.

Multimodal AI kombinerar och bearbetar olika typer av indata, t.ex. visuell information, ljudinformation och textinformation. På så sätt kan systemen bättre förstå komplexa data och ge mer korrekta och kontextuella tolkningar än unimodala modeller.

Källa: TechXplore: TechXplore