xAI introducerade Grok-1.5V, sin första multimodala modell som nu även bearbetar bilder

Av: Bohdan Kaminskyi | Uppdaterad 16.04.2024, 18:38

xAI

Elon Musks startup xAI har tillkännagivit lanseringen av sin första multimodala modell kallad Grok-1.5 Vision, eller Grok-1.5V. Till skillnad från tidigare versioner förstår denna modell inte bara text utan kan också bearbeta visuellt innehåll, inklusive dokument, diagram, grafer, skärmdumpar och foton.

Det här är vad vi vet

Enligt xAI konkurrerar Grok-1.5V med avancerade multimodala modeller inom olika områden, t.ex. tvärvetenskapligt resonemang och dokumentförståelse. Företaget visade sju exempel som demonstrerar modellens kapacitet, från att konvertera en skiss till kod till att skapa en saga från ett barns teckning.

xAI introducerade Grok-1.5V, sin första multimodala modell som nu även bearbetar bilder-2

Jämförelse av xAI:s Grok-1.5V med liknande modeller

xAI har testat Grok-1.5V mot liknande modeller som GPT-4V och Claude 3 och hävdar att dess multimodala modell överträffar konkurrenterna, särskilt i det nya RealWorldQA-riktmärket som är utformat för att bedöma förståelsen av den verkliga rumsliga världen.

xAI introducerade Grok-1.5V, sin första multimodala modell som nu även bearbetar bilder-3

Grok-1.5V-resultat i RealWorldQA-benchmark

Lanseringen av Grok-1.5V följde kort efter lanseringen av den öppna källkoden för Grok-chattboten, som presenterades av xAI i november 2023. Ilon Musks företag fortsätter att förbättra sin AI-utveckling för att konkurrera med marknadsledare som OpenAI. Med detta sagt har Grok tidigare haft problem med att lära användare att bete sig olagligt.

Under de kommande månaderna lovar xAI att göra "betydande" uppdateringar av Grok AI:s funktioner för multimodal förståelse och informationsgenerering.

Källa: VentureBeat: VentureBeat

Artificiell intelligens