Alibabas Qwen2.5-VL AI-modell kan köra Booking.com på Android och boka biljetter från Chongqing till Peking (video)
Alibabas Qwen-team har meddelat lanseringen av en ny serie AI-modeller Qwen2.5-VL som kan utföra ett antal text- och bildanalysuppgifter.
Här är vad vi vet
Modellerna kan bearbeta filer, förstå videor, räkna objekt i bilder och styra datorer, vilket liknar den modell som fungerar i OpenAI Operator.
Enligt testerna kan Qwen2.5-VL
Enligt testdata överträffar Qwen2.5-VL OpenAI:s GPT-4, Anthropics Claude 3.5 och Googles Gemini 2.0 Flash i videoförståelse, matematik, dokumentanalys och frågesvar. Modellen kan analysera grafer och diagram, extrahera data från skannade fakturor och formulär samt "förstå" videor som varar i flera timmar.
Qwen2.5-VL testresultat. Illustration: Alibaba
En intressant funktion i Qwen2.5-VL är möjligheten att interagera med programvara på datorer och mobila enheter. En video som publicerats på X visar en Qwen2.5-VL-modell som startar Booking.com-appen på Android och bokar en flygbiljett från Chongqing till Peking. Men i ett test på en Linux-dator visade sig modellen vara mindre effektiv och begränsade sig till att byta flikar.
Missa inte @Alibaba_Qwen 2,5 VL! Trots all Deepseek-hype släppte Qwen just den bästa öppna multimodalen! Qwen 2.5 VL är en Vision Language Model som kan styra din dator, liknande @OpenAI operatören, extrahera strukturerad information från diagram, och mer!!
- Philipp Schmid (@_philschmid) 27 januari 2025
TL;DR;
3️⃣... pic.twitter.com/GeEGVdl0tI
Qwen2.5-VL-modellerna har också vissa begränsningar för de ämnen de diskuterar, särskilt i Qwen Chat, på grund av kinesiska internetregleringskontroller som kräver efterlevnad av "socialistiska kärnvärden".
LMAO Qwen 2.5 VL kan utföra datoranvändning, direkt ur lådan, och tar sig an OpenAI Operator HEAD ON! ???? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27 januari 2025
Qwen2.5-VL-modellerna är tillgängliga för testning i Qwen Chat-appen och på Hugging Face-plattformen. Qwen2.5-VL-72B-modellen har en särskild licens som kräver tillstånd för kommersiell användning för företag med mer än 100 miljoner aktiva användare per månad.
Källa: @_philschmid