Alibabas Qwen2.5-VL AI-modell kan köra Booking.com på Android och boka biljetter från Chongqing till Peking (video)
Alibabas Qwen-team har meddelat lanseringen av en ny serie AI-modeller Qwen2.5-VL som kan utföra ett antal text- och bildanalysuppgifter.
Här är vad vi vet
Modellerna kan bearbeta filer, förstå videor, räkna objekt i bilder och styra datorer, vilket liknar den modell som fungerar i OpenAI Operator.
Enligt testerna kan Qwen2.5-VL
Enligt testdata överträffar Qwen2.5-VL OpenAI:s GPT-4, Anthropics Claude 3.5 och Googles Gemini 2.0 Flash i videoförståelse, matematik, dokumentanalys och frågesvar. Modellen kan analysera grafer och diagram, extrahera data från skannade fakturor och formulär samt "förstå" videor som varar i flera timmar.
Qwen2.5-VL testresultat. Illustration: Alibaba
En intressant funktion i Qwen2.5-VL är möjligheten att interagera med programvara på datorer och mobila enheter. En video som publicerats på X visar en Qwen2.5-VL-modell som startar Booking.com-appen på Android och bokar en flygbiljett från Chongqing till Peking. Men i ett test på en Linux-dator visade sig modellen vara mindre effektiv och begränsade sig till att byta flikar.
Qwen2.5-VL-modellerna har också vissa begränsningar för de ämnen de diskuterar, särskilt i Qwen Chat, på grund av kinesiska internetregleringskontroller som kräver efterlevnad av "socialistiska kärnvärden".
Qwen2.5-VL-modellerna är tillgängliga för testning i Qwen Chat-appen och på Hugging Face-plattformen. Qwen2.5-VL-72B-modellen har en särskild licens som kräver tillstånd för kommersiell användning för företag med mer än 100 miljoner aktiva användare per månad.
Källa: @_philschmid