Alibabas Qwen2.5-VL AI-modell kan köra Booking.com på Android och boka biljetter från Chongqing till Peking (video)

Av: Nastya Bobkova | 28.01.2025, 05:27
Alibaba har utvecklat AI som kan styra dina enheter: Datorer och telefoner Alibaba släpper AI-modeller som kan styra datorer och telefoner. Källa: CrossML

Alibabas Qwen-team har meddelat lanseringen av en ny serie AI-modeller Qwen2.5-VL som kan utföra ett antal text- och bildanalysuppgifter.

Här är vad vi vet

Modellerna kan bearbeta filer, förstå videor, räkna objekt i bilder och styra datorer, vilket liknar den modell som fungerar i OpenAI Operator.

Enligt testerna kan Qwen2.5-VL

Enligt testdata överträffar Qwen2.5-VL OpenAI:s GPT-4, Anthropics Claude 3.5 och Googles Gemini 2.0 Flash i videoförståelse, matematik, dokumentanalys och frågesvar. Modellen kan analysera grafer och diagram, extrahera data från skannade fakturor och formulär samt "förstå" videor som varar i flera timmar.

Qwen2.5-VL testresultat
Qwen2.5-VL testresultat. Illustration: Alibaba

En intressant funktion i Qwen2.5-VL är möjligheten att interagera med programvara på datorer och mobila enheter. En video som publicerats på X visar en Qwen2.5-VL-modell som startar Booking.com-appen på Android och bokar en flygbiljett från Chongqing till Peking. Men i ett test på en Linux-dator visade sig modellen vara mindre effektiv och begränsade sig till att byta flikar.

Qwen2.5-VL-modellerna har också vissa begränsningar för de ämnen de diskuterar, särskilt i Qwen Chat, på grund av kinesiska internetregleringskontroller som kräver efterlevnad av "socialistiska kärnvärden".

Qwen2.5-VL-modellerna är tillgängliga för testning i Qwen Chat-appen och på Hugging Face-plattformen. Qwen2.5-VL-72B-modellen har en särskild licens som kräver tillstånd för kommersiell användning för företag med mer än 100 miljoner aktiva användare per månad.

Källa: @_philschmid