Google lanserar ny PaliGemma 2-modell för bild- och textbehandling

Av: Nastya Bobkova | 05.12.2024, 22:38

Efter tillkännagivandet av Gemma 2 vid I/O 2024 i maj introducerar Google en ny version av PaliGemma 2-modellen, en öppen källkodsmodell för bild- och textbehandling.

Här är vad vi vet

Den första versionen av PaliGemma lanserades i maj och användes för uppgifter som att lägga till bildtexter till bilder och videor, känna igen text i bilder, upptäcka objekt, dela upp dem i delar och svara på frågor om visuellt innehåll.

PaliGemma 2

PaliGemma 2 erbjuder en "lång bildtext"-funktion som gör det möjligt att skapa detaljerade beskrivningar av bilder, med hänsyn till handlingar, känslor och den övergripande atmosfären i scenen. Modellen finns i flera varianter med 3B-, 10B-, 28B-parametrar och olika upplösningar.

Textigenkänning och analys av tabellstruktur i dokument har också förbättrats. PaliGemma 2 visar utmärkta resultat när det gäller att känna igen kemiska formler, musikaliska noter, rumsliga resonemang och att skapa rapporter baserade på röntgenbilder.

Google skriver

Google noterar att PaliGemma 2 enkelt kan ersättas med en tidigare version av modellen, med prestandaförbättringar utan behov av större kodändringar.

PaliGemma 2-modeller och kod finns redan tillgängliga på Kaggle, Hugging Face och Ollama.

Tillgänglig kod
Källa: 9to5Google