Google lanserar ny PaliGemma 2-modell för bild- och textbehandling
Efter tillkännagivandet av Gemma 2 vid I/O 2024 i maj introducerar Google en ny version av PaliGemma 2-modellen, en öppen källkodsmodell för bild- och textbehandling.
Här är vad vi vet
Den första versionen av PaliGemma lanserades i maj och användes för uppgifter som att lägga till bildtexter till bilder och videor, känna igen text i bilder, upptäcka objekt, dela upp dem i delar och svara på frågor om visuellt innehåll.
PaliGemma 2
PaliGemma 2 erbjuder en "lång bildtext"-funktion som gör det möjligt att skapa detaljerade beskrivningar av bilder, med hänsyn till handlingar, känslor och den övergripande atmosfären i scenen. Modellen finns i flera varianter med 3B-, 10B-, 28B-parametrar och olika upplösningar.
Textigenkänning och analys av tabellstruktur i dokument har också förbättrats. PaliGemma 2 visar utmärkta resultat när det gäller att känna igen kemiska formler, musikaliska noter, rumsliga resonemang och att skapa rapporter baserade på röntgenbilder.
Google skriver
Google noterar att PaliGemma 2 enkelt kan ersättas med en tidigare version av modellen, med prestandaförbättringar utan behov av större kodändringar.
PaliGemma 2-modeller och kod finns redan tillgängliga på Kaggle, Hugging Face och Ollama.
Tillgänglig kodKälla: 9to5Google