Den ouppnåeliga konstens höjdpunkt: Varför ritar Midjourneys artificiella intelligens 6 fingrar på dina händer och hur kan det åtgärdas?

Av: Vladyslav Nuzhnov | 24.01.2023, 09:00

Varför producerar artificiell intelligens (AI) obegripliga händer? Detta ämne, liksom allt annat som rör neurala nätverk, har blivit mycket hett och väcker många frågor, så vi måste gå till botten med det hela en gång för alla. För det är bara den lataste som inte har försökt "leka" med Midjourney eller DALL-E. De bilder de skapar på några minuter har snabbt fått en publik. Vad finns det att prata om när hela communities på 100+ tusen personer skapas för att dela med sig av sina AI-genererade verk.

Det har gått så långt att konstnärer på Artstation, som är den största portalen för konstnärer, har gått ut i strejk mot AI och krävt att bilder som inte är skapade av människor ska märkas. För vissa kan allt detta påminna om händelserna i Detroit: Become Human, när mänskligheten stod inför intelligenta androider som var bättre än människor i allt och ersatte dem på många områden i livet. Från förare till professionella idrottare. Så debatten kring neurala nätverk har inte avtagit, och redan har vissa börjat allvarligt överväga om AI kan ersätta människor i olika yrken redan i vår värld, och inte i spelet?

Men tillbaka till ämnet händer. Varför kan AI inte visa fingrarna korrekt, vad påverkar det? Kanske för att även människor har problem med att rita händer? Eller är problemet otillräcklig databas som artificiell intelligens förlitar sig på. Vad händer om vi kräver för mycket från AI? Faktum är att allt det ovanstående och resultatet till och med påverkas av mänsklig psykologi. Så gg-redaktionen har tittat närmare på saken och kommer att förklara varför den fiktiva Midjourney har problem med att generera mänskliga lemmar.

Ett exempel på hur Midjourney genererar händer (Illustration: medium)

Till att börja med, vad är Midjourney och liknande verktyg?

Midjourney är ett oberoende forskningslabb som utvecklar ett artificiellt intelligensprogram med samma namn som genererar bilder från textbeskrivningar. Bilderna skapas med hjälp av en särskild chatbot i Discord. Verktyget är för närvarande i öppen betatestning, som började den 12 juli 2022. Populära motsvarigheter till Midjourney är DALL-E och Stable Diffusion. Funktionsprincipen är mycket likartad i dem alla. Den enda skillnaden är stilen och nivån på AI-utvecklingen.

Bild skapad av AI (Illustration: howtogeek)

För dem som vill veta mer: hur exakt skapar man en bild?

Enbart ett textinlägg kommer inte att räcka. Om du bara ber Midjourney att skapa en bild av en gris i en badtunna kommer resultatet att bli sådär. Men vi har ju sett alla dessa otroliga bilder, vad är hemligheten? En prompt, eller ledtråd, kommer till undsättning. Vi använder dem för att specificera vilken typ av bild vi vill få från den artificiella intelligensen. Med rätt prompt kan du få en sådan realistisk griskulting.

Resultatet "före" och "efter" detaljerad prompt (Skärmdump: itpedia)


Så vad är det med fingrarna?

Och nu om barriären som AI inte kan korsa - korrekt representera fingrar eller tår. Och detta är långt ifrån en hypotes. Problemet är utbrett och har redan varit föremål för både debatt och förlöjligande.

Ett exempel på hur människor reagerar på AI-genererade händer (Illustration: knowyourmeme)

Men varför händer detta? Svaret på den frågan finns redan. Förresten, tack vare en annan AI.

Svaret från utvecklaren av en av AI:erna

Det finns en artificiell intelligens som heter The Jasper Whisperer. Den är specialiserad på att skriva text och skapar även generativa bilder (och nej, "generativ" har inget att göra med ordet "degenerativ", även om de låter alltför lika). Jasper Whisperer har också en egen blogg på medium, som beskriver varför det finns ett problem med reproduktion av lemmar. Detta påverkas av flera faktorer och var och en måste lösas separat.

Ett exempel på The Jasper Whisperers arbete (Illustration: medium)

Armen är en komplex kroppsdel

Handens anatomi är i sig ganska komplex. Åtminstone finns fingrarna i alla former och storlekar. Det är alltid nödvändigt att representera dem korrekt, annars kommer handen att se onaturlig ut. Även när händerna är i en "avslappnad" position finns det information som måste ritas: rynkor och veck på knogarna eller skuggor på handflatorna.

På grund av den komplexa geometrin finns det ingen standarduppsättning av linjer eller former som AI kan känna igen som en hand. AI:n måste matcha många olika former varje gång, och så småningom resulterar detta i 6 eller fler fingrar.

Det finns också cirka 30 punkter med geometriska avvikelser i den mänskliga handen. Från fingrarnas längd och bredd till metakarpalbenen och handleden. Faktum är att våra händer är så komplexa och unika att deras geometri till och med kan vara ett bättre biometriskt kännetecken än vårt ansikte.

Så här mycket detaljer krävs för att rita en realistisk hand (Foto: artincontext)

Händer är svåra att rita, även för människor

Det är därför som att avbilda händer är en av de svåraste uppgifterna inom teckning. Deras geometri gör dem till svåra objekt att illustrera. Av den anledningen ritas seriefigurer ofta med 3 fingrar och en tumme. För att det är så mycket enklare. Och vi ser det så ofta att vi inte ens märker det. Så problemet med händer är inte nytt och inte relaterat till artificiell intelligens. Det är ett konstproblem. Jasper Whisperer tycker till och med att det är lite lustigt att AI upplever samma konstnärliga svårigheter som människor.

Illustration: screenrant

För den som vill veta mer: vad tycker ChatGPT om det?

En annan populär AI i dessa dagar är ChatGPT. Det är en chattbot som lanserades av OpenAI i november 2022 och som har blivit känd för sina detaljerade och tydliga svar inom många kunskapsområden, till och med IT. Så programmerare skämtar redan om att denna bot en dag kommer att ersätta dem.

Programmeraresreaktioner på ChatGPT (Illustration: Clément Mihailescu)

Och om du frågar ChatGPT varför människor tycker att det är svårt att rita händer och fingrar, kommer den att svara följande: "Att rita händer anses ofta vara ett av de svåraste elementen för en konstnär på grund av detaljnivån och komplexiteten. Händerna består av många små ben, muskler och senor. Och alla dessa måste vara korrekt avbildade för att teckningen ska vara realistisk. Dessutom kan händernas position vara svår att förmedla eftersom de ständigt är i rörelse och kan positioneras på ett oändligt antal sätt. På grund av denna komplexitet anser många konstnärer att teckna händer är en av de mest frustrerande och utmanande aspekterna av deras hantverk."

Skärmdump: medium

Så The Jasper Whisperer håller också med om ChatGPT:s påstående.


Vi kräver för mycket av artificiell intelligens

Jasper Whisperer anser att vi ber AI:n att göra det omöjliga. En människa ritar så länge den existerar, men det kan ta en vecka av dess tid att skapa en realistisk hand. Tekniken för artificiell intelligens utvecklas fortfarande. Samma Midjourney är mindre än ett år gammal. Och även om vi redan ser fantastiska bilder finns det begränsningar.

Det blir ännu mer komplicerat när du skapar flera händer i samma bild, t.ex. två personer som håller varandra i handen eller en grupp vänner som kramas. Och varje hand måste ritas exakt, annars blir inte hela bilden vad den är tänkt att vara. Oftast är händerna från AI så konstiga eftersom de är "överbelastade" i fotot.

Exempel på "överbelastade" händer i en ram (Illustration: medium)

Vad tycker vanliga användare om detta?

Det var på Reddit som jag stötte på en ganska lång förklaring. En av användarna beskrev problemet i detalj. Poängen är att AI:n inte har ett logiskt tänkande när den "skapar" konst. Den vet inte att människan har ett skelett med en viss mängd ben, organ, muskler och allt annat. Den vet inte vad som måste finnas på en viss plats och ha ett visst utseende beroende på kroppens rörelser. Allt AI:n kan göra är att återge vad den har blivit tillsagd. Den villkorliga Midjourney med sin bild kommer att svara på frågan "VAD är det" snarare än "VARFÖR är det så". Ibland genererar den klädbälten som smälter in i en persons hud och andra liknande saker. Faktum är att roboten aldrig kan förstå de saker den "ritar" på samma sätt som du förstår dem. Den konstruerar inte sin konst på samma sätt som en riktig konstnär gör. Människor förstår vad de ritar på en djupare nivå och tar hänsyn till många andra saker som inte återspeglas i teckningen.

Midjourney förstår inte riktigt hur en astronauts hand ska se ut (Illustration: medium)

Några galna teorier

Författarna till theamericangenius lägger fram en teori om att AI hittar sätt att dämpa vår rädsla och försäkra oss om att den inte kommer att ta över världen. Genom att göra det är det som om den försöker säga "Jag är inget hot, jag kan inte rita enkla armar eller ben". Skämt är skämt, men varje teori har rätt att existera.

Illustration: theamericangenius

AI:n styrs mestadels av de bilder som finns på internet. Och ur detta faktum på Reddit växer en annan teori fram. Artificiell intelligens kan enkelt skapa symmetriska ansikten eftersom det finns miljontals foton och teckningar av dem. Det finns inte lika många händer, för att inte tala om det faktum att de själva och deras posering är mer komplexa. Denna teori stöds av teckningar av nybörjare eller lektioner för nybörjare, där man ofta kan se händer som är dolda i fickor eller helt enkelt inte finns med i bilden.

Ett exempel som visas för nybörjare. Händer dolda i fickor (Foto: artistsnetwork)

En teori om mänsklig psykologi

Det sista exemplet har att göra med det faktum att vi är psykologiskt benägna att leta efter fel i den mänskliga handen snarare än i ansiktet. För att få en bättre uppfattning om vad vi pratar om måste du titta på den upp-och-nedvända bilden av Adeles ansikte:

Illustration: businessinsider

Vid första anblicken är det inget fel här, men om du vänder upp och ner på bilden igen blir resultatet redan det här:

Illustration: businessinsider

Varför märker vi inte detta? Denna illusion är känd som "Thatcher-effekten", uppkallad efter den tidigare brittiska premiärministern Margaret Thatcher, vars bild först användes för detta trick.

Thatcher-effekten (Illustration: businessinsider)

Denna effekt belyser en brist i hur våra hjärnor fungerar - vi kan inte bearbeta ett inverterat ansikte. Och en studie från The Naked Scientists visar att människor känner igen ett ansikte på dess delar - ögon, mun och näsa. Så när vi får se en upp-och-nedvänd bild av Thatcher behandlas den inte korrekt.

Och som businessinsiders har skrivit, så möter vi så sällan omvända ansikten att vi inte kan tolka uttrycket på dem. Ansiktsdragen ser normala ut, så vår hjärna tror att resten av ansiktet också gör det. Det är därför vi inte lägger märke till något ovanligt förrän vi orienterar vårt ansikte därefter.

Det är dock en helt annan situation med händerna. The Jasper Whisperer konstaterar att det finns något med händerna som vi är mycket känsliga för och känner igen instinktivt. Så om AI:n gör ett misstag med händerna märker vi det omedelbart. Även om axeln inte är korrekt representerad kanske en person inte ens märker det. Men om proportionerna på tummen, pekfingret, långfingret, ringfingret och lillfingret är något fel kommer det att märkas omedelbart.

Du kommer omedelbart att märka de felaktigt genererade händerna (Illustration: medium)

Så vi har två sidor av myntet. Å ena sidan har vi en artificiell intelligens som inte har en tillräckligt stor databas med bilder på mänskliga händer och som inte helt förstår vad "anatomiskt korrekta händer" betyder i allmänhet. Så den behöver fortfarande spendera mycket tid på att bearbeta just dessa data. Och å andra sidan finns den psykologiska faktorn hos en person som av någon anledning omedelbart lägger märke till handfel. Men det är fortfarande möjligt att förbättra genereringen av fingrar med hjälp av AI.

Hur får man AI att rita händer bättre?

Och återigen kommer The Jasper Whisperer till undsättning. Det finns en hel guide på denna AI:s blogg om hur man förbättrar genereringen av händer.

Ge händerna något att göra

Händer som gör något hanteras bättre av AI:n. Till exempel om din hand måste hålla i en kopp. Detta har att göra med träningsdata: du begränsar sökningen som visar fingrarna i vissa positioner. Naturligtvis är resultatet inte alltid framgångsrikt. Här är två genererade bilder: den första är DALL-E, den andra är Midjourney. På fotot, där flickan håller i glaset, är allt mer eller mindre framgångsrikt. Men fotot med fisken någonstans gav en glitch (och inte bara med händerna).

Något gick fel i det andra fotot (Illustrationer: medium, midjourney)

Använd inmålning.

Med inpainting kan du radera en del av den genererade bilden så att AI kan fylla den med något annat. Detta är ett bra sätt att rita om händerna. Detta hanteras bäst av Dall-E 2. Och för jämförelse, en före och efter bild målas över:

Illustration: petapixel

Förbättra dina egna händer

Metoden fungerar inte för alla, men om du eller någon du känner har Adobe Photoshop eller något annat grafikprogram kan du göra om händerna som AI:n genererade.

Beskär fotot

Ibland är det enklaste och bästa alternativet att helt enkelt beskära fotot lite för att hålla några av händerna utanför ramen. Detta är exakt vad en användare på Discord-servern Midjourney gjorde.

Tillhandahåll foton för jämförelse

Midjourney har en funktion som kallas "image-to-image" - det är när du först ger det neurala nätverket ett foto och sedan textar vad som behöver göras. Och det här sättet kommer att göra det mycket enklare för AI, som redan har svårt att skapa händer.

Handen är fortfarande ett problem, men inte så kritiskt. (Illustration: Allt om AI)

5) Fler ledtrådar. Det är redan tydligt att bara skriva "hand" inte kommer att ge oss de resultat vi behöver. Så vi måste ge AI:n fler ledtrådar. Beskriv posen och handlingen i detalj, tänk på små detaljer som: naglar eller rynkor på knogarna. Och beskriv handens form. Använd termer som "böjd" eller "öppen" för att göra detta.

Återigen är det värt att komma ihåg att det inte kommer att göra någon skillnad att be om "5 fingrar". När allt kommer omkring är det precis vad som hände mig. Jag stavade "hand med 5 fingrar, naglar, rynkor runt knogarna, öppen, --ar 2:3 --q 2 --v 4" som The Jasper föreslog. Och jag fick faktiskt ett resultat med en hand som har 5 fingrar. Men bara i 2 av de 4 bilderna. Dessutom liknar var och en av dem konceptgrafiken till ett skräckspel. Det finns dock redan en chans att vi efter generering kommer att ha ett mer eller mindre bra resultat.

Hur ska man annars få AI:n att rita en hand?

För att slippa skriva en massa tips till AI:n, men för att få en hand med 5 fingrar som inte liknar läskiga spel eller filmer, behöver du faktiskt bara skriva ett ord - "handskar". Det ordet räckte för att jag skulle få ett resultat som detta. Så om du inte behöver en "bar" hand skulle det här vara det bästa alternativet.

Men om du inte bara vill ha händer utan vill att de ska vara inblandade i ramen? Skriv då till exempel "ett par som håller varandra i handen går i en park och bär handskar. Om du börjar zooma in kan du hitta små fel, men med blotta ögat är det svårt att se vad som är fel.

Anledningen till detta är att genom att helt enkelt skriva "gloves" i google images kan vi se hur handskarna i de flesta bilder ligger rakt upp och vi kan tydligt se 5 fingrar på dem. Och AI:n förlitar sig bara på en databas med foton som finns online.

Om du däremot vill ha en hand utan handskar är en vanlig manikyr räddningen. Så skriv till exempel in "vigselring och nagellack" i The Jasper Whsiper och voila, 5 fingrar, inga imperfektioner eller något.

Illustration: medium

Anledningen är densamma som med handskarna. Ett Google-foto av 90% manikyr kan tydligt se 5 fingrar, och ofta i samma position. Därför är AI snabbare på att räkna ut hur detta ska avbildas.

Slutsats: när kan vi förvänta oss maskinernas intåg?

Så faktum är att Midjourney och liknande kan avbilda en hand med 5 fingrar. Det är bara det att de flesta förfrågningar från människor inte var helt korrekta, och situationen komplicerades av själva handens struktur, som är svår att avbilda, vilket ledde till sådana hetsiga diskussioner. Resultatet med 5 fingrar från en AI kommer inte alltid att vara som det ska vara. Men det finns redan gott om alternativ. Det är viktigt att komma ihåg att de neurala nätverksdelar som nämns idag är mindre än ett år gamla. Även erfarna konstnärer som har ritat i flera år kommer inte alltid att skapa en realistisk hand snabbt. Så att "här och nu" kräva exceptionellt coola resultat från neurala nätverk är inte en bra idé. Artificiell intelligens lär sig för varje dag, och om den vill komma till nästa nivå i skapandet av en bild måste den få fler och fler av de rätta förfrågningarna som innehåller mycket förfining. När människor för ett par år sedan såg AI försöka skapa något var det få som tog det på allvar. Idag finns det dock en aktiv diskussion om "Kommer maskiner att ersätta oss?". Förvisso inte alla, behovet av fotografer har inte försvunnit i och med Adobe Photoshop. För professionella konstnärer kommer Midjourney att vara ytterligare ett användbart verktyg för att påskynda och förbättra ditt arbete. Vissa kommer att tycka att det är ett intressant verktyg att leka med, medan andra kommer att försöka ta reda på vad som är problemet med fingermappning. Om några år kanske vi undrar om ett uppror mot maskinerna kommer att äga rum.

För den som vill veta mer