fbpx
Tekoälyt testissä: Stable Diffusion ja Midjourney

Tekoälyt testissä: Stable Diffusion ja Midjourney

Loading the Elevenlabs Text to Speech AudioNative Player...

Kirjoitin jo viime kesänä ensimmäisistä kokeiluistani Midjourneyllä. Paljon on tapahtunut sen jälkeen sekä ko. tekoälyssä itsessään että koko AI-maailmassa ja myös omissa promptauksen taidoissa. En tässä kirjoituksessa siis mene sen tarkemmin ihmisen luonnollista kieltä ymmärtävien tekoälyjen hurjaan kehitykseen, vaan päivitän lyhyesti fiiliksiäni GAN-tekniikalla (Generative Advesarial Network) hallusinoivista tekoälyistä Midjourney ja Stable Diffusion.

Ennen menemistä vertailuun, alla tämän bloggauksen Midjourneyllä tehty thumbnail-kuva etusivulle. Sen alla kokoelma Stable Diffusionin vaihtoehtoisia näkemyksiä jotakuinkin samalla promptilla, toki jonkin verran soveltaen. Kirjoitus jatkuu kuvien jälkeen.

Ps. kuvat kirjoituksessa edustavat sen kirjoitushetken osaamistasoani. Lisäsin muutaman uudemman kuvan artikkelin loppuun 11.3.2023.

Otsakekuva
Midjourney tuotti oheisen näkemykseni supertekoälystä varsin laadukkaasti. Meduusamainen lähestyminen on siis seurausta promptistani, eli ei laiteta kuvan pahaenteistä tunnelmaa AI:n piikkiin.
Hyvä prompti ja model ovat kaikessa tekoälyllä työskentelyssä avain hyviin tuloksiin. Tämä korostuu mielestäni erityisesti Stable Diffusionissa. Kun hyvä komentosarja löytyy monenkin tunnin etsimisen jälkeen, tuottaa SD sen jälkeen inspiroivaa kuvastoa sarjatulella. Varsinkin näin abstraktissa aiheessa, kun silmä ei erota väärin rendatun sormen tai silmän mutaatiota.

Liitän kirjoituksen loppuun lisäksi vertailuksi muutaman testiksi tekemäni kuvan. Ne ovat samoista aihepiireistä kumpaisellakin tekoälyllä tehtynä, mutta ihan 1:1 promptit eivät kyllä toimi SD:n ja MJ:n välillä. Näin mm. siksi, että niissä on eroja ainakin sensuroitujen sanojen osalta, mitä sanoja tekoäly painottaa ja tunnistaa, ilmeisesti myös kuinka pitkiä prompteja ko. AI:t lukevat ja kuinka ei-haluttuja elementtejä (negative prompting) käytetään.

Tekoälyt testissä: Stable Diffusion ja Midjourney

Stable Diffusion, (SD)

Stable Diffusion on ilmainen tekoäly, jonka kiehtova ominaisuus on sen laajennettavuus. Netissä onkin saatavilla jo monenlaisia erilaisia ”modeleja”, joilla on kaikilla omat heikkoutensa ja vahvuutensa. Jokaisen on hyvä kokeilla ainakin muutamaa ja löytää itseään miellyttävä.

Myös siitä on etua, että kun SD ja halutut modit on koneelle asennettu, toimii se ilman nettiyhteyttä. Hyvällä resoluutiolla ja isolla määrällä yksityiskohtia kuvien tekeminen on toki aika hidasta, mutta toisaalta valtavan nopeaa – verrattuna esim. saman kuvan tekemiseen 3D:llä. Oma lukunsa on se, että hyvien kuvien tekeminen vaatii usein todella paljon yrityksiä ja erehdyksiä, mutta kun sitten hyvä prompti (komentosarja) löytyy, tuottaa SD ainakin kohtuullisella osumatarkkuudella OK-laatuista kuvastoa. Mainitsemisen ansaitee myös ainakin käyttämässäni ”DiffusionBee” alustassa olevat “image to image”, “inpaint” ja “outpaint” toiminnot, joilla pystyy joko tuunaamaan jo rendattua kuvaa kokonaan tai korvaamaan siitä vain osia.

Tiivistettynä Stable Diffusion sopii mielestäni paremmin vähän nörtimmälle tekoälystä kiinnostuneelle, sillä se vaatii enemmän säätämistä ja siksi myös kärsivällisyyttä.

Midjourney v4, (MJ)

Midjourneyn versioluku on tätä kirjoittaessani käsittääkseni 4. ja totta puhuakseni se tekee vaikuttavaa jälkeä hämmentävänkin helpolla. Täydellinen MJ ei silti ole, sillä mielestäni se tuottaa vähän turhankin tunnistettavaa tyyliä ja myös versioinnissa voi kuvaa lähteä helposti väärille raiteille. Toki on hyvä huomata, että opettelin melko paljon promptaamista ensin ilmaisella SD:llä ja vasta sitten palasin MJ:n pariin, eli osa helppoudesta voi olla myös toisesta ohjelmasta kertynyttä kokemusta.

Joka tapauksessa MJ v4 tekee todella tarkkaa, yksityiskohtaista ja herkullista jälkeä, ja sillä kuvien tekoon jää suorastaan koukkuun. En osaa olla edes harmissani siitä, että käytännössä 3D-mallinnukseen hankkimani taidot kalpenevat MJ:n rinnalla, sillä koska en joka tapauksessa ehtisi tehdä yhtä 3D-kuvitusta viikkokausia enää. Nyt pääsen nauttimaan mielikuvitukseni tuotteista paljon nopeammin ja voin nähdä lukuisia eri kaupallisia mahdollisuuksia tälle uudelle tavalle kertoa tarinoita.

Mielestäni Midjourney sopii oikeastaan lähes kenelle tahansa AI-kuvittamisesta kiinnostuneelle. Veikkaan MJ:n suurimman haasteen olevan sen toimiminen Discord-alustalla. Vaikeasta asennuksesta huolimatta sovellus toki mahdollistaa MJ:n ajamisen vaikka älypuhelimella ja on asennuksen jälkeen MJ:n käyttäminen Discordilla on SD:tä helppompaa.

Yhteenveto: Tekoälyt testissä, Stable Diffusion ja Midjourney

Elämme tällä hetkellä äärimmäisen kiehtovaa AI-teknologioiden kehityksen aikaa. Täydellinen näistä edellä mainituista ei kumpikaan vielä ole, mutta kehityksen vauhti on kova. On pelkästään ymmärrettävää, että monet kuvittajat ja taidemaalarit ovat huolissaan tilanteesta. Itse näen, että alkushokista selvittyään teknologian kehitys antaa enemmän kuin ottaa. Eikä se taida juuri olla edes muita vaihtoehtoja. Bucle up, nyt mennään!

Esimerkkikuviani joissa tekoäly ollut kuvittajana

Kaikki kuvat tässä kirjoituksessa ovat täysin käsittelemättömiä, ainoastaan kokoelmakuvissa olen muuttanut rajauksia. Näiden kaikkien tekemiseen meni yhteensä arviolta noin 10-12 tuntia. Työläintä oli saada Stable Diffusion laulamaan edes jotakuinkin nuotissa ja odotella sopivien rendauksien syntyä. Vastaavasti Midjourneyllä ei mennyt montaa minuuttia per kuva, mutta toisaalta siltä onkin lupa odottaa vähän enemmän, sillä Midjourney on lyhyen kokeiluversion jälkeen maksullinen palvelu.

Avaruusmatkalla (SD)

Vakava nuori nainen ohjaamassa avaruusalusta läpi galaksin
Stable Diffusionin scifi-osasto on selkeästi tässä modelissa hieman pelimäinen. Ihan hieno kuva silti, mutta ehkä aavistuksen geneerinen.

Avaruusmatkalla (MJ)

Antamallani promptilla Midjourney teki helposti paljon hienoja vaihtoehtoja. Suurin “haaste” oli saada pilotti katsomaan pois kamerasta, mutta sekään ei ollut järin monimutkaista: kunhan käski katsomaan ulos ikkunasta.

Vampyyriprinsessa (SD)

Gothic Vampire Princess rendered with Stable Diffusion.
Kun Stable Diffusionissa löytää osuvan promptin, pystyy kuvia tekemään helposti paljon sarjatuotantona. Aihepiirin ollessa kohtuullisen vaikea, eli tyylitelty kaunis goottivampyyriprinsessa, onnistui karkeasti arvioiden vain noin 3-5 % rendatuista kuvista. Huom: vaihdoin alkuperäisen esimerkkikollaasin saadun palautteen pohjalta tähän yhteen esimerkkiin, joka sekin riittää havainnollistamaan laadullisia eroja MJ:n ja SD:n välillä. Herännyt keskustelu tekoälyjen ulkonäköpreferensseistä ja -vinoumista on kiinnostava, mutta ei tämän enemmän teknisiin laatueroihin keskittyvän kirjoituksen tarkoitus.

Vampyyriprinsessa (MJ)

Vampyyriprinsessan potretti
Midjourney tekee kuviinsa paljon enemmän yksityiskohtia ja luonnetta. Sen kuvasto ei ole yhtä “NSFW”, sillä siinä missä SD saattaa jättää vaatteet kokonaan pois kuvasta, uhkaa MJ banneilla jos erehtyy kirjoittamaan promptiin jotain vähän rohkeampaa. xD

Varttunut cowgirl (SD)

Vanha Cowgirl verannalla kynttilöiden valossa
Tässä testissä käyttämäni Stable Diffusionin malli ei ollut parhaimmillaan vanhempien ihmisten kuvittamisessa. Lisäksi se yksi aika paljon rendauksien sormissa, silmissä ja kasvoissa yleensäkin. Tässä taustalla on ehkä jonkinlainen kyvyttömyys tehdä vaadittua määrää yksityiskohtia monimutkaisessa kuvassa.

Varttunut Cowgirl (MJ)

Midjourney pesi “Old Cowgirl” kuvaparissa Stable Diffusionin 6-0. Hallittu yksityiskohtien määrä, valaisu ja kuvan tunnelma on aivan eri tasoa.

Kuvien vertailu rinnan (SD, photoshopattu SD, MJ)

Jatkoin vielä vertailua hieman lisäten panostuksia. Ajattelin, että jos Stable Diffusionilla renderöisi yksittäisiä elementtejä ja niiden avulla parantaisi lopputulosta, saattaisi melko pienellä vaivalla päästä yhtä hyvään jälkeen kuin Midjourneyllä. Mutta vaikka en koe, että SD tekee ihan huonoa jälkeä (kaikki edellä huomioiden), niin Midjourney voittaa silti oikeastaan kaikilla osa-aluella ainakin tätä kirjoittaessani. Kuten kuvasta alla näkyy.

EDIT: 11.3.2023

Vaikka mieli tekisi, en lähde tämän artikkelin kuvitusta päivittämään. Kuvat edustavat sitä osaamisen tasoa joka minulla kirjoitushetkellä oli. Sittemmin otin ajoon Stable Diffusionin AUTOMATIC1111 web-ui:n, joka avasi valtavasti uusia mahdollisuuksia kuvien työstöön. Ohessa muutama esimerkkikuva havainnollistamaan kehitystä tällä saralla.

Midjourney vs Stable Diffusion vs Dall-E 2

Tässä kuvassa koitin kuvata promptille omaa ulkonäköäni. Kuvassa en pyrkinyt täydelliseen realismiin, vaan annoin kunkin tekoälyn ominaistyylin jäädä näkyviin. Saamieni kommenttien mukaan moni pitää Midjourneyn v4 -tyyliä visuaalisesti hienoimpana. Itse jopa hieman positiivisesti yllätyin Dall-E 2:n rouheasta stailista, mutta pidän kuitenkin Stable Diffusionin näkemystä itseäni miellyttävimpänä.

Stable Diffusion ja ControlNet testi

ControlNet-lisäosalla Stable Diffusion pystyy kopioimaan valokuvasta asennon tekoälyhahmolle. Kuva valmisteilla olevasta koulutusmateriaalistani kuvatekoälyjen mahdollisuuksista.

Stable Diffusion, tavallisia ihmisiä

Stable Diffusionilla luotuja tavallisia ihmisiä
SD:llä pääsee hyvällä modelilla ja oikealla samplerilla varsin vakuuttaviin tuloksiin.

Midjourney, konseptikuvia

MJ on mielestäni edelleen todella hyvä nopeaan ideointiin ja visuaaliseen fiilistelyyn.

One Reply to “Tekoälyt testissä: Stable Diffusion ja Midjourney”

  1. Mielenkiintoinen kirjoitus, kiva nähdä ja kuulla vertailuja SD:n ja MJ:n suhteen.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *