Tekoälyt testissä: Stable Diffusion ja Midjourney
Kirjoitin jo viime kesänä ensimmäisistä kokeiluistani Midjourneyllä. Paljon on tapahtunut sen jälkeen sekä ko. tekoälyssä itsessään että koko AI-maailmassa ja myös omissa promptauksen taidoissa. En tässä kirjoituksessa siis mene sen tarkemmin ihmisen luonnollista kieltä ymmärtävien tekoälyjen hurjaan kehitykseen, vaan päivitän lyhyesti fiiliksiäni GAN-tekniikalla (Generative Advesarial Network) hallusinoivista tekoälyistä Midjourney ja Stable Diffusion.
Ennen menemistä vertailuun, alla tämän bloggauksen Midjourneyllä tehty thumbnail-kuva etusivulle. Sen alla kokoelma Stable Diffusionin vaihtoehtoisia näkemyksiä jotakuinkin samalla promptilla, toki jonkin verran soveltaen. Kirjoitus jatkuu kuvien jälkeen.
Ps. kuvat kirjoituksessa edustavat sen kirjoitushetken osaamistasoani. Lisäsin muutaman uudemman kuvan artikkelin loppuun 11.3.2023.
Liitän kirjoituksen loppuun lisäksi vertailuksi muutaman testiksi tekemäni kuvan. Ne ovat samoista aihepiireistä kumpaisellakin tekoälyllä tehtynä, mutta ihan 1:1 promptit eivät kyllä toimi SD:n ja MJ:n välillä. Näin mm. siksi, että niissä on eroja ainakin sensuroitujen sanojen osalta, mitä sanoja tekoäly painottaa ja tunnistaa, ilmeisesti myös kuinka pitkiä prompteja ko. AI:t lukevat ja kuinka ei-haluttuja elementtejä (negative prompting) käytetään.
Tekoälyt testissä: Stable Diffusion ja Midjourney
Stable Diffusion, (SD)
Stable Diffusion on ilmainen tekoäly, jonka kiehtova ominaisuus on sen laajennettavuus. Netissä onkin saatavilla jo monenlaisia erilaisia ”modeleja”, joilla on kaikilla omat heikkoutensa ja vahvuutensa. Jokaisen on hyvä kokeilla ainakin muutamaa ja löytää itseään miellyttävä.
Myös siitä on etua, että kun SD ja halutut modit on koneelle asennettu, toimii se ilman nettiyhteyttä. Hyvällä resoluutiolla ja isolla määrällä yksityiskohtia kuvien tekeminen on toki aika hidasta, mutta toisaalta valtavan nopeaa – verrattuna esim. saman kuvan tekemiseen 3D:llä. Oma lukunsa on se, että hyvien kuvien tekeminen vaatii usein todella paljon yrityksiä ja erehdyksiä, mutta kun sitten hyvä prompti (komentosarja) löytyy, tuottaa SD ainakin kohtuullisella osumatarkkuudella OK-laatuista kuvastoa. Mainitsemisen ansaitee myös ainakin käyttämässäni ”DiffusionBee” alustassa olevat “image to image”, “inpaint” ja “outpaint” toiminnot, joilla pystyy joko tuunaamaan jo rendattua kuvaa kokonaan tai korvaamaan siitä vain osia.
Tiivistettynä Stable Diffusion sopii mielestäni paremmin vähän nörtimmälle tekoälystä kiinnostuneelle, sillä se vaatii enemmän säätämistä ja siksi myös kärsivällisyyttä.
Midjourney v4, (MJ)
Midjourneyn versioluku on tätä kirjoittaessani käsittääkseni 4. ja totta puhuakseni se tekee vaikuttavaa jälkeä hämmentävänkin helpolla. Täydellinen MJ ei silti ole, sillä mielestäni se tuottaa vähän turhankin tunnistettavaa tyyliä ja myös versioinnissa voi kuvaa lähteä helposti väärille raiteille. Toki on hyvä huomata, että opettelin melko paljon promptaamista ensin ilmaisella SD:llä ja vasta sitten palasin MJ:n pariin, eli osa helppoudesta voi olla myös toisesta ohjelmasta kertynyttä kokemusta.
Joka tapauksessa MJ v4 tekee todella tarkkaa, yksityiskohtaista ja herkullista jälkeä, ja sillä kuvien tekoon jää suorastaan koukkuun. En osaa olla edes harmissani siitä, että käytännössä 3D-mallinnukseen hankkimani taidot kalpenevat MJ:n rinnalla, sillä koska en joka tapauksessa ehtisi tehdä yhtä 3D-kuvitusta viikkokausia enää. Nyt pääsen nauttimaan mielikuvitukseni tuotteista paljon nopeammin ja voin nähdä lukuisia eri kaupallisia mahdollisuuksia tälle uudelle tavalle kertoa tarinoita.
Mielestäni Midjourney sopii oikeastaan lähes kenelle tahansa AI-kuvittamisesta kiinnostuneelle. Veikkaan MJ:n suurimman haasteen olevan sen toimiminen Discord-alustalla. Vaikeasta asennuksesta huolimatta sovellus toki mahdollistaa MJ:n ajamisen vaikka älypuhelimella ja on asennuksen jälkeen MJ:n käyttäminen Discordilla on SD:tä helppompaa.
Yhteenveto: Tekoälyt testissä, Stable Diffusion ja Midjourney
Elämme tällä hetkellä äärimmäisen kiehtovaa AI-teknologioiden kehityksen aikaa. Täydellinen näistä edellä mainituista ei kumpikaan vielä ole, mutta kehityksen vauhti on kova. On pelkästään ymmärrettävää, että monet kuvittajat ja taidemaalarit ovat huolissaan tilanteesta. Itse näen, että alkushokista selvittyään teknologian kehitys antaa enemmän kuin ottaa. Eikä se taida juuri olla edes muita vaihtoehtoja. Bucle up, nyt mennään!
Esimerkkikuviani joissa tekoäly ollut kuvittajana
Kaikki kuvat tässä kirjoituksessa ovat täysin käsittelemättömiä, ainoastaan kokoelmakuvissa olen muuttanut rajauksia. Näiden kaikkien tekemiseen meni yhteensä arviolta noin 10-12 tuntia. Työläintä oli saada Stable Diffusion laulamaan edes jotakuinkin nuotissa ja odotella sopivien rendauksien syntyä. Vastaavasti Midjourneyllä ei mennyt montaa minuuttia per kuva, mutta toisaalta siltä onkin lupa odottaa vähän enemmän, sillä Midjourney on lyhyen kokeiluversion jälkeen maksullinen palvelu.
Avaruusmatkalla (SD)
Avaruusmatkalla (MJ)
Vampyyriprinsessa (SD)
Vampyyriprinsessa (MJ)
Varttunut cowgirl (SD)
Varttunut Cowgirl (MJ)
Kuvien vertailu rinnan (SD, photoshopattu SD, MJ)
Jatkoin vielä vertailua hieman lisäten panostuksia. Ajattelin, että jos Stable Diffusionilla renderöisi yksittäisiä elementtejä ja niiden avulla parantaisi lopputulosta, saattaisi melko pienellä vaivalla päästä yhtä hyvään jälkeen kuin Midjourneyllä. Mutta vaikka en koe, että SD tekee ihan huonoa jälkeä (kaikki edellä huomioiden), niin Midjourney voittaa silti oikeastaan kaikilla osa-aluella ainakin tätä kirjoittaessani. Kuten kuvasta alla näkyy.
EDIT: 11.3.2023
Vaikka mieli tekisi, en lähde tämän artikkelin kuvitusta päivittämään. Kuvat edustavat sitä osaamisen tasoa joka minulla kirjoitushetkellä oli. Sittemmin otin ajoon Stable Diffusionin AUTOMATIC1111 web-ui:n, joka avasi valtavasti uusia mahdollisuuksia kuvien työstöön. Ohessa muutama esimerkkikuva havainnollistamaan kehitystä tällä saralla.
One Reply to “Tekoälyt testissä: Stable Diffusion ja Midjourney”
Mielenkiintoinen kirjoitus, kiva nähdä ja kuulla vertailuja SD:n ja MJ:n suhteen.