Päivitetty tekoälysanasto
Kirjoitin viisi vuotta sitten, heinäkuussa 2018, ensimmäistä kertaa blogiini tekoälystä otsikolla “Tekoäly – laajennettu perussanasto”. Olin silloin jo kovin innoissani tulevaisuuden mahdollisuuksista perehdyttyäni aihepiiriin muutaman vuoden ajan. Tekoäly – ja siihen liittyvä keskustelu – pysyi kuitenkin pitkään varsin pienen piirin kiinnostuksen kohteena, kunnes marraskuussa 2022 kaikki muuttui OpenAI:n julkaistua ChatGPT-käyttöliittymänsä GPT-tuoteperhettä käyttämään.
Tässä vaiheessa koen perustelluksi päivittää tuota alkuperäistä AI-sanastoa, joskin sillä huomiolla, että en ole tässä päivitetyssä tekoälysanastossa listannut kaikkia mahdollisia eri tekoälymalleja tai -tyyppejä, muutamaa poikkeusta lukuun ottamatta. Tekoälyjä alkaa olla jo niin paljon, että niiden listaus – saati ko. listan ylläpitäminen – ei ole enää mahdollista. Listasta puuttuvat myös sellaiset, lähinnä tekoälyjen koulutukseen liittyvät termit, jotka eivät ole havaintojeni mukaan kovin käytettyjä tai en niitä itse tunne.
Tämän blogin lopusta löydät myös YouTube-kanavani “Tekoälyt testissä” introvideon, jossa esittelen erilaisia generatiivisia tekoälyjä.
Huomio generatiivisesta tekoälystä
Löydät tekoälysanaston jälkeen erikseen tarkemman yhteenvedon generatiivisesta tekoälystä. Näin siksi, että käytännössä koko tämä ns. tekoälyrevoluutio, tai AI-vallankumous, miten ilmiötä haluaakaan kuvata, on ponnistanut juurikin tämän tekoälyn alatyypin ansiota.
Tekoälysanasto, aakkosjärjestyksessä
- AGI, Artificial General Intelligence on kuin tekoäly ”on steroids”, eli ihmisen tasoiseen ongelmanratkaisuun ja työskentelyyn laaja-alaisesti kykenevä (& mahdollisesti oppiva?) AI. AGI:n määrittelyssä on herännyt uusia ongelmia, sillä jotkut esittävät GPT-4:n olevan jo mahdollisesti AGI.
- AI, katso Artificial Intelligence.
- ASI, Artificial Super Intelligence eli supertekoäly on ihmistä paljon älykkäämpi tekoäly. Ensin ehkä vähän, sitten valtavasti, kuka tietää kuinka paljon? Vielä täysin scifiä, mutta ehkä joskus todellisuutta. Who knows?
- Algorithmic bias, eli tekoäly- / ohjelmistovinouma, viittaa tilanteeseen, jossa tekoälymalli tuottaa systemaattisesti vääristyneitä tuloksia, usein johtuen vääristä tai puutteellisista opetusdatan perusteista.
- Algoritmi on joukko tietokoneen toimintaohjeita eli komentoja, jotka on suunniteltu suorittamaan tietty tehtävä tai ongelmanratkaisu.
- Application Programming Interface (API) tarjoaa rajapinnan yhdistämään useita erilaisia ohjelmistokomponentteja tai -järjestelmiä, kuten ulkoisia malleja, tietojoukkoja tai muita ohjelmistoja.
- Artificial Intelligence (AI, tekoäly) tarkoittaa ohjelmistojen kykyä suorittaa tehtäviä, jotka vaativat perinteisesti ihmisen älykkyyttä, kuten päätöksentekoa, ongelmanratkaisua, oppimista ja luovuutta.
- Automatic1111 on selainpohjainen käyttöliittymä Stable Diffusion GenAI:n käyttöön.
- Bias, eli vinouma, tarkoittaa AI-kontekstissa ohjelmoitua painotusta, jolla esimerkiksi ohjataan outputteja järjestelmällisesti ohjelmoijan haluamaan suuntaan.
- Bing Chat, Microsoftin Chatbot, joka käyttää GPT-4-tekoälyä. Vaatii Microsoftin Edge-selaimen toimiakseen.
- Bard, Googlen kehittämä LaMDA pohjainen GPT:n kilpaileva tekoäly.
Bardia ei ole julkaistu Euroopassa EU:n mahdollisten tekoälyrajoitusten takia.Bard julkaistiin lopulta myös EU:ssa 13.7.2023. - Big Data viittaa erittäin suurten tietomäärien käsittelyyn ja analysointiin.
- Chatbots, eli keskustelurobotit, ovat tekoälysovelluksia, jotka on suunniteltu simuloimaan ihmisen kanssa käytävää keskustelua.
- ChatGPT, OpenAI:n kehittämä käyttöliittymä GPT-tuoteperheeseen. ChatGPT ei ole tekoäly itsessään, vaan sillä kommunikoidaan GPT-3.5 ja GPT-4 (maksullinen versio) -tekoälyjen kanssa.
- Checkpoint, esim. Stable Diffusionin käyttäjien kouluttamia erilaisia “modeleja”, jotka mahdollistavat perusmallia parempia outputteja.
- Claude 2 on uusi tulokas LLM-sarjassa. Sen etuina ovat mm. 100 000 tokenin muisti, joka mahdollistaa paljon GPT-4:ää suurempien tietomäärien käsittelyn ja soveltuvien tiedostojen lataamisen suoraan sen chattiin. Vielä 28.7.2023 Claude 2 on käytettävissä vain USA ja UK -alueilla.
- Cloud Computing, tai pilvilaskenta, on tapa käyttää ja varastoida dataa ja ohjelmistoja internetissä sen sijaan, että ne tallennettaisiin paikalliselle tietokoneelle.
- Computer Vision, tai konenäkö, on tekoälyn kyky “nähdä” ja tulkita kuvia ja videoita.
- ControlNet on lisäosa Automatic1111-käyttöliittymään, joka mahdollistaa erilaisten lisäosien käytön Stable Diffusionissa. Näillä lisäosilla voi esimerkiksi
- muuttaa huoneen sisustusta (MLSD),
- kopioida valokuvasta ihmisen asennon (Poser) tai
- kopioida koko sisällön muodon (Canny) tekoälykuvaan tai
- nostaa tekoälykuvan resoluutiota moninkertaisesti (Tile).
- Copilot, Microsoftin tekoälybotti, joka tukee käyttäjää eri digitaalisissa tehtävissä, kuten kirjoittamisessa ja datan käsittelyssä luonnollisella kielellä. MS:än Copilottien etuna on mm. tietoturvallisempi rakanne ja kyky tehostaa eri Office-ohjelmien toimintaa käyttääjän omalla datalla. Toistaiseksi Copilot on saatavissa vain niille organisaatioille, joilla on yli 300 e3 tai e5 -Office-lisenssiä (24.11.2023).
- DALL·E 2, OpenAI:n generatiivinen kuvia generoiva tekoäly, joka on laadullisesti heikompi, mutta helppokäyttöisempi kuin Stable Diffusion ja käyttöehdoiltaan sallivampi kuin Midjourney.
- DALL·E 3, OpenAI:n uusi versio DALLE:sta. Intyegroituu ChatGPT Plussaan ja Enterpriseen lokakuun alusta 2023.
- Data cut tarkoittaa käsitteenä ajantasaisen tiedon rajoitusta, joka tekoälyllä on koulutusdatansa tuoreuden suhteen. Tekoäly, joka ei pääse päivittämään itseään netistä, ei tiedä tapahtumista data cutin jälkeen, ellei niitä sille erikseen kerrota promptatessa tai se hae tietoa esim. pluginilla netistä.
- Data Mining on tietojenkäsittelyn prosessi, jossa tavoitteena on löytää tietoja suurista tietomassoista.
- Data Privacy, eli tietosuoja, tarkoittaa henkilötietojen suojelua ja yksilön oikeutta määrätä tietojensa käytöstä.
- Data Science, tai datatiede, on tieteen ala, joka keskittyy tietojen ymmärtämiseen ja hyödyntämiseen.
- Data Security, eli tietoturvallisuus (ja myös kyberturvallisuus), viittaa toimenpiteisiin ja menetelmiin, joilla suojataan dataa luvattomalta pääsyltä, käytöltä, paljastamiselta, häirinnältä, muuttamiselta tai tuhoamiselta.
- Decision Tree on malli, joka ennustaa tavoitemuuttujan arvoa oppimalla yksinkertaisia päätössääntöjä päätettyjen piirteiden perusteella.
- Deep Learning on neuroverkkojen erityisosa-alue, joka keskittyy suurten, monikerroksisten neuroverkkojen luomiseen ja opettamiseen.
- Digital Ethics, eli digitaalinen etiikka, on etiikan ala, joka keskittyy teknologian, erityisesti digitaalisen teknologian, eettisiin kysymyksiin.
- Digital Twin, eli digitaalinen kaksonen, on digitaalinen kopio tai malli fyysisestä esineestä tai järjestelmästä, jota voidaan käyttää simuloinneissa ja analysoinnissa.
- Expert Systems ovat tekoälyn sovelluksia, jotka simuloi asiantuntijan päätöksentekoa tietyllä alueella.
- Embedding, embedointi tai upotus, tarkoittaa datan muuttamista vektoriksi (kts. vektori), eli numeromuotoiseksi dataksi. Embedointi mahdollistaa token-määriä isompien tietokantojen käytämisen esim. GPT:n avulla. Kyse on jo ohjelmointitaitoa vaativasta työstä, mutta aiheesta kiinnostuneet voivat tutustua embedointiin ja vektoreihin esim. tämän videon avulla.
- Fine-Tuning on prosessi, jossa esikoulutettua perusmallia jatkokehitetään tai mukautetaan toimimaan paremmin tiettyjen tehtävien parissa. Tämä tehdään usein käyttämällä pienempiä, merkittyjä tietojoukkoja, jotka voivat auttaa mallia oppimaan ja sopeutumaan tiettyyn terminologiaan, vivahteisiin ja malleihin.
- Firefly on Adoben versio generatiivisesta tekoälystä, se mahdollistaa monenlaisen kuvien käsittelyn ja muokkauksen Adoben tuoteperheen sovelluksissa.
- Foundation Models (FM) ovat syväoppimismalleja, jotka on koulutettu suurilla tietomäärillä. Nämä mallit ovat kyvykkäitä jo heti koulutuksen päätyttyä, ja niitä voidaan vielä parantaa hienosäätämällä niitä tiettyjä tehtäviä varten.
- GAN, eli generatiiviset adversariaaliset verkot, ovat tekoälyn malleja, joissa kaksi neuroverkkoa kilpailee keskenään ja oppii toisiltaan parantaakseen suorituskykyään.
- Generatiivinen tekoäly (GenAI) on tekoälytyyppi, joka pystyy tuottamaan uutta dataa, joka muistuttaa niitä tietoja, joilla se on koulutettu. Tämä voi sisältää tekstin, kuvien, äänen tai muiden datatyyppien generoimisen. Katso tarkempi kuvaus tekoälysanaston jälkeen.
- “Genis” on ideoimani lempinimi generatiivisille tekoälyille. Tekoäly yksin on usein turhan laaja kattotermi ja vastaavasti “generatiivinen tekoäly” on keskustelussa kovin pitkä sanoa ja “genAI” taas hieman hankala suomalaiseen suuhun, joskin toki “genistä” tarkempi. Ehkä geniksestä tuleekin uusi “kännykkä”?
- Google Colab on Googlen tarjoama kehitysympäristö jossa voi ajaa ja testata erilaisia ohjelmistoja ja tekoälysovelluksia. Sen perusversiota voi käyttää ilmaiseksi, mutta esimerkiksi Stable Diffusionin käyttö vaatii maksullisen Pro-tilin. Käytännössä laskenta-aika on kuitenkin melko edullista, eli noin 50 tuntia laskenta-aikaa saa noin 11,5 eurolla.
- GPTbotti, eli kustomoitu GPT, on OpenAI:n tarjoama palvelu, jossa ChatGPT Plussan kautta voi omalla datalla ja lähteillä kouluttaa bottia helposti.
- Grafiikkasuorittimet (GPU) ovat erityisen suorituskykyisiä (GenAI) laskentatehojen suhteen ja niitä käytetään usein syväoppimisen sovelluksissa ja koulutuksessa.
- Hallusinointi, tai hallusinaatio, tarkoittaa tekoälyn kontekstissa tilannetta jossa tekoäly tuottaa faktan sijasta faktalta vaikuttavaa outputtia. Usein hallusinointia on vaikea erottaa oikeasta tiedosta ilman generoidun outputin aihepiirin asiantuntemusta. Hallusinointi mahdollistaa tekoälylle myös luovien ehdotusten synnytämisen ja tällä hetkellä (kevät-kesällä 2023) käydään lisääntyvissä määrin keskustelua sen tärkeydestä GenAI:n luovassa käytössä.
- HLMI: human level machine intelligence, katso AGI. Käytännössä hieman eri näkökulma (ihmisenkaltaisuus) erittäin kehittyneeseen tekoälyyn.
- Input tarkoittaa käytännössä kaikkea tekoälyyn syötettävää dataa, sisältäen kaiken promptauksesta myös koulutus- tai hienosäätödataan.
- Image Recognition, tai kuvantunnistus, on tekoälyn kyky tunnistaa ja tunnistaa kuvia.
- IoT, eli esineiden internet, viittaa kaikkien yhdistettyjen laitteiden verkkoon, jotka kommunikoivat keskenään internetin välityksellä. Tekoäly yhdistettynä IoT-järjestelmiin voi parantaa mm. energiatehokkuutta tai laiterikkojen aiheuttamia ongelmia ennaltaehkäisevästi.
- Koneoppiminen (Machine Learning, ML) on tekoälyn ala, jossa mallit oppivat ja parantavat suorituskykyään datan perusteella ilman ohjelmointia.
- Machine Translation, eli konekääntäminen, on tekoälyn ala, joka keskittyy luonnollisten kielten automaattiseen kääntämiseen.
- Midjourney, helppokäyttöinen laadukkaita kuvia generoiva tekoäly.
- Modaalisuus (modality) viittaa syötteen tai tuloksen datan tyyppiin, joka voi olla esimerkiksi numeroita, tekstiä, kuvia, videota tai ääntä. Moni- tai multimodaalinen generatiivinen tekoäly kykenee käsittelemään useita eri datatyyppejä.
- Natural Language Processing (NLP) on tekoälyn ja laskennallisen kielitieteen ala ja käsite, joka keskittyy tietokoneiden ja ihmisten kielen välisen vuorovaikutuksen parantamiseen. NLP:n alla on useita eri käsitteitä, joilla voidaan kommunikoida tarkemmin mitä ollaan tutkimassa tai tekemässä. Esimerkiksi:
- Natural Language Generation (NLG) on NLP:n osa-alue, ja tarkoittaa tietokoneohjelman kykyä luoda tekstiä tai puhetta, joka on luonnollista ja ymmärrettävää ihmisen näkökulmasta.
- Natural Language Understanding (NLU) on sekin NLP:n osa-alue, joka keskittyy tietokoneiden ymmärryksen ja tulkinnan parantamiseen (ihmisten) luonnollisen kielen ymmärtämisessä.
- Neural Networks, eli neuroverkot, ovat tekoälyn tietokonemalleja, jotka jäljittelevät ihmisen aivojen toimintaa. Neuroverkko koostuu neuronien / nodejen kerroksista, joihin vaikuttavat weightit ja biakset (vinoumat) eli parametrit.
- Neuroni / node, yksittäinen neuroverkon osa.
- Output tarkoittaa kaikkea sitä mitä tekoäly generoi, eli tietoa, tekstiä, kuvia, ääntä, videota, suunnitelmia, tuotteita, tulosteita, jne.
- Paikallinen, lokaali tai Edge -laskenta, mikäli tekoälyä ei haluta tai voida käyttää pilvessä (esim. koska data halutaan pitää itsellä tai halutaan hallita tekoälyn ominaisuuksia enemmän), voidaan osaa (generatiivisiakin) tekoälyjä käyttää paikallisesti. Tyypillisesti nämä vaativat kuitenkin vähintään erittäin tehokkaan PC:n järeällä näytönohjaimella (kuten Stable Diffusion), mutta usein paikallisia palvelimia tai koneita, joita yritys tai yksittäinen käyttäjä kontrolloi. Paikallisessa laskennassa koko vastuu laitteistosta ja ohjelmistosta, turvallisuudesta ja päivityksistä kuuluu ylläpitäjälle itselleen.
- Parametri on neuroverkon kokoa (ja siksi laajuutta) karkeasti signaloiva määre, jossa käytännössä lukumäärä (vähintään miljardeja, esim. GPT-3.5 on kooltaan 175 miljardia parametria) esittää eri muuttujien määrää neuroverkossa. Absoluuttisesti ei voida sanoa, että korkeampi parametrimäärä = parempi LLM, sillä koulutusdatan laatu ja käyttöympäristön vaatimukset (kapeamman käyttökohteen tarpeissa pienempi relevantilla datalla saavutettu parametrimäärä voi tuottaa laadukkaampia outputteja) vaikuttavat GenAI:n kyvykkyyteen merkittävästi.
- Priming tarkoittaa tapaa pohjustaa aihepiiriä (LLM-)tekoälylle, kuten ChatGPT:lle, antamalla taustatietoja ja muuta informaatiota ennen varsinaista promptausta. Näin GenAI ymmärtää paremmin kontekstin ja vastaa promptaajan odotuksiin, mikä voi johtaa parempaan outputtiin. Luonnollisesti huono tai virheellinen “praimaus” voi tuottaa myös huonompia tai virheellisiä outputteja.
- Promptaus (prompting) viittaa siihen prosessiin, jossa tekoälymallille annetaan ohjaava syöte tai komento, joka ohjaa sen tuotoksia tai generaatioita.
- Promptaaja on henkilö, joka ohjastaa tekoälyä. Huom! Promptaaja on aina vastuussa tekoälyn outputista.
- Recommender Systems, eli suositusjärjestelmät, ovat tekoälysovelluksia, jotka tuottavat yksilöllisiä suosituksia käyttäjille, esimerkiksi elokuvien, musiikin tai tuotteiden suhteen.
- Sentiment Analysis, eli sentimenttianalyysi, viittaa menetelmiin, joilla pyritään tunnistamaan ja luokittelemaan mielipiteitä ja tunteita tekstistä. Tässä esim. GPT-sarjan GenAI:t ovat erityisen kyvykkäitä.
- Speech Recognition, tai puheentunnistus, on tekoälyn kyky tunnistaa ja tulkita ihmisen ääntä.
- Stable Diffusion, avoimen lähdekoodin kuvia generoiva tekoäly. Erittäin nopeasti kehittyvä ja monipuolinen, joskin myös melko vaikeakäyttöinen GenAI.
- Strukturoitu data on dataa, joka on järjestetty selkeästi, esimerkiksi taulukoihin, tietokantoihin tai laskentataulukoihin. Tätä voidaan käyttää joissakin koneoppimismalleissa. Vastaavasti strukturoimaton data on dataa, joka ei ole strukturoitu ja vaatii usein erityisiä menetelmiä käsittelyyn.
- Suuret kielimallit (Large Language Models, LLM) ovat tekoälyn malleja, jotka kykenevät käsittelemään ja oppimaan suuria määriä tekstidataa. Nämä mallit voivat luoda ihmiskielen tekstiä ja suorittaa monia tehtäviä, kuten yhteenvetoa tai tiedon poimintaa.
- Syväoppiminen (Deep Learning) on koneoppimisen ala, joka käyttää neuroverkkojen kerroksia datan kouluttamiseen ja analysoimiseen. Nämä kerrokset voivat sisältää painoja (weights), jotka voidaan kouluttaa datan perusteella.
- Tekoäly, katso Artificial Intelligence (AI).
- Temperature tarkoittaa AI-kontekstissa arvoa kuinka orjallisesti esim. GPT valitsee tokenia vastaavan ennusteen. “Lämpötilaan” voi vaikuttaa lähinnä API:n kautta GPT:tä käyttäessä. Esimerkiksi:
- Korkea temperature (esim. 0,8 tai korkeampi): AI:n tulos on satunnaisempi. Se valitsee todennäköisemmin vähemmän todennäköisiä (yllättävämpiä) tuloksia. Tämä voi tehdä outputista monipuolisempaa ja luovempaa, mutta se voi myös johtaa enemmän virheisiin tai järjettömiin tuloksiin.
- Matala temperature (esim. 0,2 tai alhaisempi): AI:n tulos on vähemmän satunnainen. Se kiinnittyy tiiviimmin todennäköisimpiin tuloksiin. Tämä voi tehdä tuloksesta faktisesti tarkemman ja johdonmukaisemman, mutta se voi myös tehdä siitä vähemmän monipuolista ja luovaa.
- Tarkkaa tietoa ChatGPT:n kautta käytettävästä GPT-4:n temperaturesta ei tietääkseni ole saatavilla, mutta paras löytämäni arvio on 0,7. Katso muita käyttöesimerkkiarvoja täältä.
- Token on merkki, tavu tai sana jota LLM analysoi promptista tuottaakseen mahdollisimman oikean vastineen tokenille.
- Käytännössä siis esimerkiksi GPT-mallit ennustavat mahdollisimman osuvaa vastinetta jokaiselle tokenille, joka tarkoittaa sitä, että promptauksessa käytetyt merkit, tavut ja sanat vaikuttavat ratkaisevasti lopputulokseen.
- Tästä syystä oikeinkirjoitukseen on syytä kiinnittää huomiota, kuten myös promptinsa muuhun sisältöön.
- LLM-tekoälyjen ollessa tokeneita analysoivia “hakukoneita”, vaikuttaa esimerkiksi promptin kielen sävy outputin sävyyn.
- Eri LLM:llä on eri määriä tokeneita joita ne pystyvät käsittelemään. GPT-4:n perusmallissa token-limit on noin 8000, mutta siitä on saatavilla myös noin 32 000 tokenin versio valikoiduille käyttäjille.
- Täsmällistä arviota eri sisältöjen vaatimasta token-määrästä on vaikea antaa, mutta 8000 tokenia arvioidaan usein vastaavan noin kymmentä A4-sivua tekstiä ja 32 000 tokenia noin 40-50 A4-sivua.
- Omat käyttökokemukseni tosin ovat sen suuntaisia, että todellisuus on hieman edella annettuja arvioita pienempi ja 8k versiolla saa analysoitua noin kahdeksan A4-sivua tekstiä.
- Transformerit ovat verrattain uusi neuroverkkoarkkitehtuuri, joka on erityisen hyvä ymmärtämään ja tuottamaan ihmiskieltä. Sen sijaan, että ne lukisivat lauseita sanasta sanaan, kuten vanhemmat mallit, ne tarkastelevat koko lausetta kerralla, joka auttaa ymmärtämään kontekstia.
- Unsupervised Learning on koneoppimisen tyyppi, jossa malli opetetaan löytämään syötetystä datasta piirteitä, jotka eivät ole ennaltamäärättyjä.
- Valvottu oppiminen (Supervised Learning) on koneoppimisen menetelmä, jossa malli opetetaan tulkimaan dataa käyttämällä esimerkkitietoja, joissa on sekä syötteitä että niitä vastaavia tuloksia.
- Vahvistusoppiminen (Reinforcement Learning) on koneoppimisen alatyyppi, jossa tekoälymalli oppii tekemään päätöksiä kokeilemalla ja virheistä oppimalla, saamalla palkintoja oikeista toimista ja rangaistuksia väärästä.
- Vektori, vector, ovat käytännössä data muutettuna numeromuotoon, joka kertoo tekoälylle sen suhteen muuhun dataan. Tämä mahdollistaa mm. tiedon hakemisen erillisestä tietokannasta ja tiedon helpomman “klusteroinnin”, eli tekoäly ymmärtää tehokkaasti datan samankaltaisuuksia. Käsitteenä vektorit ovat todella oleellinen tekoälyjen tehokkaassa käytössä, mutta myös jo varsin teknistä asiaa. Vektoreista tai “embedoinnista” kiinnostuneille suosittelen tätä videota aiheesta.
- Virtual Assistants, eli virtuaaliassistentit, ovat tekoälyn sovelluksia, jotka on suunniteltu auttamaan ihmisiä erilaisissa tehtävissä, kuten tiedonhaku, ajanhallinta tai laitteiden ohjaus.
- Weights, painotukset, tarkoittavat tekoälyjen, ja erityisesti koneoppimisen, kontekstissa yksinkertaistettuna sitä painoarvoa minkä tekoäly on eri nodeille/neuroneille asettanut. Kun siis input tulee nodeen, se kerrotaan painotuksella ja välitetään hermoverkon seuraavaan kerrokseen.
Listan muotoiluun ja muodostamiseen on käytetty GPT-3.5 ja GPT-4:tä. Listaa päivitetty viimeksi 12.7.2023. Bardin osalta saatavuustieto päivitetty 28.7.2023 ja myös Claude 2 lisätty listaan. 21.9.2023 lisätty tietoja. 24.11.2023 lisätty maininta Copilotista ja GPT-boteista.
Huomioithan että en päivitä sanastoa aktiivisesti. Vinkkejä päivityksen tarpeesta voi laittaa esimerkiksi LinkedInin kautta.
Generatiivinen tekoäly, tarkempi kuvaus
Generatiivinen tekoäly (GenAI) on tekoälyn (AI) alatyyppi, joka generoi, eli luo uutta sisältöä annettujen promptien, eli komentojen, perusteella. Generatiivisesta tekoälystä riippuen luotu sisältö (output) voi olla esimerkiksi tekstiä, kuvaa, ääntä, videota, tietokonekoodia tai jopa molekyylirakenteita [1].
Esimerkkejä GenAI-järjestelmistä ovat OpenAI:n ChatGPT ja Googlen Bard, jotka hyödyntävät suuria kielimalleja (LLM) kuten GPT-3 ja GPT-4 sekä LaMDA. Paljon huomiota saaneita kuvia generoivia tekoälyjä ovat mm. Stable Diffusion, Midjourney ja DALL-E.
GenAI:lla on paljon sovelluskohteita eri aloilla, kuten taiteessa, kirjoittamisessa, ohjelmistokehityksessä, tuotesuunnittelussa, terveydenhuollossa, rahoituksessa, pelaamisessa, markkinoinnissa ja muodissa. Konsulttiyritys McKinsey [2] arvioi, että noin 75 % GenAI:n vaikutuksista kohdistuu asiantuntijatöihin asiakaspalvelussa, markkinoinnissa ja myynnissä, ohjelmisto- ja tuotekehityksessä.
GenAI herättää valtavasti ja jatkuvasti kasvavissa määrin kiinnostusta aina koululaisista pienyrittäjiin, korporaatioihin ja eri maiden hallituksiin. GenAI:n potentiaalista huolimatta on olemassa myös huolenaiheita sen väärinkäytöstä, kuten valeuutisten tai syväväärennösten (deep fake) luomisessa, jotka voivat johtaa ihmisten harhauttamiseen tai manipulointiin.
On kuitenkin aina hyvä muistaa, että varsinainen huolenaihe ei ole generatiivinen tekoäly, vaan sitä väärin käyttävä ihminen. Esimerkiksi Suomessa pelisäännöt ovat jo monin paikoin olemassa ilman lisäsäätelyä [3], joskin aiheeseen liittyy vielä epäselvyyttä ja tulkinnanvaraisuutta [4, 5]. Valitettavasti on myös todennäköisestä, että hyvää tarkoittava lisäsäätely hankaloittaisi lähinnä pienten yritysten ja jo lähtökohtaisesti oikein toimivien tahojen toimintaa, antaen säädöksistä piittaamattomille ja/tai suurille korporaatioille kohtuuttoman suuren etulyöntiaseman.
Arviot generatiivisten tekoälyjen taloushyödyistä vaihtelevat, mutta ensimmäiset tutkimukset osoittavat tehonlisäyksen olevan, toimialasta ja tehtävästä riippuen, välillä 14–400 % [6].
Lähteet
[1] Wikipedia: Generative Artificial Intelligence, lainattu 11.7.2023
[2] McKinsey: The economic potential of generative AI: The next productivity frontier (PDF), lainattu 11.7.2023
[3] Valtiovarainministeriö: Tekoälyä ollaan jo säätelemässä, lainattu 11.7.2023
[4] Borenius: Tekoälyn koulutusaineisto ja tekijänoikeus: vaikeuttaako EU:n hajanainen tekijänoikeusjärjestelmä tekoälyhankkeita Euroopassa?, lainattu 11.7.2023
[5] Kolster: Tekoäly ja tekijänoikeudet – 5 näkökulmaa luovan työn tulevaisuuteen, lainattu 11.7.2023
[6] Forbes: ChatGPT And Generative AI: What To Do With All The Productivity?, lainattu 11.7.2023
Tekoälyt testissä -kanavani esittelyvideo
Olen myös koonnut LinkedIniin muutamia kirjoituksiani tekoälyistä vuosien varrelta, voit katsoa listaa täältä.