C’è stato un secondo Big Bang dell’IA?

Il primo Big Bang nel 2012

Il Big Bang nell’intelligenza artificiale (AI) si riferisce alla svolta nel 2012, quando un team di ricercatori guidato da Geoff Hinton è riuscito a formare una rete neurale artificiale (nota come sistema di apprendimento profondo) per vincere un concorso di classificazione delle immagini con un margine sorprendente . In precedenza, l’IA aveva compiuto alcune prodezze straordinarie, ma non aveva mai fatto molti soldi. Dal 2012, l’IA ha aiutato le grandi aziende tecnologiche a generare enormi ricchezze, anche dalla pubblicità.

Un secondo Big Bang nel 2017?

C’è stato un nuovo Big Bang nell’IA, dall’arrivo di Transformers nel 2017? Negli episodi 5 e 6 del podcast London Futurist, Aleksa Gordic ha esplorato questa domanda e ha spiegato come funzionano i sistemi di intelligenza artificiale all’avanguardia di oggi. Aleksa è una ricercatrice di intelligenza artificiale presso DeepMind e in precedenza ha lavorato nel team Hololens di Microsoft. Sorprendentemente, la sua esperienza nell’IA è autodidatta, quindi c’è ancora speranza per tutti noi!

Trasformatori

I trasformatori sono modelli di deep learning che elaborano input espressi in linguaggio naturale e producono output come traduzioni o riepiloghi di testi. Il loro arrivo è stato annunciato nel 2017 con la pubblicazione da parte dei ricercatori di Google di un paper intitolato “Attention is All You Need”. Questo titolo si riferiva al fatto che i Transformers possono “prestare attenzione” contemporaneamente a un ampio corpus di testo, mentre i loro predecessori, Recurrent Neural Networks, potevano prestare attenzione solo ai simboli su entrambi i lati del segmento di testo in elaborazione.

I trasformatori funzionano suddividendo il testo in piccole unità, chiamate token, e mappandole su reti di dimensioni elevate, spesso migliaia di dimensioni. Noi umani non possiamo prevederlo. Lo spazio in cui abitiamo è definito da tre numeri – o quattro, se si include il tempo, e semplicemente non possiamo immaginare uno spazio con migliaia di dimensioni. I ricercatori suggeriscono che non dovremmo nemmeno provarci.

Dimensioni e vettori

Per i modelli Transformer, parole e gettoni hanno dimensioni. Potremmo pensarli come proprietà o relazioni. Ad esempio, “uomo” sta a “re” come “donna” sta a “regina”. Questi concetti possono essere espressi come vettori, come frecce nello spazio tridimensionale. Il modello attribuirà una probabilità a un particolare token associato a un particolare vettore. Ad esempio, è più probabile che una principessa sia associata al vettore che denota “indossare una pantofola” piuttosto che al vettore che denota “indossare un cane”.

Esistono vari modi in cui le macchine possono scoprire le relazioni, o vettori, tra i token. Nell’apprendimento supervisionato, vengono forniti dati etichettati sufficienti per indicare tutti i vettori rilevanti. Nell’apprendimento auto-supervisionato, non vengono forniti dati etichettati e devono trovare le relazioni da soli. Ciò significa che le relazioni che scoprono non sono necessariamente rilevabili dagli esseri umani. Sono scatole nere. I ricercatori stanno studiando come le macchine gestiscano queste dimensioni, ma non è certo che i sistemi più potenti saranno mai veramente trasparenti.

Parametri e sinapsi

La dimensione di un modello Transformer è normalmente misurata dal numero di parametri che ha. Un parametro è analogo a una sinapsi in un cervello umano, che è il punto in cui si incontrano i viticci (assoni e dendriti) dei nostri neuroni. I primi modelli Transformer avevano un centinaio di milioni di parametri e ora i più grandi ne hanno trilioni. Questo è ancora inferiore al numero di sinapsi nel cervello umano e i neuroni umani sono creature molto più complesse e potenti di quelli artificiali.

Non solo per testo

Una scoperta sorprendente fatta un paio d’anni dopo l’arrivo di Transformers è stata che sono in grado di tokenizzare non solo il testo, ma anche le immagini. Google ha rilasciato la prima visione Transformer alla fine del 2020 e da allora le persone in tutto il mondo si sono meravigliate della produzione di Dall-E, MidJourney e altri.

Il primo di questi modelli di generazione di immagini era Generative Adversarial Networks, o GAN. Si trattava di coppie di modelli, con uno (il generatore) che creava immagini progettate per ingannare l’altro facendolo accettare come originale, e il secondo sistema (il discriminatore) che rifiutava i tentativi che non erano abbastanza buoni. I GAN sono stati ora superati dai modelli Diffusion, il cui approccio consiste nel rimuovere il rumore dal segnale desiderato. Il primo modello Diffusion è stato effettivamente descritto già nel 2015, ma il documento è stato quasi completamente ignorato. Sono stati riscoperti nel 2020.

Golosi di energia

I trasformatori sono ghiotti di potenza di calcolo e di energia, e questo ha portato a temere che potrebbero rappresentare un vicolo cieco per la ricerca sull’IA. È già difficile per le istituzioni accademiche finanziare la ricerca sugli ultimi modelli e si temeva che anche i giganti della tecnologia potessero trovarli presto inaccessibili. Il cervello umano indica una via da seguire. Non è solo più grande degli ultimi modelli Transformer (con circa 80 miliardi di neuroni, ciascuno con circa 10.000 sinapsi, è 1.000 volte più grande). È anche un consumatore di energia molto più efficiente, principalmente perché abbiamo solo bisogno di attivare una piccola parte delle nostre sinapsi per fare un determinato calcolo, mentre i sistemi di intelligenza artificiale attivano tutti i loro neuroni artificiali in ogni momento. I chip neuromorfici, che imitano il cervello più da vicino dei chip classici, possono aiutare.

Sorprese non sorprendenti

Aleksa è spesso sorpresa da ciò che gli ultimi modelli sono in grado di fare, ma questo non è di per sé sorprendente. “Se non fossi sorpreso, significherebbe che potrei prevedere il futuro, cosa che non posso”. Trae piacere dal fatto che la comunità di ricerca sia come una mente alveare: non si sa mai da dove verrà la prossima idea. La prossima grande cosa potrebbe venire da un paio di studenti in un’università, e un ricercatore chiamato Ian Goodfellow ha notoriamente creato il primo GAN giocando in casa dopo una sessione di brainstorming davanti a un paio di birre.

.

Leave a Comment

Your email address will not be published. Required fields are marked *