#126 L'anno dell'IA
1) Chi è il fondatore di OpenAI 2) come si addestra un grande modello linguistico 3) capire le "allucinazioni" 4) alcuni programmi utili 5) una rassegna stampa a tema
ARTICOLI. LIBRI. VIDEO. PODCAST. LIVE. BIO.
![Sam Altman to Return as CEO of OpenAI | WIRED Sam Altman to Return as CEO of OpenAI | WIRED](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F87269e9d-fd69-4678-86f4-2d9881a88910_2400x1600.jpeg)
MISTER CHATGPT
Il 2023 che si conclude è stato, tecnologicamente parlando, l’anno dell’intelligenza artificiale. Per questo, nelle varie “persone dell’anno” che raccontiamo sul Venerdì abbiamo incluso anche Sam Altman, il numero uno di OpenAI.
Sam Altman era, fino a un anno fa, una figurina da collezionisti. Chi si occupava di tecnologia sapeva bene che essere diventato, a ventinove anni, il capo di YCombinator, il più famoso acceleratore di startup al mondo, faceva di lui un predestinato. Ma era una fama a tiratura ristretta. Oggi il cofondatore di OpenAI, l'azienda che poco più di un anno fa ha partorito ChatGPT dando il via all'èra dell'intelligenza artificiale generativa, sta diventando una figura di culto popolare. Ho provato a chiedere alla sua creatura di riassumerne la biografia ma si è tirata indietro. Tocca sbrigarsela da soli. Nasce nel 1985 a Chicago in una famiglia ebrea, da una mamma dermatologa e un papà agente immobiliare che lo crescono, assieme ad altri tre altri figli, nel mezzo del Missouri. Dalla noia lo salverà un computer Macintosh che gli regalano a otto anni. Tipo sveglio, si iscrive a Stanford. Che, come da tradizione aurea di geni che mordono il freno, abbandonerà dopo due anni per fondare Loopt, un social network che ecciterà più finanziatori che utenti e che comunque venderà nel 2012 per oltre 43 milioni di dollari. Soldi che mette in Hydrazine Capital, il suo primo fondo. Intanto ha già cominciato a collaborare con YCombinator – già maieuta di Airbnb, Dropbox e vari altri unicorni – di cui diventa presidente. Nel 2015, con Elon Musk e altri membri della real casa della Silicon Valley, fonda OpenAI, all'epoca non-profit assai preoccupata che l'IA possa prendere strade sbagliate. Come da copione entra in rotta di collisione con mister Tesla e – singolo evento che definisce il suo carattere – ha la meglio. Tra i suoi interessi una versione libertaria del reddito di base universale (Ubi) che il progetto cadetto Worldcoin, che punta a scannerizzare le iridi di miliardi di persone, tortuosamente recupera. Preoccupato di possibili apocalissi, causate o meno dalla sua invenzione, si è comprato un bel appezzamento di terra nella ridente Big Sur. Ovviamente con dotazione di armi, oro, antibiotici, batterie e maschere antigas dell'esercito israeliano. Ancorché nativo digitale, non disdegna l'immobiliare: durante la pandemia ha comprato tre case, una a San Francisco dove vive col fidanzato informatico, una a Napa e una alle Hawaii per un totale di oltre 80 milioni di dollari. Niente male per uno che, da OpenAI che l'ha estromesso giusto l'espace d'un matin, prende uno stipendio da 58 mila dollari all'anno.
L’UOMO CHE ALLENA L’IA
Poche settimane fa avevamo pubblicato una lunga intervista a Marco Del Tredici, AI scientist di Cohere, che ci ha spiegato come si addestra un grande modello linguistico (Llm). Un estratto:
CARTOGRAFARE LA LINGUA CON GLI EMBEDDINGS
La nostra conversazione si svolge, su tre sessioni da due ore al giorno, nell'appartamento che Del Tredici divide con la fidanzata israeliana. Partiamo dalle basi, dal fatto che gli umani si esprimono con parole e frasi mentre i computer capiscono solo sequenze di numeri. Bisogna quindi assegnare numeri alle parole. Immaginate un piano, con ascisse e ordinate, o se vi torna più facile, il campo da gioco della battaglia navale. Se "banana" e "fragola" si trovano rispettivamente all'incrocio tra la riga 5 e la colonna 5 e tra la 5 e la 6 anche "mela" sarà da quelle parti, magari su 5 e 4. Questo, tecnicamente, si chiama un word embedding, un abbinamento tra parole e numeri (mela, 5,4), a due sole dimensioni. Dimensioni che, oltre alla somiglianza tra i termini, possono contenere molte altre proprietà, tipo età e stazza, per cui un cucciolo di cane sta a un cane adulto nello stesso rapporto in cui un vitello sta a una mucca. Tutte queste coordinate (il modello di Cohere ne raggruppa fino a 4096 per ogni termine) costituiscono un vettore, ovvero la serie di numeri che descrivono le parole. Lo stesso approccio può essere applicato alle frasi, per cui "mi piace il mio cane", "amo il mio cane" e "adoro il mio cane" avranno vettori con valori molto simili. Elaborando questi vettori il modello linguistico predirrà quale parola, in un determinato contesto, è più probabile che segua un'altra. Ad oltranza, fin quando non avrà completato la risposta alla domanda (prompt).ADDESTRAMENTO, AFFINAMENTO, RINFORZO
Ma come fa a predire? «Ci sono tre momenti cardine dell'addestramento di un modello: il pretraining, il fine tuning e l'apprendimento con rinforzo (Reinforcement learning from human feedback)» spiega Del Tredici, scarabocchiando con una matita su un quadernetto. «Il pretraining (la P di GPT, ndr) è la fase più lunga e costosa. Quella in cui il modello viene esposto a una massa immane di informazioni, essenzialmente miliardi di testi su internet. Ma non sotto forma di parole intere, quanto di token (parti di parole, spesso di un paio di sillabe) per alleggerire lo sforzo computazionale dei server». Al termine di questa indicizzazione, che per GPT-3 avrebbe richiesto un anno, «il modello costruisce una sua rappresentazione di conoscenza basata sulle occorrenze di certi termini in associazione con altri». È a quel punto che bisogna insegnargli cosa fare di ciò che ha imparato. «È un addestramento più piccolo, con pochi dati specifici che servono a fargli apprendere un task, un compito, mostrandogli domande e risposte giuste, fornite dai supervisori umani. Generalizzando da quegli esempi lui dovrà poi generare le sue risposte. Così, se gli chiedi "qual è la capitale del Canada?" non dovrà snocciolare tutte le capitali che conosce ma dovrà restare in tema. Il livello di errore alle domande si calcola con la funzione matematica di loss function. Per ridurlo si cambiano alcuni parametri attraverso un algoritmo di backpropagation, si fa ripartire il modello e si valutano i miglioramenti». «Prova ancora, sbaglia ancora, sbaglia meglio» come scriveva, pensando ad altro, con assai meno ottimismo, Samuel Beckett in Worstward Ho., un racconto del 1983. I modelli più avanzati sono in grado di imparare da pochissimi esempi (few shot learner) e talvolta possono addirittura saltare la fase di affinamento (zero shot learner). Com'è possibile? «Se il compito è di capire quali sono le recensioni positive o negative di un film, ad esempio, e il modello è stato addestrato anche sulla banca dati cinematografica di Imdb, è possibile che alcuni recensori abbiano scritto, esplicitamente, che il loro è un "giudizio negativo". E da quel termine esplicito il modello potrà dedurre, per differenza o somiglianza, a quanti il film è piaciuto o no». Sono ragazzi/e molto svegli/e questi Llm, non c'è che dire.
SBAGLIA ALLA GRANDE, E ALLORA?
Qualche mese fa, invece, avevamo dedicato una copertina per cercare di spiegare, con l’aiuto di Malvina Nissim e Joshua Bengio, tutto quello che avreste voluto sapere sull’Ia e non avete osato chiedere. Un estratto:
Sin qui abbiamo dato per scontato, considerata la stupefacente copertura mediatica che questa tecnologia ha ottenuto, che tutti sappiano cosa fa. Per chi si fosse perso le puntate precedenti dico che all’indirizzo chat.openai.com c’è una finestrella in cui, in tutte le lingue più parlate, si possono domandare a ChatGPT un sacco di cose. Scrivi un racconto breve con un chirurgo depresso come protagonista, alla maniera di Raymond Carver. Oppure à la Hemingway. Fammi un riassunto dei punti salienti del trattato Start sulla non proliferazione bellica. Puoi spiegare il concetto di carbon neutral a un bambino di sei anni? E come lo diresti a un ragazzo di 18? E a Trump? Puoi chiedere anche cosa sa della strage di piazza Fontana ma, quando l’ho fatto, era convinta che Pinelli fosse stato condannato e che c’entrasse anche Ordine nuovo, guidata allora da Adriano Sofri (a onor del vero, alcune settimane dopo questa grottesca affiliazione era scomparsa). Sì perché la sua forza è la fluidità verbale, e lo stile, ma non la veridicità. A differenza di un motore di ricerca che trova un documento rilevante che poi sta a voi riassumere, ChatGPT genera un testo nuovo, che prima non esisteva, e che viene composto sulla base delle conoscenze, vaste ma appiccicaticce, che il software ha accumulato. A scanso di equivoci, e per quelli che si meravigliano di certi sfondoni (in gergo queste topiche colossali vengono chiamate “allucinazioni”), il programma ha immagazzinato tantissimi fatti (o meglio, la loro descrizione linguistica) ma non ne capisce il significato. Sa solo che, mi spiega la linguista Nissim, «com’è più probabile che dopo “pizza” venga “pomodoro” rispetto a “segatura”, dopo “piazza fontana” possa venire anche “sofri” perché magari in vari articoli che ha setacciato in passato figuravano entrambi i termini. Immaginate un umano che debba leggere 1000 pagine in due ore su qualcosa di cui non sa niente. Scorre, magari gli casca l’occhio su Sofri e, quando gli chiedono dei protagonisti, tira fuori quel nome». Con la differenza che, con una preparazione così abborracciata, probabilmente l’umano sarebbe più cauto mentre l’inconsapevole algoritmo – non capisce, calcola la probabilità delle associazioni tra i termini –, non ha neppure la percezione dei propri limiti e finisce per essere stentoreo, nel bene e nel male. Meravigliarsi per gli errori, che ci sono e possono essere colossali, piuttosto per il miracolo di conoscenze che riesce a improvvisare (ChatGPT, tra gli altri, ha passato esami di diritto all’università del Minnesota e di economia aziendale alla Wharton School of Business) rientra però nel classico strabismo albero/foresta.
DOVE HA STUDIATO?
Dicevamo che GPT-3 (in verità 3.5), il motore di ChatGPT precedente al 14 marzo, è stato esposto a circa 570 gigabyte di testo, pari a tutta Wikipedia in inglese (21 Gb) più corpora di ogni genere pescati a strascico da internet (ed è soprattutto su questa indiscriminata raccolta che il Garante ha avuto da eccepire, dal momento che nostri post sui social, senza alcuna autorizzazione, possono essere finiti nel calderone di addestramento della macchina). Per la versione 4 si favoleggia di svariati trilioni di parametri e del fatto, per dirne una, che quando riusciva a passare l’esame statunitense da avvocato la release precedente si piazzava nel decile più basso mentre quella attuale nel più alto. Tutto inizia con il modello linguistico (Llm) che, senza supervisione umana, digerisce i dati grezzi. Su questo semilavorato poi vengono messe etichette da esseri umani, i cosiddetti “annotatori”. Ovvero quelli che hanno insegnato al sistema che “verde” è un aggettivo, “gatto” un sostantivo e così via. Sulla base di quegli esempi l’algoritmo generalizza la classificazione. La cosa strepitosa, come OpenAI ha spiegato in un paper del maggio 2020 dal titolo Language Models Are Few-Shot Learners, è appunto che gli bastano pochi esempi per imparare come funzionano le regole del gioco linguistico, proprio come erano bastati pochi esempi al software AlphaGo per capire come si giocava a Go e battere il campione mondiale. Questa abilità ha fatto sì che, a partire dalla sua terza versione, GPT sia diventato un “meta-apprenditore”, abbia imparato a imparare, anche compiti nuovi. Il problema, per così dire, è che quel che non sa lo inventa. Come ha commentato l’informatico Douglas Summers-Stay, «È come un comico di stand-up totalmente assorto nel suo show, che non è mai uscito di casa e ha una conoscenza solo libresca del mondo». Oppure in altri casi le risposte sono frasi prese di peso da testi che ha letto: “memorizzazione eidetica” la chiamano nel settore, un eufemismo per plagio, che fino al GPT-2 riguardava circa l’1 per cento delle risposte.
ASPETTANDO LE NUOVE RELEASE, COME LE STAGIONI DELLE SERIE
L’ultima Galapagos:
Tra tanti bilanci incerti, l'unica certezza viene dalla tecnologia: è stato, a mani basse, l'anno dell'intelligenza artificiale. E lo è stato così incontestabilmente che dalla venuta al mondo di ChatGPT, alla fine dell'anno scorso, sembra passato un decennio (su Galapagos ne abbiamo scritto parecchio). Allora il motore che la faceva funzionare era il GPT-3, presto sostituito dal 3,5 e quindi dal 4, a pagamento. Intanto nei laboratori di OpenAI, tra un tentativo di defenestramento di Sam Altman e la sua lesta reintegrazione, stanno lavorando alla versione 5. Che milioni di adepti, quorum ego, aspettano con la trepidazione prima riservata alla nuove stagioni delle serie (di palo in frasca: non perdetevi per niente al mondo la terza di Slow Horses e la quinta di Fargo). Per tacere di Gemini, l'IA di Google che promette sfracelli e dovrebbe far impallidire la già ottima Bard ma lo verificheremo solo quando sarà finalmente disponibile anche in Italia (anche qui, come per le serie, l'uscita spesso ci penalizza). Tra gli altri gusti, per così dire, da provare consiglio anche Claude, di Anthropic, già arrivata alla seconda release. Oppure Poe, una app che consente di interrogarle tutte o Pi, un assistente virtuale niente male. A differenza delle serie, per cui non vale la regole delle "magnifiche sorti e progressive" (la seconda stagione di True Detective non era niente in confronto al capostipite), si può ragionevolmente assumere che le nuove stagioni dell'IA saranno meglio di quelle che le hanno precedute. Toglie un po' di suspense ma, in un'èra in cui "tutto ciò che è solido svanisce nell'aria", è pur sempre una garanzia. Ps: chi malauguratamente non cogliesse la citazione adesso ha molte IA a cui chiedere.
UNA SELEZIONE DI ARTICOLI A TEMA
Ho perso il conto delle rubriche che ho scritto a tema IA quest’anno. Fondamentalmente potete recuperarle qui.
Epilogo
Nonostante i 21 morti a Gaza, nonostante tutto, buon anno.