Conosci te stesso.
Era scolpito sull'ingresso del tempio di Apollo a Delfi, in Grecia. Una frase attribuita a saggi antichi, ma diventata immortale grazie a Socrate. E non a caso partiamo da qui.
"Io so di non sapere."
La frase più famosa di Socrate, che rappresenta il cuore pulsante di tutta la filosofia occidentale. Una resa intellettuale? Tutt'altro. Il momento in cui l'umano comprende il proprio limite, e proprio per questo inizia davvero a conoscere. Perché l'unico modo per apprendere è rendersi conto di non sapere. Se pensi di sapere già tutto, non ascolti, non leggi, non cerchi. E questo, guarda un po', ci serve per capire l'IA.
Cosa c'entra con l'intelligenza artificiale?
Tutto. O meglio, questa puntata è la scusa perfetta per raccontarvi come funziona sotto il cofano un modello di intelligenza artificiale. Niente complessità, niente paroloni. È più semplice di quanto pensiate. E fa molto meno di quanto sembri.
Saltiamo la storia dell'IA (tanto la trovate ovunque). Sappiate solo che le prime idee di IA partono da ben prima del 1950. Per decenni, pochi progressi, poi nel 2017 l'esplosione: nasce il Transformer e con lui il paradigma NWP, Next Word Prediction: la predizione della prossima parola. Qui uno stupendo spiegone, purtroppo in inglese (usate chrome translate)
E qui iniziano gli LLM: da GPT a Gemini, da Claude a Grok. Tutti cugini.
Cosa fanno e come funzionano?
Sono sistemi molto complessi che fanno una sola cosa:
scrivono una parola alla volta.
Non una frase. Non un concetto. Una parola (o meglio, un token, vediamo sotto) alla volta.
Quella più probabile in base a ciò che è stato scritto prima.
E per "scritto prima" si intende sia il testo che hai scritto tu nel prompt (la vostra domanda, si chiama così) , sia le parole che il modello ha già cominciato a generare. A ogni passaggio, prende tutto quello che ha davanti (il contesto, il vostro prompt altre cose aggiunte dal fornitore di servizi che voi non vedete), lo trasforma in numeri, e calcola quale è la prossima parola più probabile. La scrive. Poi rifà il calcolo aggiungendo anche quella parola, e avanti così.
È come se un bravo completatore di frasi continuasse il discorso, una parola alla volta, sulla base di tutto quello che è già stato detto. Non sa dove sta andando, ma ha una mappa statistica di dove di solito si va a parare. E riesce a farlo così bene grazie all'architettura Transformer, che permette al modello di tenere in considerazione l'intero contesto della frase: riesce a capire qual è l'argomento del discorso, distinguere il soggetto dal verbo e dall'oggetto, riconoscere se una parte della frase si riferisce al soggetto o all'oggetto, e così via. Questo è ciò che rende possibile generare testi coerenti e grammaticalmente corretti, in cui ogni parola sembra al posto giusto. Non perché capisca davvero, ma perché ha imparato a riconoscere degli schemi di parole che a noi sembrano significare qualcosa.
Come funziona il processo
Scrivi un prompt: "Nel mezzo del cammin di nostra..."
Il modello cerca, tra tutto quello che ha imparato, la parola più probabile che segue.
In questo caso: "vita". E avanti di onda con le altre parole.
Perché l'ha visto migliaia di volte.
L'IA generativa fa esattamente questo.
Cosa significa STATISTICAMENTE PIÙ PROBABILE ?
Significa che, in fase di training, ha letto tonnellate di testi (detti corpus), e ha imparato che a certe sequenze di parole ne seguono altre con una certa probabilità. Il corpus è, in pratica, la base di conoscenza che viene fornita al modello per "insegnargli" come funziona il linguaggio. È leggendo questi corpus che l'IA impara gli schemi statistici delle frasi.
Cos'è un corpus?
Il corpus è l'insieme dei testi usati per insegnare al modello. Può includere Wikipedia, libri, articoli, forum, codice, documentazione tecnica, ecc. Tra i principali corpus utilizzati nei modelli più noti ci sono Common Crawl (una raccolta enorme di pagine web pubbliche), The Pile (un dataset open-source che include testi scientifici, accademici, letteratura, codici sorgente e altro), Wikipedia in varie lingue, GitHub (per il codice), arXiv e PubMed (per gli articoli scientifici), libri digitalizzati (come quelli del progetto Gutenberg), e forum o conversazioni online come Reddit. Ogni corpus contribuisce ad ampliare la varietà linguistica e semantica che il modello può apprendere.
Token e Tokenizer
Le parole vengono spezzate in token, che sono i mattoncini minimi con cui il modello lavora. A volte coincidono con parole intere, altre volte con sillabe o frammenti. Ad esempio, "computer" potrebbe essere suddiviso in "com", "put" e "er". Così, anche parole nuove o mai viste possono essere comprese e processate in base ai pezzi già conosciuti.
Il tokenizer è il sistema che fa questa operazione: prende il testo, lo divide in token, e assegna a ciascuno un numero identificativo. Il modello non lavora con lettere, ma con numeri. Un po' come nel cifrario di Cesare, dove ogni lettera dell'alfabeto viene sostituita con un numero: A diventa 1, B diventa 2, e così via. Qui è simile, ma molto più sofisticato. Ogni token ha un numero, e il modello lavora solo su sequenze numeriche.
Per l'LLM, ogni frase è quindi solo una lunga sequenza di numeri. E tramite la statistica, predice il numero (cioè il token) più probabile da aggiungere dopo, uno alla volta. Ecco come genera testo che sembra naturale.
Ricapitoliamo:
Il corpus serve a insegnare al modello le relazioni tra i token
Dopo l'allenamento si ottiene un modello funzionante
Il modello legge il tuo input, lo trasforma in numeri
Restituisce il token più probabile
Lo aggiunge all'input e ricomincia
Fino a che non predice il token "fine risposta"
Tutto qui.
Pura statistica.
Il modello non comprende. Il modello non ragiona. Non è cosciente. E soprattutto: è credibile, ma non necessariamente vero. Dopotutto anche Alan Turing lo aveva chiamato “il gioco dell’imitazione“: sembra, ma non è.
Perché?
Perché la sua forza sta nella forma, non nel contenuto. Scrive frasi ben formate perché ha imparato come si costruiscono, ma non ha idea se siano vere o false.
La grammatica segue delle regole, mentre la verità si fonda sui fatti. Le regole grammaticali le ha imparate leggendo enormi quantità di testi, ma i fatti non li conosce tutti, e soprattutto non è in grado di distinguerli da ciò che è falso o inventato. Per lui, tutto ciò che ha letto è solo una sequenza di token da replicare nel modo più plausibile possibile.
Il modello predice parole plausibili, non concetti corretti. Un po' come se completasse un cruciverba senza sapere nulla del significato delle parole.
E poi: il training non si aggiorna ogni giorno. Se va bene, ogni 3-6 mesi. Costa troppo.
Quindi, anche quando "risponde", sta solo cercando la frase più probabile in quel contesto. Non ti sta dicendo cosa sa. Ti sta dicendo cosa è probabile che venga detto in quella situazione.
E quando non sa?
Inventa.
Se chiedi: "Quando è morto papa Francesco?", lui prova a dare una risposta plausibile. Io stesso ho fatto questa prova, su un modello non collegato a internet. E mi ha risposto: "21 dicembre 2024". Non perché lo sapesse. Ma perché, nella sua memoria statistica, ha visto che dopo "morte di" c'è di solito un mese, un giorno, un anno. E a dicembre si vede che capita spesso che la gente muoia, perlomeno in quello che ha letto. Tutto qui.
NON LO SA.
E la cosa interessante è che non ti dirà mai "non lo so", perché non ha appreso che questa è una risposta valida in quel contesto. Serve comprensione vera per rispondere così, serve sapere di non sapere. Ma i LLM non lo sanno.
Qualcuno di voi ha mai sentito di libri in cui ci sono domande su argomenti sconosciuti con dopo scritto "non lo so"?
Il fatto è che molti dei modelli online oggi hanno intorno un sistema di retrieval, cioè un software normalissimo che quando non sa la risposta va a cercarla su internet. E quindi, all'utente medio, sembra che sappiano tutto. Ma non è così: è un altro programma che si occupa di colmare quel vuoto. Il cuore dell'LLM, da solo, ha ancora questi limiti. Solo che non si vedono più, nascosti da una interfaccia ben costruita.
Ma allora come fanno certi modelli a dirti cose aggiornate?
Semplice: non lo fanno loro. Lo fa qualcos'altro.
Barbatrucco: L'LLM, quando riceve una domanda su un argomento che potrebbe essere "fuori dal suo sapere", passa la palla a un programma esterno. Questo programma fa una ricerca online, come se fosse un utente che cerca su Google o Bing. Recupera una manciata di risultati, li legge e li sintetizza. Poi li passa di nuovo al LLM, che li riformula e li presenta come se li avesse "saputi" da solo.
Il modello vero e proprio, quello allenato sui corpus fino a una certa data, da solo non sarebbe in grado di darti una risposta aggiornata. Ma grazie a questo trucco, riesce a sembrare onnisciente.
Succede lo stesso con i calcoli:
Se chiedi: "1234 x 546?", il modello da solo probabilmente sbaglierebbe. Per lui, i numeri non sono entità da calcolare: sono parole come le altre. Sa che "uno più uno fa due" perché l'ha letto mille volte, non perché sappia sommare. Quando gli fai una domanda matematica, entra in gioco un modulo esterno: genera un piccolo programma, spesso in Python, lo esegue davvero, legge il risultato e poi lo restituisce come se fosse stato il modello a calcolarlo. Ma il calcolo l'ha fatto qualcun altro.
Ecco il punto:
L'LLM legge parole e scrive parole. Tutto il resto è software incollato intorno per farlo sembrare più intelligente.
Non fa i conti. Non sa. Non capisce. Ma sa scrivere bene. E se intorno ci metti dei software che cercano le informazioni giuste o che fanno i calcoli al posto suo, allora sembra anche molto più intelligente di quello che è davvero. Fa bella figura perché è presentato bene, con un'interfaccia curata e risposte credibili, ma il cuore dell'LLM rimane sempre lo stesso: un completatore di testo basato su statistica.
Ed è già tantissimo. Ma non è magia. E non è neanche intelligenza, almeno non nel senso umano del termine.
Perché alla fine, se ci pensate, l'LLM non sa nemmeno di non sapere. Non ha coscienza dei suoi limiti, non ha un "io" che possa riconoscere una lacuna. Non ha neanche modo di dire "non lo so", a meno che qualcuno non glielo insegni esplicitamente come risposta preimpostata. Non conosce se stesso. E quindi non può nemmeno iniziare quel percorso di consapevolezza che per noi umani è la base di ogni conoscenza.
Ecco perché siamo partiti da Socrate. Perché la sua frase "so di non sapere" non è solo filosofia. È qualcosa che l'intelligenza artificiale, per ora, non è nemmeno in grado di immaginare.
Spoiler: come fa a leggere i documenti? Come fa a "ragionare"? Come fa a interpretare immagini, a generarne di nuove, a fare video o musica?
Lo vediamo nelle prossime puntate, che si è fatta una certa.
PS: continuo con l’esperimento del podcast perchè il primo, ridendo e scherzando, è stato ascoltato tanto quanto è stato letto il post, va che roba. E’ generato in automatico con l’AI a partire da questo articolo. Non scrivo io lo script, scrivo solo questo articolo. Se però mi sono spiegato bene e se state attenti, noterete un errore grossolano di questa AI che ha generato il podcast ma avete le conoscenze nel capire perchè ha fatto quell’errore.








