Skip to main content

Storia, funzionamento e campi di applicazione del Large Language Model (LLM)

Large Language Model (LLM): sistemi di Intelligenza Artificiale capaci di comprendere e generare testo in modo simile agli esseri umani. A differenza dei software tradizionali che seguono regole programmate, gli LLM apprendono autonomamente analizzando miliardi di pagine di testo.
ChatGPT, il volto più noto di questa tecnologia, è solo la punta dell’iceberg: dietro l’interfaccia conversazionale si nasconde una rivoluzione che sta trasformando il modo in cui interagiamo con i computer.

STORIA

I modelli linguistici nascono negli anni ’80 con sistemi che predicevano la parola successiva usando semplici calcoli di probabilità.
Il primo vero salto arriva nel 2013 con Word2Vec di Google, che rappresenta le parole come vettori matematici capaci di catturare relazioni di significato.

La vera rivoluzione esplode nel giugno 2017 con la pubblicazione del paper “Attention Is All You Need” da parte di ricercatori Google. Questo lavoro introduce l’architettura transformer, che elimina i vecchi sistemi sequenziali sostituendoli con meccanismi di attenzione paralleli. Il vantaggio cruciale: invece di leggere il testo parola per parola, i transformer analizzano intere frasi simultaneamente.

Nel 2018-2020 arrivano i primi grandi modelli.
Google lancia BERT con 340 milioni di parametri, eccellente per comprendere il linguaggio, mentre OpenAI sviluppa GPT, focalizzato sulla generazione di testo.
GPT-3, lanciato nel 2020 con 175 miliardi di parametri, dimostra che modelli più grandi sviluppano capacità impreviste.

Il novembre 2022 segna la svolta mainstream: ChatGPT raggiunge 100 milioni di utenti in due mesi. Nel 2023-2024, GPT-4 introduce capacità multimodali, Google risponde con Gemini, mentre Meta rilascia Llama gratuitamente. Le finestre di contesto esplodono da 2.000 a 10 milioni di parole, permettendo l’analisi di interi libri.

FUNZIONAMENTO

Il funzionamento degli LLM è sorprendentemente semplice: predire la prossima parola.
Sceglie una parola, la aggiunge, e ripete.
Non conosce la risposta in anticipo ma la frase costruisce parola per parola.

L’architettura transformer è il cuore del sistema.
A differenza dell’autocompletamento dello smartphone che guarda solo le ultime parole, i transformer analizzano l’intero contesto attraverso il meccanismo di auto-attenzione. Nella frase “L’animale non attraversò la strada perché era troppo stanco”, l’attenzione collega “era” con “animale” piuttosto che “strada”, risolvendo l’ambiguità.

I parametri sono la memoria del modello dove miliardi di valori numerici vengono regolati durante l’addestramento. GPT-3 ne ha 175 miliardi, GPT-4 supera il trilione.
L’addestramento avviene in due fasi: prima il modello legge miliardi di pagine web, libri e articoli per apprendere la struttura del linguaggio e successivamente viene affinato con esempi di alta qualità per trasformarlo in un assistente utile.

La finestra di contesto rappresenta la “memoria di lavoro”, ovvero quanto testo il modello può considerare simultaneamente. Quest’ultima è cresciuta da circa 1.500 parole nel 2020 a oltre 750 pagine nel 2024.

MACHINE LEARNING E DEEP LEARNING

Gli LLM sono l’apice di un’evoluzione tecnologica.
Il Machine Learning tradizionale lavora con dati strutturati in tabelle, ma richiede che esperti specifichino manualmente quali caratteristiche cercare. Esso è perfetto per prevedere prezzi o approvazioni di prestiti, è meno specializzato in immagini e testo libero.

Il Deep Learning introduce reti neurali che apprendono automaticamente le caratteristiche rilevanti. Eccelle con dati non strutturati ma richiede dataset enormi e potenti GPU.

Gli LLM sono un’applicazione specializzata del Deep Learning focalizzata sul linguaggio.
La gerarchia parte dall’Intelligenza Artificiale, il Machine Learning, il Deep Learning e infine riguarda il Large Language Models.
Ogni fase costruisce sulla precedente, rendendo possibile livelli crescenti di sofisticazione.

CAMPI DI APPLICAZIONE

Gli LLM stanno trasformando diversi settori.
Nel customer service essi offrono assistenza continua, nella programmazione accelerano lo sviluppo software con GitHub Copilot e nell’educazione forniscono tutor personalizzati. Le aziende riportano guadagni del 30-45% nella creazione di contenuti e la traduzione multilingue ha raggiunto qualità senza precedenti.

Nonostante i campi di applicazione degli LLM siano numerosi, vi sono limiti strutturali che determinano degli ostacoli nel suo utilizzo.
Le allucinazioni rappresentano il problema principale, in quanto gli LLM generano informazioni false con sicurezza convincente.
Inoltre, il costo ambientale è considerevole.
Addestrare GPT-3 ha emesso carbonio equivalente a 550 voli New York-San Francisco. Ogni query a ChatGPT usa 15 volte più energia di una ricerca Google, e con un miliardo di interazioni giornaliere l’impatto cresce rapidamente.

Gli LLM eccellono come assistenti alla scrittura, riassunto documenti, analisi dati e traduzione ma richiedono la supervisione umana in applicazioni critiche come diagnosi mediche, consulenza legale, decisioni finanziarie. 

Per queste ragioni, è consigliato avere un approccio di aumentazione: gli LLM vanno utilizzati come strumenti che amplificano le capacità umane, senza sostituire giudizio e responsabilità.