Top

HIDE

Snippets NO!

FALSE

Pagine

Come fanno ChatGPT & Co. a "capire"? Un’introduzione agli embedding.

Una delle applicazioni più iconiche dell’AI è sicuramente la generazione di testo, come testimoniato dal recente successo di Large Languag...


Una delle applicazioni più iconiche dell’AI è sicuramente la generazione di testo, come testimoniato dal recente successo di Large Language Models (LLM) quali GPT, Gemini e LLaMA. Ma come fanno questi modelli a “capire” il contesto della domanda che gli si pone in input e a produrre risposte convincenti, praticamente indistinguibili, da quelle fornite da un essere umano?

In questo episodio, insieme a Fabio Stefanini e Luca Ducceschi, mostriamo come funzionano gli embedding per rappresentare l'informazione testuale in un formato numerico manipolabile dalle reti neurali. Vediamo inoltre qualche esempio di bias linguistico introdotto da questa codifica.

Conduce Luca Mariot.

Luca Ducceschi ha un background da linguista teorico, ma dopo il dottorato si è specializzato in linguistica computazionale. Si è occupato di ricerca, soprattutto lavorando presso l'università di Trento come Post-Doc e come docente a contratto. Attualmente insegna diversi corsi, tra cui linguistica computazionale e interfacce linguistiche, presso le Università di Trento e di Bolzano. Twitter/𝕏 di Luca » https://x.com/DucceschiLuca

Fabio Stefanini è un Ricercatore in Meta nel campo dell'interazione uomo-macchina, esperto AR/VR/ML e neuroscienze computazionali, laurea in Fisica alla Sapienza sul comportamento collettivo, PhD a ETHZ su ingegneria neuromorfa, ricercatore a Columbia University e UCSF su ippocampo e memoria. Twitter/𝕏 di Fabio » https://x.com/faffofratello

Riferimenti:

- Il libro citato da Luca Ducceschi sulla natura dell'informazione è: J. Gleick, "The Information: A History, a Theory, a Flood", Pantheon Books, 2011 (disponibile anche in italiano sotto il titolo "L'informazione. Una storia. Una teoria. Un diluvio", edito da Feltrinelli nel 2015)

- La demo mostrata da Luca Ducceschi durante la puntata è un notebook eseguibile in Google Colab (https://colab.research.google.com/). Il sorgente del notebook è disponibile sul repository Github di Liberi Oltre STEM al seguente link: https://github.com/rymoah/loli-stem

Capitoli
0:00 Introduzione
2:12 Parole come vettori in uno spazio n-dimensionale
4:45 Esempio in due dimensioni, cosine similarity
9:00 Semantica come co-frequenza di parole
11:50 Come si costruisce un embedding?
16:08 Tokenizzazione e analisi delle frequenze
18:28 Trasversalità della modellazione matematica del linguaggio
23:00 Rappresentazione compatta del linguaggio
27:20 Demo di word2vec
32:30 Esempio di embedding in 300 dimensioni
35:38 Bias linguistici negli embedding
41:40 Gli embedding sono "intelligenti"?
46:17 Conclusioni

Nessun commento