Link 1T: Un Modello Open Weight da un Trilione di Parametri che Ridefinisce l'Efficienza dei Giganti LLM

Siamo ufficialmente entrati nell'era dei Large Language Model (LLM) di dimensioni titaniche, con l'introduzione di Link 1T, un nuovo modello open weight che vanta la cifra sbalorditiva di 1 Trilione di parametri

Mentre alcuni ricercatori si concentrano sulla ricerca di architetture più efficienti e più piccole (come il Tiny Recurrent Model da 7 Milioni di parametri creato da Samsung), Link 1T rappresenta l'approccio opposto, aderendo alla "legge di scala": rendere la rete neurale sempre più grande e complessa per vedere quali proprietà emergenti ne derivano.

Link 1T: Identità e Architettura.

Il modello Link 1T è stato sviluppato dall'azienda Inclusion AI che fa parte di Ant Group Artificial General Intelligence (AGI), la quale a sua volta è controllata da Alibaba. Inclusion AI ha sviluppato anche altre varianti del modello, tra cui Link Flash e Link Mini.

Nonostante le sue dimensioni colossali (un trilione di parametri), Link 1T è descritto come estremamente efficiente. L'efficienza è resa possibile dall'utilizzo della tecnica Mixture of Experts (MoE).

  • Architettura MoE.
    Il mega-cervellone da un trilione di parametri è formato da tanti modelli più piccoli, ciascuno dei quali è composto da 50 Miliardi di parametri. Quando il modello viene eseguito, non si attivano tutti i trilioni di parametri, ma solo circa 50 miliardi alla volta. Questo comporta un notevole risparmio di risorse rispetto a un modello denso delle stesse dimensioni.

  • Link Scaling Law.
    Il nome stesso del modello deriva dalla Link Scaling Law. Questa legge di scala è stata dimostrata in un paper precedente, dove Inclusion AI ha condotto uno studio empirico su larga scala. Lo studio ha dimostrato che, per modelli MoE molto grandi (fino a trilioni di parametri), l'utilizzo di MoE consuma meno energia (Floating Point Operations) rispetto a un modello denso per ottenere lo stesso risultato.

Innovazioni Tecniche e Addestramento Avanzato.

Link 1T introduce diverse tecniche all'avanguardia che ne migliorano le prestazioni e l'efficienza.

  1. FP8 Mixed Precision.
    Link 1T è il primo modello foundation su larga scala in assoluto ad essere stato addestrato unicamente in FP8 (8-bit floating point). Questa tecnica, utilizzata al posto della Full Precision, garantisce un importante risparmio di VRAM e RAM e offre un'accelerazione nell'addestramento di circa il 15%. I test hanno dimostrato che la perdita (loss) ottenuta con FP8 non mostra un degrado delle performance rispetto a Bfloat 16, ma permette un risparmio significativo di risorse.

  2. Evolutionary Chain of Thought (Evo COT) [Catena evolutiva del pensiero].
    Link 1T è definito come un modello non cognitivo o non reasoning model, nel senso che non produce la catena di pensiero (il ragionamento esplicito) prima di rispondere. Tuttavia, utilizza l'Evo COT in fase di addestramento. Durante il mid-training o post-training, il modello viene addestrato su tracce di ragionamento di alta qualità per imparare a risolvere i problemi. Quando poi viene messo in produzione, risponde direttamente, senza dover attendere che produca la catena di pensiero, aumentando così sia la capacità di ragionamento che l'efficienza e riducendo i tempi di risposta.

  3. Dati di Addestramento.
    Il modello è stato addestrato su 20 trilioni di token di alta qualità, contenenti tracce di ragionamento dense. Supporta un input massimo di 128.000 token (non molto).

Prestazioni e Confronti con Altri LLM.

Link 1T mostra performance eccellenti su tutti i benchmark, posizionandosi spesso sopra i modelli di frontiera (state-of-the-art).

Modello Benchmark Arc EGI (Matematica/Ragionamento) Commento
Link 1T 43.81 Batte molti modelli di frontiera.
Tiny Recurrent Model 44.6 Modello da soli 7 milioni di parametri, batte Link 1T (1 trilione di parametri) su questo specifico benchmark.

Confronto con Modelli di Frontiera.

  • Superamento dello Stato dell'Arte.
    Link 1T è stato visto comparato in celeste sui benchmark contro modelli come DeepSeek V3.1, Terminus, Kimi K2, ChatGPT5, Gemini 2.5 Pro e Low Think. Link 1T si posiziona sopra i modelli di frontiera, inclusi ChatGPT5 Main e Gemini 2.5 Pro. Le sue performance sono ottime nel coding (Live Code Bench, Code Force, Artifacts, Full Stack Aider).

  • Efficienza del Ragionamento (Pareto Frontier).
    In una comparazione (come quella con Gemini 2.5 Pro) relativa all'accuratezza raggiunta contro i token utilizzati, Link 1T ha raggiunto un'accuratezza più elevata utilizzando meno token. Ciò implica che ha ragionato meglio ed è stato più diretto ed efficiente nella risposta, risolvendo il problema scrivendo meno testo. Questo risultato è notevole perché ha rotto la Linea di Pareto (Pareto Frontier) nel rapporto tra reasoning (ragionamento) e accuracy (accuratezza).

Nonostante i risultati eccezionali sui benchmark, la valutazione finale della comunità degli sviluppatori è cruciale, poiché le performance di questi modelli giganti stanno diventando estremamente vicine e simili.

Elenco dei Modelli LLM Menzionati nel Video

  1. Link 1T
  2. Tiny Recurrent Model
  3. Link Flash
  4. Link Mini
  5. DeepSeek V3.1
  6. Terminus
  7. Kimi K2
  8. ChatGPT5
  9. Gemini 2.5 Pro
  10. Low Think
DeepSeek e citato per somiglianze architetturali.

Disponibilità

Link 1T è già disponibile per il download su https://huggingface.co/inclusionAI/Ling-1T e richiede enormi risorse, essendo 1000 miliardi di parametri; o per la chat e il testing su OpenRouter.

Approfondimenti