Cos'è
SmolLM3 è un modello di linguaggio di grandi dimensioni (LLM) sviluppato da Hugging Face e pubblicato a luglio 2025 sotto l'organizzazione HuggingFaceTB. Appartiene alla famiglia dei "small language models", ovvero modelli progettati per offrire capacità linguistiche avanzate mantenendo dimensioni contenute. La versione principale dispone di 3 miliardi di parametri ed è rilasciata con licenza Apache 2.0, che ne consente l'uso commerciale e la modifica.
A differenza di molti modelli di pari dimensione, SmolLM3 è accompagnato da una documentazione completa del processo di addestramento: la ricetta pubblicata include dettagli architetturali, le miscele di dati esatte per ciascuna fase, i file di configurazione e il codice di valutazione. Questo livello di trasparenza lo rende un riferimento per ricercatori e team che desiderano riprodurre o adattare una pipeline di addestramento.
A cosa serve / dove eccelle
SmolLM3 è pensato per chi cerca un equilibrio tra prestazioni e efficienza computazionale. Il modello eccelle in tre aree principali: ragionamento strutturato, comprensione di contesti lunghi e multilinguismo europeo.
La versione istruita (instruct) supporta una modalità di ragionamento "dual-mode": l'utente può attivare o disattivare il ragionamento passo-passo attraverso i flag /think e /no_think nel system prompt. Con il ragionamento attivo, il modello mostra miglioramenti significativi su compiti complessi: sul benchmark AIME 2025 il punteggio passa dal 9,3% al 36,7%, su LiveCodeBench dal 15,2% al 30,0% e su GPQA Diamond dal 35,7% al 41,7%.
Per i contesti lunghi, SmolLM3 è stato addestrato a gestire 64.000 token ed è in grado di estendersi fino a 128.000 token tramite la tecnica YaRN (Yet another RoPE extrapolation). Questo lo rende adatto all'analisi di documenti estesi, conversazioni multi-turno e codice sorgente di grandi dimensioni.
