Granite 3.1 (IBM): LLM open source enterprise multilingue
Famiglia di modelli linguistici open source di IBM per applicazioni aziendali, con contesto fino a 128K token e licenza Apache 2.0.
20 giugno 2026·6 min di lettura
IBM Granite 3.1LLM open sourcemodelli linguistici enterpriseRAGfunction callingApache 2.0modelli AI italianiagenti AI
Cos'è
Granite 3.1 è una famiglia di modelli linguistici di fondazione sviluppata da IBM e rilasciata come open source. Si tratta di modelli pensati principalmente per l'uso aziendale: leggeri, personalizzabili e adatti a girare anche su risorse di calcolo contenute, dal cloud privato fino a deployment on-premise o edge. La famiglia è composta da quattro varianti principali, suddivise in due architetture:
Modelli densi: 2B e 8B di parametri, addestrati su 12 trilioni di token.
Modelli Mixture-of-Experts (MoE): 1B e 3B di parametri totali, con rispettivamente 400M e 800M di parametri attivi per token, addestrati su 10 trilioni di token.
Per ciascuna scala IBM mette a disposizione sia un modello base (checkpoint post pre-training) sia una versione instruct (affinitata per dialogo, istruzioni, sicurezza e utilità). I modelli base sono pensati per chi vuole fare fine-tuning su domini specifici o costruire varianti specializzate; i modelli instruct sono già pronti per essere usati come assistenti conversazionali e per task di ragionamento. Tutti i modelli sono rilasciati con licenza Apache 2.0, che ne permette l'uso commerciale e la modifica senza richiedere royalty.
A cosa serve
Granite 3.1 è progettato per compiti testuali complessi in ambito enterprise. I casi d'uso principali includono:
Retrieval Augmented Generation (RAG): generazione di risposte basate su knowledge base aziendali, riducendo le allucinazioni legate alla memoria parametrica del modello.
Agenti AI e function calling: esecuzione di chiamate a strumenti esterni, API, database e servizi interni, con formati strutturati per il dialogo tra modello e ambiente.
Hai letto fino a qui
🤔 Hai domande su questo argomento?
Posso aiutarti a capire come applicarlo al tuo business. Scegli come vuoi parlarmi.
Analisi e riassunto di documenti lunghi: contratti, report finanziari, manuali tecnici, atti normativi, trascrizioni di call e log estesi.
Estrazione e classificazione di informazioni: identificazione di entità, relazioni, sentiment e attributi da testi non strutturati.
Coding e assistenza allo sviluppo: completamento, spiegazione, debugging e documentazione di codice in più linguaggi di programmazione.
Domande e risposte multilingue su documentazione interna o pubblica, con supporto diretto per l'italiano.
Accanto ai modelli generativi, IBM ha rilasciato anche i Granite Embedding, modelli di embedding ottimizzati per il retrieval, che supportano 12 lingue e dimensioni che vanno da 30M a 278M di parametri. Questi embedding sono progettati per essere veloci e compatti, favorendo la costruzione di motori di ricerca semantica su larga scala. Inoltre, la famiglia include Granite Guardian 3.1, modelli specializzati nel rilevamento di allucinazioni, con particolare attenzione al function calling, per aumentare l'affidabilità e l'osservabilità degli agenti autonomi.
Come funziona
L'architettura di Granite 3.1 si basa su un transformer decoder-only con componenti moderne e orientate all'efficienza. Tra le scelte tecniche principali figurano la Grouped Query Attention (GQA), che riduce il numero di teste chiave-valore e quindi l'occupazione di memoria della KV cache; la RoPE (Rotary Position Embedding) per codificare le posizioni in modo relativo e scalabile; l'attivazione SwiGLU nelle reti MLP, che migliora la qualità delle rappresentazioni; la RMSNorm per stabilizzare l'addestramento; e gli embedding di input/output condivisi, che riducono i parametri totali. L'insieme di queste scelte permette di ottenere buone prestazioni anche con modelli di dimensioni relativamente contenute.
Il miglioramento più rilevante rispetto alla generazione precedente è il contesto esteso a 128K token, ottenuto con una strategia di addestramento progressivo in cui la lunghezza di contesto supportata viene aumentata gradualmente e il parametro RoPE theta viene regolato di conseguenza. Questa fase di pre-training a contesto lungo è stata eseguita su circa 500 miliardi di token. Il vantaggio pratico è poter inserire in un'unica richiesta documenti di diverse centinaia di pagine, riducendo la necessità di frammentare i testi e perdere coerenza.
I modelli instruct sono stati affinati con una combinazione di dataset open source a licenza permissiva, dati sintetici interni mirati a compiti a contesto lungo, RAG e function calling, e piccole quantità di dati curati da esseri umani. Il processo include supervised fine-tuning, allineamento con reinforcement learning e tecniche di model merging. I modelli MoE attivano solo un sottoinsieme di esperti per ogni token, riducendo il costo computazionale effettivo pur mantenendo una capacità complessiva elevata. Questo li rende interessanti per chi cerca un buon rapporto tra prestazioni e risorse hardware, specialmente in ambienti con vincoli di costo o latenza.
Perché conta per founder, PMI e agenzie italiane
Per realtà italiane come startup, PMI, agenzie di comunicazione e software house, Granite 3.1 ha diversi punti di forza concreti:
Licenza Apache 2.0: nessun costo di licenza e libertà di integrazione in prodotti commerciali, anche white-label. Questo è fondamentale per chi vuole costruire soluzioni proprietarie senza dipendere da API esterne soggette a cambiamenti di prezzo o condizioni.
Dimensioni contenute: le varianti da 2B e 8B, oltre agli MoE da 1B e 3B, possono girare su server aziendali o workstation avanzate. Questo favorisce deployment on-premise, il rispetto della privacy dei dati e la conformità a regolamenti come il GDPR.
Supporto all'italiano: i modelli supportano nativamente 12 lingue, tra cui l'italiano. Per aziende che operano sul mercato locale significa poter creare chatbot, assistenti vocali e strumenti di analisi documentale in lingua senza dipendere esclusivamente da modelli anglofoni.
Contesto lungo: i 128K token permettono di analizzare documenti estesi senza frammentarli in chunk, semplificando workflow RAG, analisi contrattuale e revisione di normative.
Indennizzo IP: IBM offre una forma di protezione legale contro rivendicazioni di violazione di proprietà intellettuale, elemento rilevante per aziende che usano modelli open source in produzione.
Ecosistema di integrazione: Granite 3.1 si integra con strumenti come Docling per l'elaborazione di documenti, Bee Framework per la costruzione di agenti AI, e può essere eseguito su piattaforme standard come Hugging Face, Ollama, LM Studio, Replicate e IBM watsonx.ai.
Per un founder, questo significa poter validare un'idea con un modello aperto e prevedibile economicamente. Per un'agenzia italiana, significa poter offrire ai clienti assistenti AI, motori di ricerca semantica o automazioni documentali mantenendo il controllo sui dati e riducendo i costi ricorrenti di API di terze parti. Per una PMI manifatturiera o di servizi, Granite 3.1 può diventare il motore di un sistema interno per la gestione della documentazione tecnica, la formazione del personale o il supporto clienti.
Dove trovarlo
I modelli Granite 3.1 sono disponibili pubblicamente su diverse piattaforme, coprendo sia l'uso sperimentale sia quello enterprise:
Hugging Face: raccolta ufficiale ibm-granite/granite-3.1-language-models con i checkpoint base e instruct, pronti per essere scaricati e integrati con librerie come Transformers.
GitHub: repository ibm-granite/granite-3.1-language-models con documentazione, esempi di codice, attributi dei dataset utilizzati e discussioni della community.
Replicate, Ollama, LM Studio e Docker: per test rapidi, esecuzione locale o in container, anche su hardware consumer di fascia medio-alta.
IBM watsonx.ai: piattaforma enterprise per l'addestramento, il fine-tuning e il deployment in ambienti regolati, con funzionalità di governance e monitoraggio.
IBM Granite Docs: documentazione ufficiale con guide, best practice e consigli di prompt engineering.
Grazie alla diffusione su queste piattaforme, Granite 3.1 può essere provato in pochi minuti in locale o integrato in pipeline più strutturate su cloud ibrido. La presenza di modelli di diverse dimensioni consente di partire da varianti leggere per prototipare rapidamente, per poi scalare verso configurazioni più performanti in produzione.
🧠Osservatorio Modelli AI
Sora (OpenAI): modello di generazione video da testo e immagini