Cos'è
BGE-M3 (noto anche come M3-Embedding) è un modello di embedding testuale sviluppato dal Beijing Academy of Artificial Intelligence (BAAI) in collaborazione con l'Università della Scienza e Tecnologia della Cina, pubblicato nel gennaio 2024. Appartiene alla famiglia BGE (BAAI General Embedding) ed è progettato per trasformare testo in rappresentazioni vettoriali utilizzabili in sistemi di information retrieval, clustering e classificazione.
La sigla M3 indica tre proprietà distintive: Multi-Linguality (multilinguaggio), Multi-Functionality (multifunzionalità) e Multi-Granularity (multigranularità). A differenza dei modelli di embedding tradizionali, che producono un unico vettore denso, BGE-M3 integra in una sola architettura tre modalità di retrieval: dense, sparse e multi-vector. Questo consente di affrontare simultaneamente ricerca semantica, corrispondenza lessicale e matching fine-grained senza dover gestire modelli o indici separati.
A cosa serve / dove eccelle
BGE-M3 è pensato principalmente per compiti di information retrieval e Retrieval-Augmented Generation (RAG). Si distingue in scenari che richiedono:
- Supporto multilingue: oltre 100 lingue, con buona capacità di cross-lingual retrieval (ricerca di documenti in una lingua diversa dalla query).
- Lungo contesto: può elaborare input fino a 8192 token, utile per documenti legali, contratti, paper accademici e knowledge base tecniche.
- Retrieval ibrido: la combinazione nativa di dense, sparse e multi-vector lo rende adatto a sistemi che devono bilanciare similarità semantica e corrispondenza esatta di termini.
