Similarité Sémantique — Glossaire

Définition

La similarité sémantique mesure à quel point deux textes sont proches en sens, pas seulement en chevauchement de mots. Contrairement à la correspondance par mots-clés, elle capture que “voiture” et “automobile” sont similaires, ou que “règles de déduction fiscale” est lié à “directives d’exemption fiscale.” Ceci est typiquement calculé en comparant les embeddings vectoriels de texte utilisant des métriques de distance.

Pourquoi c’est important

La similarité sémantique permet une compréhension basée sur le sens dans les systèmes IA :

Au-delà des mots-clés — trouve du contenu pertinent même avec terminologie différente
Qualité de recherche — alimente la recherche sémantique et la récupération RAG
Déduplication — identifie les documents ou problèmes sémantiquement similaires
Matching de contenu — permet les systèmes de recommandation et paires Q&A
Multilingue — peut matcher le sens entre langues avec les bons modèles

C’est la fondation de comment les systèmes IA modernes comprennent et comparent le texte.

Comment ça fonctionne

┌────────────────────────────────────────────────────────────┐
│            CALCUL DE SIMILARITÉ SÉMANTIQUE                 │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  TEXTE A: "L'automobile nécessite du carburant"            │
│  TEXTE B: "La voiture a besoin d'essence"                  │
│                                                            │
│           │                           │                    │
│           ▼                           ▼                    │
│  ┌─────────────────┐        ┌─────────────────┐            │
│  │ MODÈLE EMBEDDING│        │ MODÈLE EMBEDDING│            │
│  │  (BERT, etc.)   │        │  (Même modèle)  │            │
│  └────────┬────────┘        └────────┬────────┘            │
│           │                          │                     │
│           ▼                          ▼                     │
│     Vecteur A                   Vecteur B                  │
│   [0.23, 0.87, ...]          [0.21, 0.89, ...]             │
│           │                          │                     │
│           └──────────┬───────────────┘                     │
│                      ▼                                     │
│         ┌─────────────────────────┐                        │
│         │   MÉTRIQUE SIMILARITÉ   │                        │
│         │   • Similarité cosinus  │                        │
│         │   • Distance euclidienne│                        │
│         │   • Produit scalaire    │                        │
│         └───────────┬─────────────┘                        │
│                     ▼                                      │
│             Score de Similarité                            │
│                  0.94                                      │
│           (Élevé = Très Similaire)                         │
└────────────────────────────────────────────────────────────┘

Composants clés :

Encodage de texte — convertir les deux textes en embeddings avec le même modèle
Comparaison vectorielle — appliquer une métrique de similarité à la paire d’embeddings
Interprétation du score — des scores plus élevés (typiquement 0-1) indiquent plus de similarité

Questions fréquentes

Q : Quelle différence entre similarité sémantique et lexicale ?

R : La similarité lexicale compare les mots exacts (correspondance de chaînes). La similarité sémantique compare le sens. “Grand” et “large” ont faible similarité lexicale mais haute similarité sémantique. “Banque” (rivière) et “banque” (financière) ont forme lexicale identique mais sens sémantiques différents.

Q : Quel score de similarité indique une bonne correspondance ?

R : Ça varie selon le modèle et le domaine. Généralement : > 0.8 = très similaire, 0.6-0.8 = lié, < 0.5 = sujets différents. Calibrez toujours les seuils avec de vrais exemples de vos données.

Q : La similarité sémantique fonctionne-t-elle entre langues ?

R : Oui, avec des modèles d’embedding multilingues. Les modèles comme multilingual-e5 et LaBSE encodent différentes langues dans le même espace vectoriel, permettant le calcul de similarité cross-lingue.

Q : Quelle différence avec la recherche sémantique ?

R : La similarité sémantique est la technique de comparaison sous-jacente. La recherche sémantique l’applique à l’échelle—comparant une requête à de nombreux documents pour trouver les plus similaires.

Termes associés

Embeddings — représentations vectorielles pour le calcul de similarité
Similarité Cosinus — métrique de similarité courante
Recherche Sémantique — utilise la similarité sémantique pour la récupération
Base de Données Vectorielle — stocke les embeddings pour comparaison rapide

Références

Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [5 000+ citations]

Cer et al. (2018), “Universal Sentence Encoder”, arXiv. [3 000+ citations]

Mikolov et al. (2013), “Distributed Representations of Words and Phrases and their Compositionality”, NeurIPS. [30 000+ citations]

Wang et al. (2022), “Text Embeddings by Weakly-Supervised Contrastive Pre-training”, arXiv. [500+ citations]

References

Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [5,000+ citations]

Cer et al. (2018), “Universal Sentence Encoder”, arXiv. [3,000+ citations]

Mikolov et al. (2013), “Distributed Representations of Words and Phrases and their Compositionality”, NeurIPS. [30,000+ citations]

Wang et al. (2022), “Text Embeddings by Weakly-Supervised Contrastive Pre-training”, arXiv. [500+ citations]