Définition
La recherche plein texte est une recherche par mots-clés dans des champs comme le titre, le corps et les métadonnées. La plupart des moteurs construisent un index inversé qui associe des termes aux documents (et positions) où ils apparaissent, ce qui rend les requêtes rapides.
Pourquoi c’est important
- Précision: termes exacts, phrases et filtres sont souvent essentiels en juridique/fiscal.
- Vitesse: les index inversés passent à l’échelle.
- Transparence: on peut expliquer le match (termes, champs, boosts).
- Contrôle: pondération de champs, recherche de phrase, opérateurs booléens.
Comment ça fonctionne
Texte -> tokenise/normalise -> index inversé -> requête -> scoring -> classement
Exemple pratique
Une requête comme "précompte mobilier" AND Belgique remonte des documents qui contiennent explicitement la phrase et la juridiction, même si un modèle sémantique dérive.
Questions fréquentes
Q: Plein texte = recherche sémantique?
R: Non. Le plein texte matche des tokens/phrases. La recherche sémantique matche le sens (souvent via des embeddings). Beaucoup de systèmes font du hybride.
Q: Pourquoi des résultats attendus manquent-ils?
R: Souvent à cause des analyseurs (stemming, stopwords), de champs non indexés, ou de contenu exclu par la stratégie d’indexation.
Termes associés
- Stratégie d’indexation - décider quoi et comment indexer
- Recherche booléenne - AND/OR/NOT strict
- Ajustement de la pertinence - améliorer le classement
- Découvrabilité du contenu - rendre le contenu trouvable et indexable
Références
Manning, Raghavan & Schütze (2008), Introduction to Information Retrieval.
References
Manning, Raghavan & Schütze (2008), Introduction to Information Retrieval.