Vectorisation
Aussi appelé : Vectorization · vectorization · mise en vecteurs · embeddings
Mis à jour le
La vectorisation est le processus qui transforme des mots ou des images en listes de nombres, permettant à l'IA de calculer mathématiquement les similitudes de sens entre différentes données.
📖 Définition
💬 En termes simples
C'est comme attribuer des coordonnées GPS à chaque commerce d'une ville : au lieu de chercher un restaurant par son nom dans un bottin, tu peux trouver tous les restaurants proches d'un point donné sur une carte. Deux restaurants italiens se retrouveront naturellement proches, même si leurs noms sont différents.
🎯 Exemple concret
En 2026, une bibliothèque universitaire de Laval vectorise ses 500 000 documents pour permettre des recherches par concept plutôt que par mot-clé. Un service de RH à Québec vectorise les descriptions de postes et CV pour automatiser le jumelage candidat-emploi. Une firme d'ingénierie de Trois-Rivières vectorise ses rapports techniques pour qu'un assistant IA retrouve les projets antérieurs pertinents.
💡 Le saviez-vous ?
Les vecteurs d'embeddings modernes peuvent comporter plusieurs milliers de dimensions, et pourtant des opérations arithmétiques simples produisent des résultats sémantiquement cohérents, comme « roi - homme + femme ≈ reine ». Les bases de données vectorielles sont devenues l'une des catégories de logiciels à la croissance la plus rapide, avec des acteurs comme Pinecone et Weaviate qui ont levé des centaines de millions de dollars.
❓ Questions fréquentes
Comment des chiffres peuvent-ils représenter le sens d'une phrase ?
Pourquoi est-ce une étape cruciale pour vos systèmes de recherche ?
Quels sont les outils pour stocker ces vecteurs ?
📚 Sources
- Wikipedia - Plongement de mots (Word Embedding) (Contributeurs de Wikipédia, 2024)
- OpenAI - Embeddings Documentation (OpenAI, 2024)