Qu’est ce que c’est la recherche vectorielle ?

👋
Dans ce document vous découvrez le concept de la recherche vectorielle d’une manière assez simple et des différents cas de son usage.
Le langage est souvent ambigu et imprécis. Deux mots peuvent avoir la même signification (synonymes) ou un même mot peut avoir plusieurs sens (polysémie). En français, par exemple, "lourd" et "pesant" peuvent avoir des significations similaires, mais "lourd" peut aussi avoir plusieurs sens différents : pesant, fatigant, pénible, difficile à supporter, voire grossier. Cette complexité et cette ambiguïté inhérentes au langage naturel posent un défi de taille pour les systèmes informatiques qui doivent traiter et comprendre le texte. C'est là qu'intervient la recherche vectorielle, une technique d'apprentissage automatique de plus en plus utilisée dans de nombreuses applications, notamment dans les moteurs de recherche, la recommandation de contenus et l'analyse de texte. Cette approche novatrice permet de capturer les nuances sémantiques et les multiples significations des mots d'une manière que les ordinateurs peuvent traiter efficacement.
Mais de quoi s'agit-il exactement ?

Qu'est-ce que la recherche vectorielle ?

La recherche vectorielle est une technique qui transforme les mots, phrases ou documents en représentations numériques appelées vecteurs. Ces vecteurs capturent les caractéristiques essentielles du texte d'une manière que les ordinateurs peuvent traiter efficacement.
        https://weaviate.io/blog/distance-metrics-in-vector-search
https://weaviate.io/blog/distance-metrics-in-vector-search

Processus de la recherche vectorielle :

  1. Création d'embeddings : Les données textuelles sont transformées en embeddings, qui sont des représentations numériques capturant le sens et le contexte.
  1. Génération de vecteurs : Ces embeddings sont ensuite exprimés sous forme de vecteurs, qui sont des listes de nombres.
  1. Comparaison : Les vecteurs peuvent être comparés mathématiquement pour évaluer la similarité entre les textes qu'ils représentent.

De mots à vecteurs : la magie des embeddings :

Les "embeddings" sont le cœur de la recherche vectorielle. Ce sont des représentations numériques denses qui capturent le sens et le contexte des mots ou des phrases. Mais comment passe-t-on du texte à ces fameux vecteurs ? C'est là qu'interviennent les techniques d'embedding.
Voici un aperçu des principales méthodes :
1. Word2Vec : Cette technique pionnière analyse les cooccurrences de mots pour créer des vecteurs qui capturent les relations sémantiques. 2. BERT (Bidirectional Encoder Representations from Transformers) : Développé par Google, BERT prend en compte le contexte bidirectionnel pour générer des embeddings plus riches. 3. GPT (Generative Pre-trained Transformer) : Cette famille de modèles, dont le célèbre GPT-3, excelle dans la génération de texte et la création d'embeddings contextuels.
4.VERTEX AI : Plusieurs modèles sont mis à disposition par Google pour générer des embeddings en plusieurs langues.

Les mesures de comparaison :

Cosinus de l'angle : C'est la mesure de similarité la plus couramment utilisée. Elle calcule le cosinus de l'angle entre les deux vecteurs. Plus les vecteurs sont alignés (angle faible), plus leur similarité est élevée.
Distance euclidienne : C'est la distance géométrique entre deux vecteurs dans l'espace multidimensionnel. Plus les vecteurs sont proches, plus leur similarité est élevée.
                              Image de Google Cloud Blog
Image de Google Cloud Blog

Applications concrètes : la recherche vectorielle au quotidien

La recherche vectorielle trouve de nombreuses applications concrètes :
  • Moteurs de recherche et recommandation : Les principaux moteurs de recherche comme Google ou Bing utilisent la recherche vectorielle pour faire de la recherche sémantique afin de mieux comprendre les requêtes des utilisateurs et proposer des résultats plus pertinents.
  • Les systèmes de recommandations: Netflix, Amazon, etc. utilisent la recherche vectorielle pour trouver des produits, films ou articles similaires à ceux qu’on a déjà consultés ou appréciés. Leurs algorithmes analysent les vecteurs des contenus pour identifier ceux qui nous correspondront le mieux.
  • Les assistants conversationnels : Les chatbots et assistants virtuels comme Alexa ou Siri ne comprennent pas exactement ce qu’on leur dit, mais ils utilisent la recherche vectorielle pour comprendre le sens des phrases et questions posées par les utilisateurs. Ils comparent les vecteurs des requêtes aux vecteurs des réponses possibles dans leur base de connaissances pour trouver la réponse la plus appropriée.
ℹ️
Les moteurs de recherche modernes comme Google Search, Bing, Yahoo, DuckDuckGo, etc. utilisent tous des moteurs de recherche vectorielle pour fournir aux utilisateurs les résultats les plus pertinents possibles.

Autres ressources


📖

Powered by Notaku