webmaster

SEO

Comment Fonctionne Les Moteurs De Recherche

Le web est constitué de plusieurs milliards de documents. Les internautes peuvent utiliser les moteurs de recherche pour trouver une ressource parmi cette jungle. La méthodologie utilisée par les moteurs de recherche est présentée d'une manière simplifiée dans ce cours.

Comment un moteur de recherche trouve les pages web?

Les moteurs de recherche (Google, Yahoo ou encore Bing) utilisent des robots, intitulés crawlers ou spiders dans la langue de Shakespeare. Ces robots sont des processus informatiques qui se contentent de lire une page web, d'y extraire les liens et d'aller visiter ultérieurement les liens trouvés. En suivant les pages, de liens en liens, ces robots sont capables de visiter pratiquement tout le web.
Malgré la puissance de ces crawlers, il y a certaines limitations:

Il n'est normalement pas possible pour ces robots de trouver une page orpheline (page qui ne reçoit aucun lien)
Le web étant si grand, les robots ne peuvent tout indexer et mettre à jour rapidement. Selon le moteur de recherche et la méthodologie qui lui est associé, une page peut être revisitée quelques heures après sa publication ou plusieurs mois après

A titre d'exemple, le moteur de recherche Google utilise un principe simple lorsqu'il découvre des nouvelles pages: s'il découvre une page lambda il la met dans une file d'attente et ira la visiter quand il aura le temps. Si ce même robot trouve un autre lien vers cette page, alors il met l'adresse de la page dans une liste d'attente prioritaire. Le robot se contente ensuite de visiter les pages prioritaires et les autres pages ne sont visitées qu'ultérieurement lorsque le spider à un peu plus de temps.

En vue de ces raisons, il est possible de faire un petit constat:

Un site qui ne reçoit aucun lien sera plus difficilement trouvé par les moteurs de recherche
Les modifications apportées sur un site web ne sont pas répertoriées instantanément sur les résultats d'un moteur de recherche. Il faut alors une autre visite des robots (peut-être une semaine plus tard)

Comment sont sauvegardées les pages

Une fois qu'un robot a visité une page, il va l'enregistrer dans des énormes data-center. Ces derniers enregistrent ainsi des milliards et des milliards de pages web.
L'étape suivante consiste pour le moteur de recherche d'extraire les informations et de les indexer. Sachant que les robots ne sont que ces processus information, ils sont en général capables de lire uniquement le contenu textuel. Il est compliqué et fastidieux pour un processus informatique d'essayer de lire le contenu textuel incluant sur une image ou de reconnaitre les mots d'une bande son.
Le processus qui consister à enregistrer les informations dans un index est fort simple à comprendre. En langage informatique, un index est similaire au principe des index utilisé dans les livres. L'index recense les mots et l'endroit où ils sont présents. Par exemple, l'index peut indiquer que le mot "bonjour" est utilisé sur les pages 12, 34, 35 et 57. Cela sera ultérieurement utilisé pour gagner du temps lorsqu'un visiteur effectuera une requête.
Les index ne listent cependant pas tous les mots. Les skip words (ou "stop words) désignent des petits mots très souvent utilisés, qui ne sont pas indexé en raison de leur utilisation très commune. Parmi ces petits mots, il y a par exemple: "le", "la", "du", "à" et plusieurs autres du même genre.
Il est aussi important de savoir que le moteur de recherche Google possède deux index. L'un est consacré aux pages principales de confiance et le second est un index supplémentaire concernant des pages avec un contenu dupliqué, un contenu insignifiant, un contenu peut-être de très mauvaise qualité (possibilité que ce soit du spam) ou diverses raisons. Sans nul doute, ce sont les pages présentes sur l'index principal qui seront les plus visibles dans les résultats de recherche.
Pour finir, il est judicieux de savoir que toutes les pages ne seront pas sauvegardées. Certaines pages provenant de site illégaux ou pratiquant de très mauvaises pratiques, seront tout simplement blacklistés. Dans ce cas de figure, un moteur de recherche mémorise l'adresse de la page (ou du site) pour l'ignorer s'il découvre un lien vers le site ultérieurement. Pour cette raison, il faut faire attention lors de l'achat d'un nom de domaine que ce nom de domaine ne soit pas "blacklisté".

Comment un engin de recherche classe les résultats?

Lorsqu'un internaute effectue une recherche, il y a souvent des millions de pages qui possèdent le mot recherché. Pour cette raison, les moteurs doivent classer les résultats par pertinence. Les utilisateurs d'un moteur de recherche doivent facilement trouver le résultat qui répondra à leurs attentes.
Il y a deux grands critères qui influent le classement des résultats: la pertinence de la page vis-à-vis des mots recherchés et la popularité de la page. Des centaines de critères peuvent être pris en compte, tous ne seront pas décrit, voici juste une petite liste de certains critères:

Évaluer la pertinence: le mot-clé est-il présent dans le titre? dans l'URL? dans le contenu? Y'a t-il des synonymes du mot recherché dans le contenu? ...
Évaluer la popularité: est-ce que la page reçoit beaucoup de liens? Ces liens proviennent-ils de pages elles-mêmes populaires? Les pages faisant des liens ont-elles la même thématique? Les sites qui font des liens vers cette page sont-ils dans la même langue? Sont-ils des sites de confiance? ...

Malgré ces deux principaux facteurs influant sur les résultats, des critères alternatifs font leurs apparitions. Par exemple, le moteur de recherche Google base maintenant ses résultats selon la localité du visiteur et selon l'historique des précédentes recherches effectuées par l'internaute.

par David Matjaba

Back