Ne manquez pas:

10 conseils pour améliorer votre positionnement sur les moteurs de recherche10 conseils pour améliorer votre positionnement sur... Que ce soit lorsque je me balade sur différents forums de référencement, où à l'occasion de rencontres avec des propriétaires de sites web, nombre d'entre eux possèdent...

Lire la suite

Phishing / hameçonnage – Ne mordez pas à l'hameçon!Phishing / hameçonnage – Ne mordez pas à l'hameçon! Sans doute avez vous déjà reçu ces e-mail qui vous informent, avec un ton alarmiste, que votre compte bancaire a été suspendu suite à une activité suspecte, et que...

Lire la suite

Un CMS tout léger sur un mini hébergement? C'est possible!Un CMS tout léger sur un mini hébergement? C'est... L'idée peut sembler farfelue, mais il y a quelques jours de cela j'étais à la recherche d'un CMS suffisamment léger, pour fonctionner sans base de données et sur un hébergement...

Lire la suite

Comment créer un site internet soi même?Comment créer un site internet soi même? Posséder un site Internet vous fait envie, mais vous n'avez pas les moyens de vous le faire réaliser par des professionnels? Pourquoi pas le créer vous même! Cet article...

Lire la suite

La polémique autour de Google Book SearchLa polémique autour de Google Book Search Alors que nous attendons le verdict du département de la justice américaine sur l’accord entre Google et les deux grandes organisations d’auteurs et d’éditeurs américains...

Lire la suite

eRankBlog Rss

Comment fonctionne un moteur de recherche?

Posté le : 21-09-2009 | Par : Florent Goossens | Catégorie : Bing, Moteurs de recherche, Référencement, google, yahoo

Mots-clefs :, , ,

1

Parce que les moteurs de recherche sont des outils fondamentaux et incontournables sur Internet, comprendre la manière dont ceux-ci fonctionnent est un vrai plus, que ce soit pour améliorer le référencement de son site web ou bien pour optimiser sa recherche d’information.

De quel type de moteur parle-t-on?

Sur Internet, nous sommes amenés à rencontrer différents types d’outils de recherche. La distinction est importante à effectuer car ces outils – ne faisant pas face aux mêmes problématiques – fonctionnent tous d’une manière différente.

Les moteurs de recherche interne:

Ce sont souvent de petits moteurs, installés sur des sites Internet, et qui ont pour unique finalité de rechercher de l’information sur le site sur lequel il sont installés. Son fonctionnement est généralement plus rudimentaire que les moteurs de recherche généralistes, mais certains sites s’équipent de technologies plus importantes lorsqu’elles doivent faire face à un traitement d’information plus conséquent. Ces sites se tournent alors vers des sociétés développant des solutions de recherche sur-mesure.

Cas particulier: les moteurs généralistes « personnalisés »: il s’agit ici de Google « recherche personnalisée », qui permet pour un particulier d’utiliser Google en tant que moteur de recherche interne. Google limite donc la recherche au site considéré.

Les moteurs de recherche généralistes:

Il s’agit ici des moteurs de recherche permettant de rechercher de l’information sur Internet et non sur un seul site. On peut tout de même les distinguer dans le sens où sur la totalité des outils de recherche, nombreux sont ceux qui ont abandonné le développement de leur propre technologie et qui utilisent celle d’autres moteurs.

Ainsi, des moteurs tels que Google, Yahoo, Bing, Exalead, Cuil, Yauba, Ask… développent eux même leur propre technologie de recherche. Pour ce qui est de Lycos, Alltheweb, Altavista, Excite, Netscape… ces moteurs utilisent depuis quelques temps déjà la technologie des moteurs précédemment cité (surtout Google).

Les méta-moteurs:

Ces outils se distinguent des moteurs de recherche généralistes dans la mesure où ils n’effectuent pas la recherche eux même, mais la soumettent aux moteurs de recherche généralistes pour ensuite synthétiser les résultats obtenus sur une même page.

Les moteurs de recherche spécialisés:

Parfois basés sur la technologie des moteurs de recherche généralistes, ce sont des outils qui se concentrent sur une thématique bien précise.

Bien d’autres moteurs encore

Il existe encore d’autre types de moteurs, comme Powerset (moteur de recherche sémantique), Wolfram Alpha (moteur de recherche « factuel »), et bien d’autres…

Principe de fonctionnement d’un moteur de recherche

Concrètement, un moteur de recherche permet à un internaute de trouver de l’information sur le web sur la base d’une requête formulée par ce dernier. Le moteur, de son côté, s’est constitué une sorte de base de donnée géante – appelée « Index » – où il stocke les informations présentes sur Internet. Le moteur ira ensuite comparer la requête formulée par l’internaute avec tous les documents présents dans son index. S’il y a correspondance, la page est sélectionnée pour être présentée à l’internaute. Cependant, entre le moment où la page est sélectionnée et le moment où l’internaute l’a sous les yeux, le moteur a procédé au « Ranking » des pages pour les classer par pertinence.

Trois phases se distinguent donc: le crawl (consultation des pages par le moteur de recherche, collecte des données), l’indexation (enregistrement de ces données dans l’index du moteur) et le ranking (notation des pages).

Première étape: le crawl

Pour collecter les informations, les moteurs de recherche envoient leurs « robots d’indexation » (aussi appelés crawlers ou spiders), parcourir la toile. Ces « robots » sont des logiciels qui vont sillonner Internet de pages en pages via les hyperliens et scruter tout ce qu’ils trouvent sur leur chemin. Et ce, afin de rapporter ces résultats au moteur de recherche qui les indexera.

Concrètement, les robots scrutent le code source des pages web. Attention, il ne prennent en compte que le contenu textuel des pages, et ignorent tout code JavaScript ou flash qu’ils ne comprennent pas (d’où la difficulté de référencer un site en flash). De plus, les robots d’indexation ne voient pas les images (d’où l’importance de l’attribut ALT des images, permettant de signaler au moteur ce que l’image représente).

Deuxième étape: l’indexation

Le robot scanne donc les pages pour récupérer les mots clés. Ensuite, le robot rapportera les informations collectées au moteur de recherche qui les enregistrera dans sa base de donnée. Ce processus est appelé « indexation ».

Dans les faits, les moteurs de recherche généralistes possèdent deux index: un index où sont stockés les mots clés et un index où sont stockés les pages. Ces index étant pour la plupart des moteurs constitués de plusieurs milliards de pages, un partage des tâche est effectuée et de nombreux ordinateurs travaillent en même temps pour accélérer la recherche.

Les moteurs de recherche reviennent crawler les sites plus ou moins rapidement en fonction de plusieurs critères (comme la fréquence de mise à jour) et prendront alors en compte les modifications effectuées et les nouvelles pages publiées. Cependant, en inspectant les logs de son site Internet on peut constater que les robots des moteurs de recherche peuvent venir sans indexer tout de suite la page. Faire indexer son site web demande donc généralement de la patience…

Troisième étape: l’extraction des données et la notation des pages

Lorsqu’un internaute ira sur le moteur de recherche et entrera une requête, le moteur de recherche sollicitera sa base de données et donnera à l’internaute tous les sites dont les mots clés concordent avec la recherche effectuée. Et c’est là que cela se complique : le Web est immense ! Lorsqu’on tape sur Google par exemple le mot « Paris », il trouve 446 000 000 résultats…

En effet, les moteurs de recherche font une sélection des pages web qu’ils indexent, et notent chaque page indexée, grâce à des algorithmes qu’ils gardent secrets. Et c’est ce qui a fait le succès de Google, car avant les résultats des moteurs de recherches n’étaient pas classés par pertinence comme aujourd’hui.

L’idée est la suivante : une fois que le robot a ramené les informations, le moteur de recherche va se charger de trier les pages en pondérant les mots clés des sites en fonction de plusieurs critères. Le mot « Paris » écrit sur le site de la mairie de Paris est le même que celui marqué sur le blog de votre voisine qui a fait un voyage scolaire l’année dernière et qui a publié un article sur le sujet. La différence étant que la mairie de Paris arrive en tête des résultats, alors que votre voisine…

Pour ce qui est de la notation et du classement des pages par Google, un élément qui a longtemps été prédominant (et qui reste toujours utilisé, mais dans une moindre mesure) est le Page Rank (PR). Ce procédé permet de définir l’importance d’un site en fonction de sa popularité sur le Web. Pour expliquer son fonctionnement, Google fait une comparaison avec la démocratie : chaque page web sur lequel se trouve un hyperlien pointant vers un site est considéré comme une voix pour ce dernier. Ainsi, plus un site possède de voix (c’est-à-dire plus il y a de liens sur Internet qui y conduisent), plus son Page Rank est élevé, et, comme le Page Rank entre en compte dans le tri des pages web à afficher lors d’une recherche, plus le site sera visible dans les résultats de Google (appelés les SERP: Search Engine Result Pages). Cependant, certaines voix ont plus de poids que d’autres : un site à fort Page Rank effectuant un lien vers le votre aura toujours plus de poids sur votre position dans Google que si ce lien provient du blog de votre voisine. Le Page Rank est un indice, compris entre 0 et 10. Moralité: tissez des liens !

Quelques mots sur le PageRank de Google

pagerank-google

Cette image illustre le principe du Page Rank. Une multitude de petits sites (les verts) à faible PR vont mettre un lien vers un autre site (le bleu) qui verra son PR augmenter. Le site représenté par le smiley jaune possède des liens provenant vers des sites à faible, moyen et fort PR. Il a donc un très fort PR. On constate que le site représenté par le smiley rouge possède un PR important, alors qu’un seul lien mène à lui. L’idée est simple, plus le PR du site dont provient le lien est élevé, plus le PR du site de destination en sera influencé. Un seul lien provenant d’un PR10 équivaut à des milliers de liens provenant de sites PR0. La quantité est une chose, mais la qualité des liens tissés est aussi très importante, et un lien provenant d’un site douteux peut avoir un impact négatif sur le classement du site vers lequel pointe ce lien.

Comments (1)

[...] This post was Twitted by cc69 [...]

Commenter cet article

Powered by WP Hashcash

Switch to our mobile site