Les moteurs de recherche peuvent être incroyablement utiles lorsqu’il s’agit de trouver ce dont vous avez besoin sur le web. Ils utilisent des algorithmes sophistiqués qui parcourent le World Wide Web afin de localiser le contenu correspondant à la demande de recherche d’un utilisateur. Les résultats de ces recherches sont ensuite présentés sous la forme d’une liste de choix, communément appelée « page de résultats du moteur de recherche » (SERP). Les SERP (l’acronyme de Search Engine Result Page en anglais) permettent de trouver tous types d’informations, telles que des pages web, des images, des vidéos, des articles d’actualité, etc. Grâce aux moteurs de recherche modernes tels que Google, Qwant,, Lilo, Ecosia, Baidu ou encore Bing, les gens peuvent désormais accéder au monde en ligne avec facilité, ce qui nous permet de trouver tout ce dont nous avons besoin en quelques secondes.
- Une révolution historique dans la manière de trouver l’information
- La naissance des premiers moteurs de recherche modernes
- Les moteurs de recherche au XXIème Siècle et Google
- Le fonctionnement classique d’un moteur de recherche
- Le fonctionnement d’un moteur de recherche sémantique comme Google
- Une évolution fort possible des moteurs de recherche
Une révolution historique dans la manière de trouver l’information
Les moteurs de recherche ont révolutionné la manière dont les informations peuvent être trouvées sur le web, en exploitant à la fois les données disponibles dans les bases de données et les répertoires ouverts et les algorithmes en temps réel. Contrairement aux annuaires web et aux sites de partage de signets, qui sont modérés par un éditeur humain, les moteurs de recherche utilisent des programmes tels que les Web Crawlers pour rester constamment à jour avec les informations. Une grande partie des données de l’internet est cachée dans le « Deep Web », qui n’est pas accessible ou indexable par les moteurs de recherche traditionnels, un rappel important que le contenu numérique dépasse de loin ce que nous savons du Web de surface.
Aux débuts de l’histoire des moteurs de recherche
Décrit en 1945, Vannevar Bush a conceptualisé un nouveau système révolutionnaire de localisation des informations publiées, un système capable de relever le défi sans cesse renouvelé de la compréhension des immenses index d’ouvrages scientifiques. Sa vision a été exposée dans un article pour The Atlantic Monthly, intitulé « As We May Think » Ses bibliothèques de recherche comprenaient une série d’annotations connectées ; En fait, les hyperliens modernes sur lesquels nous comptons tous aujourd’hui ont été imaginés pour la première fois dans cet article. L’analyse des liens est devenue essentielle aux moteurs de recherche grâce à des algorithmes tels que Hyper Search et PageRank, ce qui prouve à quel point le système initial de Bush est devenu inestimable.
L’apport du Web
Ainsi, avant septembre 1993, c’était un défi de suivre la liste croissante des serveurs connectés à l’Internet. La tâche de les indexer tous à la main incombait à Tim Berners-Lee, qui hébergeait la liste compilée sur le serveur Web du CERN. Heureusement, un instantané de cette liste minutieusement éditée existe depuis 1992 et reste accessible à ce jour. Cependant, comme de plus en plus de serveurs Web ont été créés et ajoutés au World Wide Web plus rapidement qu’ils ne pouvaient être indexés sur cette liste centrale, une autre solution a dû être trouvée. Le National Center for Supercomputing Applications a trouvé une réponse : « What’s New ?« , où les nouveaux serveurs étaient annoncés quotidiennement. Cette approche créative nous a permis d’accéder à de grandes quantités d’informations beaucoup plus rapidement que si nous le faisions manuellement, ce qui nous a conduit à l’ère numérique dans laquelle nous vivons aujourd’hui.
Archie
La recherche de documents au sens strict existait déjà avant la création du World Wide Web. La recherche d’utilisateurs WHOIS aurait commencé en 1982 et la recherche d’utilisateurs multi-réseaux Knowbot Information Service a démarré en 1989. En 1990, Archie a été l’un des premiers moteurs de recherche connus pour rechercher des fichiers FTP et a été lancé le 10 septembre de cette même année. L’invention d’Alan Emtage, Archie Search Engine, a donc été le premier outil jamais utilisé pour la recherche de contenu sur Internet. Nommé d’après le mot « archive » sans le « v », Archie a réussi à télécharger les listes de répertoires de tous les fichiers situés sur des sites FTP publics anonymes, créant essentiellement une base de données consultable de noms de fichiers pour ses utilisateurs. Cependant, à ses débuts, il n’offrait pas beaucoup plus que cela en raison de la quantité limitée de données disponibles sur Internet à l’époque, ce qui signifiait que l’indexation à grande échelle était impossible et que la recherche manuelle devait suffire. Néanmoins, Alan Emtage a posé une base essentielle pour que d’autres moteurs de recherche puissent explorer plus avant la manière dont les pages web peuvent être indexées et récupérées efficacement avec une relative facilité.
Gopher
La croissance de Gopher dans les années 90 a été l’un des principaux moteurs de l’introduction des programmes de recherche Veronica et Jughead. Développés dans la même veine qu’Archie, ces deux moteurs de recherche permettaient d’effectuer des recherches par mot-clé beaucoup plus précises dans les systèmes d’indexation Gopher. Bien que quelque peu obscurs aujourd’hui, ils permettaient à l’époque aux utilisateurs d’accéder beaucoup plus facilement aux archives d’informations stockées sur des serveurs Gopher spécifiques. Leurs noms étaient également basés sur des personnages d’Archie Comics; un choix ironique puisque le moteur de recherche Archie a reçu son nom par hasard.
La naissance des premiers moteurs de recherche modernes
Il y a quelques décennies seulement, l’Internet tel que nous le connaissons aujourd’hui a commencé à émerger des premières explorations de la technologie des réseaux. Au cours de l’été 1993, avant l’existence de moteurs de recherche sur le web alimentés par des informations fiables, des efforts fous étaient encore en cours pour rassembler des informations. Oscar Nierstrasz, de l’Université de Genève, a pris l’initiative de créer un système automatisé de scripts Perl qui mettait périodiquement en miroir les pages du catalogue et les indexait dans un format standard. C’est ainsi que W3Catalog est devenu le premier moteur de recherche du Web, lancé le 2 septembre 1993.
Le robot d’exploration naît
Alors que l’Internet n’en était qu’à ses débuts, Matthew Gray, alors au MIT, a vu le potentiel de l’utilisation des robots d’exploration du Web pour élargir la portée et la compréhension de ce qui existait. En juin 1993, il a produit le World Wide Web Wanderer, le premier de son genre et un précurseur de nos moteurs de recherche actuels. De façon incroyable et peut-être surprenante, son intention n’était pas d’obtenir des informations, mais plutôt de mesurer la taille du Web en pleine expansion. Il y avait un avantage supplémentaire, car en plus de déterminer la taille, il fournissait un index de toutes les pages rencontrées, appelé « Wandex », qui a fonctionné jusqu’en 1995, date à laquelle Aliweb a vu le jour. Contrairement à Wanderer, Aliweb s’appuyait sur les administrateurs de sites Web pour soumettre des entrées plutôt que d’utiliser des robots d’exploration. Les principes informatiques utilisés aujourd’hui dans le développement des moteurs de recherche remontent à ces premiers jours où les robots parcouraient la toile mondiale en constante expansion.
Les trois caractéristiques essentielles apparaissent
JumpStation, créé en décembre 1993 par Jonathon Fletcher, est une invention révolutionnaire qui a servi de premier outil de découverte de ressources sur le World Wide Web. Elle combinait trois caractéristiques essentielles pour son moteur de recherche, l’exploration du Web, l’indexation et la recherche, permettant aux utilisateurs de trouver rapidement les pages Web qu’ils souhaitaient. Grâce à une interface conviviale composée de robots et de formulaires Web, JumpStation a rendu facile la recherche sur d’innombrables sites Web à l’aide d’un seul programme de requête.
De là l’essor de moteurs de recherche plus performants
L’essor de l’Internet dans les années 1990 a donné lieu à des innovations majeures qui ont façonné la manière dont nous utilisons le World Wide Web aujourd’hui. L’une des plus remarquables a été la sortie de WebCrawler en 1994. Ce qui le distinguait de ses prédécesseurs était sa capacité à rechercher n’importe quel mot sur n’importe quel site Web, ce qui est devenu la norme pour la plupart des moteurs de recherche modernes aujourd’hui. Lycos a rapidement suivi, lançant sa principale entreprise à l’Université Carnegie Mellon également en 1994. Ces deux moteurs de recherche ont connu une immense popularité auprès des internautes et ont créé un précédent en étant parmi les premiers outils de recherche reconnaissables et largement répandus sur Internet.
Yahoo débarque !
Yahoo ! Search a été l’un des premiers moteurs de recherche très prisé sur le Web, lancé en 1995, un an après la création de l’entreprise par ses fondateurs, Jerry Yang et David Filo. Avant d’ajouter une fonction de recherche à Yahoo !, le service a lancé un répertoire Web connu sous le nom de Yahoo ! Directory. À l’époque, c’était le moyen préféré des utilisateurs pour trouver des pages Web intéressantes, mais la fonction de recherche de Yahoo ! fonctionnait en recherchant dans son propre répertoire plutôt que dans des copies de sites basées sur du texte. A l’époque, les sociétés de logiciels sont entrées en action, développant leurs propres versions dans le but de devenir le choix numéro un des chercheurs d’information. C’est ainsi que des services comme Magellan, Excite, Infoseek, Inktomi, Northern Light et AltaVista se sont mis à rivaliser pour attirer les utilisateurs avec leurs capacités de recherche. Si cela ne convenait pas aux besoins de certains navigateurs, ils pouvaient également choisir d’explorer un répertoire organisé au lieu de se fier uniquement aux recherches par mots clés.
1996 a été une grande année pour l’industrie des moteurs de recherche, car Netscape (le premier navigateur) a créé une opportunité sans précédent pour gagner la faveur des utilisateurs d’Internet. Le plan révolutionnaire de Netscape était d’accorder des accords exclusifs, d’une valeur de cinq millions de dollars par an, à cinq moteurs de recherche majeurs : Yahoo !, Magellan, Lycos, Infoseek, et Excite. Il s’est avéré que c’était une manœuvre judicieuse de la part de Netscape ; l’afflux de nouvelles idées et de capitaux signifiait que les consommateurs avaient accès à de meilleurs moteurs de recherche que jamais auparavant.
RankDex
L’algorithme de classement des sites RankDex de Robin Li a constitué un développement très important dans la technologie des moteurs de recherche, en utilisant les hyperliens pour mesurer la qualité des sites qu’il indexait. Avant ce brevet déposé en 1996, les pages de résultats des moteurs de recherche étaient classées en fonction d’une simple correspondance de mots clés et tous les sites web étaient généralement affichés sans hiérarchisation de la pertinence ou de l’importance. L’invention de Li était le premier système qui mesurait la qualité des sites Web. Bien que Google ait déposé un brevet très similaire deux ans plus tard, en 1998, Larry Page a cité les travaux de Li dans ses brevets américains pour PageRank, un témoignage majeur de l’excellence de ses recherches. Suite à son succès, Li a utilisé sa technologie Rankdex pour le lancement du moteur de recherche Baidu lorsqu’il a fondé la société de moteurs de recherche basée en Chine en 2000 et a ainsi révolutionné l’utilisation d’Internet en Asie également.
Les moteurs de recherche au XXIème Siècle et Google
Vers 2000, le moteur de recherche Google a acquis une certaine notoriété grâce à son algorithme PageRank innovant. Développé par Larry Page et Sergey Brin, les deux futurs fondateurs de l’entreprise, cet algorithme classe les pages Web en fonction du nombre et du PageRank des autres sites et pages Web qui y sont liés. L’idée sous-jacente était que les pages souhaitables sont susceptibles d’être liées à plusieurs sites. Pour concevoir cela, Page s’est même penché sur le brevet RankDex de Robin Li. En plus d’offrir des résultats de recherche de pointe grâce au PageRank, Google a également conservé une interface minimaliste, sans fioritures supplémentaires, par rapport à ses concurrents qui avaient opté pour une approche de conception intégrée pour leur moteur de recherche.
Yahoo ! domine les SERPs en ce début de millénaire
A cette époque, Yahoo ! a utilisé le moteur de recherche Inktomi pour offrir à ses clients la possibilité de faire des recherches sur le Web. Deux ans plus tard, Yahoo ! a racheté Inktomi et en 2003, il a acquis Overture, propriétaire de AlltheWeb et AltaVista. Cela a permis à Yahoo ! de passer au moteur de recherche de Google jusqu’en 2004, date à laquelle il a lancé son propre moteur de recherche qui utilisait toutes les technologies combinées de ses trois acquisitions. Le nouveau moteur de recherche s’est avéré populaire auprès des clients car il offrait une expérience améliorée par rapport à la recherche traditionnelle sur le web.
L’arrivée de Microsoft dans la bataille avec Google
Microsoft a lancé MSN Search à l’automne 1998 afin de permettre aux internautes de trouver facilement les informations qu’ils recherchent en ligne. Il utilisait les résultats de recherche de la société Inktomi, mais a rapidement ajouté les listes de Looksmart au début de 1999. La technologie s’étant améliorée au fil du temps, le site a commencé à utiliser le moteur de recherche d’AltaVista afin d’accroître la précision de ses résultats de recherche. Toutefois, vers la fin de l’année 2004, Microsoft a choisi de passer à son propre robot d’exploration du Web, baptisé « msnbot ». Cela lui a permis de garder le contrôle de ses données sur les consommateurs et de garantir que toutes les recherches seraient produites de manière précise et cohérente.
Bing a une stratégie de partenariat
Le moteur de recherche Bing de Microsoft, qui s’appelait donc à l’origine MSN Search (MSN Bot reste d’ailleurs à ce jour encore le nom du Bot qui circule sur le Web), a fait ses débuts en juin 2009 et, deux mois plus tard, Yahoo ! a conclu un accord avec Microsoft pour utiliser sa technologie. Près d’une décennie plus tard, le monde de l’internet a été réécrit et de nombreux moteurs de recherche se disputent la place. Parmi les outils de recherche utilisés aujourd’hui dans le monde entier figurent Google, Qihoo360, Ecosia, Petal, Sogou, Baidu, Bing (développé par Microsoft qui revend une bonne part de ses résultats à d’autres), Gigablast, Mojeek, Qwant (en France avec des SERPs de Bing), DuckDuckGo et Yandex. Chacune de ces options ayant des performances différentes et des forces et faiblesses différentes par rapport aux autres, il est plus facile que jamais pour les utilisateurs de trouver exactement ce qu’ils recherchent.
Le fonctionnement classique d’un moteur de recherche
Un moteur de recherche a la capacité de traiter les informations recueillies en temps réel, en tenant compte des procédures cruciales telles que l’exploration du Web, l’indexation et la recherche. L’exploration du Web est effectuée par des « araignées » (« spider » en anglais) qui effectuent des tâches telles que la recherche du fichier robots.txt, qui contient des instructions sur les endroits à explorer et le type de pages à indexer. Des éléments tels que les titres, le contenu des pages, le JavaScript, les feuilles de style en cascade (CSS), les titres ou les métadonnées trouvées dans les métabalises HTML sont analysés avant qu’un nombre prédéterminé de pages soient extraites d’un domaine donné. Ces informations sont ensuite indexées pour faciliter leur récupération ultérieure.
L’exploration du Web
Le processus de recherche des meilleures pages correspondant à une requête sur un moteur de recherche commence avec les robots. Ces robots parcourent l’ensemble des pages web, déconstruisant chaque page qu’ils visitent et l’indexant dans leur base de données. En se souvenant de la manière de revenir à ces sites web, combinée à un algorithme conçu pour donner la priorité aux contenus les plus populaires et les classer en conséquence, les moteurs de recherche sont en mesure de fournir des résultats pertinents pour une requête spécifique. Les robots ont rendu la recherche d’informations beaucoup plus facile et rapide qu’auparavant.
L’indexation
De nombreux gestionnaires de sites Internet négligent souvent l’importance de l’indexation. En ne veillant pas à ce que leur site soit correctement indexé, ils ratent l’occasion d’être découverts dans les résultats des moteurs de recherche. L’indexation est essentielle car elle est le point de départ du référencement. C’est le processus par lequel le robot d’un moteur de recherche analyse le contenu des pages, stocke les données et donne la priorité à certaines pages par rapport à d’autres. Par conséquent, une indexation correcte crée une meilleure expérience pour l’utilisateur en l’aidant à trouver exactement ce qu’il cherche. Pour les sites web performants, une indexation correcte et intentionnelle doit être une priorité, car elle joue un rôle essentiel pour aider un site web et ses pages à être vus et mieux classés dans les moteurs de recherche (on parle ici de SEO).
La recherche
Au fil des ans, les pages de résultats des moteurs de recherche (SERP) ont connu des mises en page intéressantes et variées (on parle plus bas de l’orientation sémantique) qui sont observées par les référenceurs Web. En général, les résultats les plus pertinents sont présentés dans une liste en haut de la page, classés par pertinence décroissante. Toutefois, certaines SERP présentent des alternatives à ce style traditionnel, en utilisant des techniques uniques pour mettre en valeur leur contenu. Les choix ne manquent pas non plus : des carrousels d’images aux publicités affichées, des « featured snippets » aux « knowledge graphs« , il existe des dizaines de façons différentes pour les moteurs de recherche de présenter leurs résultats. En fin de compte, c’est à chaque moteur de choisir la présentation qui lui convient le mieux, ce qui crée une variété de styles de SERP vraiment vertigineuse à explorer. La recherche des bons résultats à afficher dépendent de la manière dont les algorithmes de classement sont fonctionnels. Pour Google, par exemple, on parle du PageRank. Ainsi, le PageRank est un algorithme breveté créé par Larry Page, cofondateur de Google, qui permet de classer les pages Web dans les résultats des moteurs de recherche. Le concept est basé sur la théorie selon laquelle « tous les liens sont égaux », en gros, plus un site Web a de liens entrants, plus il apparaîtra haut dans le classement des moteurs de recherche. Pour ce faire, on attribue à chaque page Web une valeur numérique qui détermine son niveau de classement, puis on attend de voir combien de fois un utilisateur clique depuis un site externe vers les pages Web classées. Cet outil ne tient pas seulement compte du nombre de liens, mais aussi de leur qualité, ce qui garantit que chaque site web a un classement approprié et c’est pourquoi on parle de moteur de recherche sémantique.
Le fonctionnement d’un moteur de recherche sémantique comme Google
La sémantique générale est un domaine d’étude qui s’intéresse à la signification des mots et des phrases afin de mieux interpréter et informer le contenu numérique, par exemple en s’intéressant à des notions comme le synonyme, l’antonyme ou encore les homonymes. Cela signifie qu’en utilisant les moteurs de recherche sémantique, on peut rechercher des termes spécifiques mais obtenir des résultats qui vont au-delà de la définition exacte de ces termes. Au lieu de cela, le moteur fournira des résultats plus personnels liés au terme recherché ; il est ainsi plus facile de trouver précisément ce que l’on cherche. Ainsi, la sémantique générale offre la possibilité de combler les écarts entre deux ou plusieurs idées apparemment sans rapport, tout en permettant de mieux comprendre un contenu complexe. La recherche sémantique joue donc un rôle essentiel dans la compréhension et l’interprétation du contenu. Elle fonctionne en s’appuyant sur deux principes distincts : l’intention de recherche et le sens sémantique. L’intention de recherche tient compte de l’intention de l’utilisateur : que veut-il « découvrir » ? Le sens sémantique s’intéresse à la manière dont le langage est utilisé : l’expression utilisée a-t-elle un sens implicite ou supplémentaire ? En tenant compte à la fois de l’intention de recherche et du sens sémantique, les moteurs de recherche sont capables de mieux déchiffrer les requêtes en langage naturel et de trouver des résultats plus précis.
L’intention de recherche
La notion d’intention de recherche est importante lorsqu’on considère ce qu’un utilisateur veut voir lorsqu’il tape quelque chose dans un moteur de recherche. Par exemple, si vous tapez « acheter du savon » dans une barre de recherche, l’intention est très probablement que l’utilisateur souhaite acheter du savon. Le moteur de recherche doit comprendre cela et fournir des résultats contenant des informations sur les endroits où les gens peuvent acheter du savon. D’un autre côté, si quelqu’un tape « marques de savon », l’intention peut être plus axée sur la recherche des différents types de savon proposés que sur leur achat ; dans ce cas, le moteur de recherche doit fournir des résultats différents. En fin de compte, il est essentiel de comprendre l’intention de recherche d’un utilisateur pour lui fournir un contenu de qualité adapté à ses besoins.
Le sens sémantique du moteur de recherche
La sémantique, ainsi que nous l’avons vu précédemment, est un domaine important de la linguistique qui peut contribuer à éclairer la manière dont nous donnons un sens au monde. En se concentrant sur les relations entre les mots, plutôt que sur les mots pris isolément, la sémantique aide à décoder la compréhension du langage et de la parole. Elle a été adaptée à la technologie moderne des moteurs de recherche, la recherche sémantique s’efforçant d’adopter une approche plus holistique, reproduisant l’examen humain du texte pour trouver des résultats pertinents. Plutôt que de se baser uniquement sur des mots clés ou des synonymes, elle examine la structure et le sens des mots dans les phrases pour fournir des résultats adéquats, améliorant ainsi l’expérience globale de l’utilisateur, le but principal du moteur de recherche Google.
Une évolution fort possible des moteurs de recherche
Si l’on s’intéresse aux manières de fonctionner des moteurs de recherche, Google reste l’objet de toutes les attentions Ainsi, depuis 2019, la firme de Mountain View utilise BERT qui est le dernier algorithme utilisé pour la compréhension sémantique. Google a espéré à l’époque qu’en prenant en compte la signification contextuelle des mots lors de l’évaluation des mots-clés de ses utilisateurs, il serait en mesure de fournir un résultat de recherche plus précis et plus affiné. Cette mise à jour souligne l’importance de comprendre comment quelque chose est dit ou écrit, au lieu de simplement interpréter chaque mot indépendamment de sa place dans une phrase. Avec BERT, Google entendait garder une longueur d’avance sur la concurrence des moteurs de recherche et s’assurer que ses utilisateurs obtiennent les informations les plus pertinentes pour leurs requêtes. Seulement, ainsi que nous l’avion déjà évoqué sur ce blog, l’informatique actuelle connaît une grande poussée sur les usages de Machine learning et plus globalement d’intelligence artificielle.
Un Moteur de recherche fondé sur Open IA ou GPT 3 ?
Open AI est un laboratoire de recherche en intelligence artificielle situé à San Francisco, en Californie. Il se concentre sur le développement de l’intelligence artificielle afin d’en faire bénéficier l’humanité dans son ensemble et d’en assurer la sécurité. Open AI s’efforce de faire progresser l’intelligence numérique en recherchant les technologies les plus pointues et en veillant à ce qu’elles soient appliquées de manière éthique. En outre, sa mission à but non lucratif consiste à développer et à diffuser largement des technologies d’IA sûres qui profiteront à la société, tout en éliminant les facteurs de risque posés par le contrôle des technologies d’IA avancées par les entreprises. Open IA fonctionne avec GPT-3 et les évolutions attendues de cet outil.
L’intelligence artificielle au service de la compréhension du langage
La compréhension sémantique avec GPT-3 est une percée dans le traitement du langage naturel (NLP). Elle peut avoir un véritable impact quant à la naissance de nouveaux moteurs de recherche sémantiques. GPT-3 est une technologie alimentée par l’IA qui a permis aux machines d’acquérir des capacités telles que la compréhension et la réponse au langage naturel. Elle fonctionne en utilisant des modèles d’apprentissage profond qui peuvent traiter l’intention et le contexte du texte, produisant ainsi des résultats intelligents. Il en résulte des interprétations plus précises des mots prononcés, ce qui permet à la machine de comprendre des conversations et même de générer des réponses écrites. Grâce à GPT-3, les machines peuvent désormais aller au-delà de la simple fourniture d’informations liées à des requêtes ou à des recherches ; elles sont capables de comprendre l’intention sous-jacente des entrées de l’utilisateur. Par conséquent, les humains n’ont plus besoin de coder des instructions spécifiques comme ils pouvaient le faire dans le passé lorsqu’ils essayaient d’enseigner à une machine, au contraire, il est possible pour les machines de comprendre intrinsèquement ce que nous voulons et de fournir de meilleures solutions. A voir donc si cela ne va pas révolutionner complètement notre façon d’envisager l’utilisation du Web et en particulier des moteurs de recherche.
R.C.