Votre moteur de recherche, c'est quoi ?

Quelques éléments pour vous aider à choisir…

Message 1, par Elzen

§ Posté le 27/01/2014 à 14h 40m 34

Note : l'ancienne version de cet article a été archivée (ainsi que les commentaires associés), mais les informations qu'elle contenait étaient incorrectes, incomplètes ou mal présentées, m'ayant conduit à le réviser entièrement. Divers moteurs d'indexation vous en fourniront peut-être une version de son état d'origine, mais je ne souhaite plus diffuser celui-ci moi-même, la version révisée ci-dessous le remplaçant.


Le concept de moteur de recherche est quelque chose de relativement récent. C'est encore un des points que souligne, à raison, Benjamin Bayart dans sa dernière conférence(1).

Avant l'avènement d'Internet, en effet, le concept de recherche automatisée de documents n'avait pas grand sens. On cherchait les gens grâce à des annuaires, et les livres grâces aux avis éclairés de nos bibliothécaires et libraires (qui, eux-mêmes, s'appuyaient sur d'autres annuaires).

Je n'aurais pas de lien à vous donner, mais des annuaires pour le Web existent encore(2). Simplement, le nombre de sites Web existant est tel qu'il devient très difficile pour des humains d'établir une liste représentative, et qu'il leur est strictement impossible de prétendre à l'exhaustivité(3).

Compte tenu de l'énorme masse d'informations à notre disposition, les moyens d'exploration les plus fiables sont les outils de recherche automatisée. En d'autres termes, les moteurs de recherche.


Il y a une grosse dizaine d'années de ça, quand Internet commençait à envahir nos foyers, les moteurs de recherche étaient assez nombreux, et on voyait régulièrement passer, à la télévisions, des publicités pour l'un ou pour l'autre (Lycos, va chercher !).

En nettement moins de dix ans, tout cet écosystème s'est, par chez nous, réduit à un acteur principal ultrapuissant, et une poignée d'autres devenus anecdotiques. Ce qui est assez ennuyeux, compte tenu de tous les problèmes posés par la centralisation.

Notre situation est-elle plutôt la règle, ou l'exception ? J'ai eu sous les yeux, il y a quelques temps, les résultats d'une étude(4) menée par le chercheur Stéphane Grumbach et montrant que, si la Russie et la Chine sont à peu près les seuls pays à ne pas majoritairement utiliser des acteurs yankees(5) dans ce domaine, la diversité est tout de même plus importante dans d'autres pays que dans le nôtre.


En France, plus de 90% des recherches sont effectuées par Google, quand il n'y en a qu'autour de 65% aux USA. Même en Chine, où il est le seul site étranger à paraître dans le « top 25 » des sites les plus visités, et pas en première place, Baïdu, le moteur national, est contraint de céder du terrain face à ses concurrents locaux.

Vous comprendrez aisément que cette situation est problématique. Le monopole d'accès aux requêtes donne à ce géant informatique une puissance redoutable(6) (comme mentionné dans la présentation, Google est notamment capable de fournir des courbes de propagation des épidémies aussi précises que celles de l'Organisation Mondiale de la Santé, mais avec un mois d'avance).

Certaines personnes répondent souvent que « oui, mais Google, ce sont eux qui renvoient les meilleurs résultats ». À ce sujet, il se trouve que les moteurs de recherche sont généralement capables d'opérer une sorte d'apprentissage : plus on les utilise, plus pertinents seront leurs résultats. Et donc cela revient, en quelque sorte, à utiliser la position ultramajoritaire de Google pour la justifier, ce qui ne me semble pas le raisonnement le plus intéressant.

Comment Google a-t-il atteint cette position ultramajoritaire ? Sans doute a pu jouer le fait que bon nombre de sites l'utilisent comme moteur de recherche interne. Ce qui, au passage, lui donne énormément de moyens de récupérer des informations sur nous, et conduit aux résultats que Neros commente sur son blog à lui(7).


Alors bon, ce préambule étant posé, passons aux quelques alternatives que cet article avait initialement pour but de présenter(8).

D'abord, citons les deux autres « grands », qui occupent à eux deux autour de 30% de parts de marché aux USA, et une bonne partie des 10% que Google n'occupe pas chez nous : Yahoo! et Bing. Le premier est un acteur historique du domaine, l'un des rares moteurs « pré-Google » à avoir à peu près survécu.

À peu près seulement, parce qu'il me semble que son indépendance n'est que partielle. Microsoft, qui détient le second, avait pendant un temps envisagé de le racheter, mais Google avait mis des sous sur la table pour empêcher cela (c'était diviser, ou plutôt ne pas laisser ses concurrents fusionner, pour mieux régner). Cela n'a cependant pas duré, car je crois que les deux moteurs partagent maintenant une bonne partie de base de données commune. Bref.

D'autres moteurs du même ordre ont tenté de percer, dont notamment Exalead, qui était géré par une société française. Il a par la suite été racheté par Dassault, puis, sans qu'il y ait à ma connaissance de lien de causalité entre ces deux faits, a fini par à peu près disparaître du paysage. D'autres tentatives d'origine françaises ont vu le jour depuis, dont Qwant, mais leurs conditions d'utilisations ne semblaient pas particulièrement encourageantes la dernière fois que je suis allé vérifier (d'où l'absence de lien).


Fut un temps, les méta-moteurs solidaires semblaient partis pour être à la mode. Méta-moteurs, parce qu'ils n'indexaient pas eux-mêmes les sites, mais récupéraient les résultats d'autres moteurs de recherche ; et solidaires, parce qu'ils reversaient les revenus obtenus grâce à la publicité qu'ils affichaient à diverses associations, souvent à but humanitaire.

HooSeek était dans ce cas, bien que le site ait mis la clef sous la porte depuis cette époque(9). VeoSearch, quant à lui, semble avoir survécu. Dans un registre proche, Ethicle, anciennement Ecocho, utilise les revenus pour planter des arbres.


Depuis, d'autres moteurs se sont présentés comme ayant pour but de protéger la vie privée. Notamment, Ixquick (un méta-moteur croisant les résultats de plusieurs sources), et son avatar StartPage (géré par la même société, d'interface extrêmement proche, mais se restreignant à ne fournir que les résultats de Google), affirment ne conserver absolument aucun historique sur leurs utilisateurs.

Récupérer les résultats de Google à l'aide d'un tel moteur a à peu près le même genre d'effet que de récupérer les résultats d'Amazon à l'aide de la lens-shopping d'Unity (voyez cet article à ce sujet) : si les choses sont faites correctement, le serveur intermédiaire (ou « proxy ») n'envoie que des données anonymisées, et le serveur final n'est pas en mesure de déterminer de quel utilisateur provient quelle requête.

Dans le même genre, DuckDuckGo (qui récupère des résultats d'autres moteurs autant qu'il possède sa propre base d'indexation) est également le moteur de recherche qui, à mon humble avis, donne le plus de soin à la présentation des résultats et à l'ergonomie, par exemple en signalant lequel des résultats est le site officiel lorsqu'il y a lieu, ou en fournissant une navigation au clavier très efficace. On peut cependant regretter qu'il ne fournisse pas la recherche d'images. Et il convient de noter, pour les questions de vie privée, qu'étant géré aux USA, il est, comme Google, soumis au « Patriot Act ».

Comme mentionné par Laërte ci-dessous, DuckDuckGo gère la recherche d'images depuis un certain temps maintenant. À titre personnel, je trouve cependant que, si c'est très bien conçu, c'est nettement moins ergonomique que pour les résultats classiques. Concernant le Patriot Act, il semble que les choses s'améliorent quelque peu, à voir.


À ma connaissance, aucun de ces moteurs n'est placé sous licence Libre. Jimmy Wales, fondateur de Wikipédia avait, pendant un temps, déployé un moteur sous licence libre, Wikia, mais le projet a été abandonné faute d'utilisation.

En revanche, deux projets libres fonctionnent encore : YaCy (qui se prononce à peu près comme « you see », « tu vois » en anglais ; mais que je ne connais pour l'instant que de nom) et Seeks (qui fournit une recherche d'image assez sympathique ; mais dont le code n'évoluera malheureusement plus). Outre le fait d'être placés sous licence libre, ils ont la particularité de fonctionner sur le modèle pair-à-pair, qui est le vrai mode de fonctionnement d'Internet. Si vous êtes auto-hébergés, installer ça sur votre machine permettra donc de participer à l'amélioration de leur fonctionnement.

Modifié le 27/06/2015 à 21h 46m 04

Mise à jour :

Quoique seeks, comme mentionné par grim7reaper ci-dessous, ait été abandonné par ses auteurs, il a inspiré d'autres travaux. Searx, lui aussi libre, est pour sa part centralisé (et n'aurait pas certaines fonctionnalités de son prédécesseur), mais il tourne au moins en des endroits sympathiques, comme chez La Quadrature du Net ou Framasoft.


Puisque j'ai parlé de recherche d'images, notons que Google fournit, depuis quelques temps, une recherche inversée, par image : vous lui envoyez une image donnée, depuis votre disque dur ou par un lien, et le moteur analyse l'image, détermine à quoi elle correspond et vous rebalance sur une recherche classique. C'est techniquement impressionnant, mais ce n'est que le reflet de l'énorme base de données qu'ils possèdent.

Le principe de recherche d'images par similarités état déjà connu ; par exemple, TinEye (qui n'est malheureusement pas libre non plus) tourne depuis un moment avant le nouveau service de Google, et permet de trouver des images proches de celle qui nous intéresse avec d'assez bon résultats.


Si, comme moi, il vous arrive d'être à la recherche d'articles scientifiques, Google est également majoritaire grâce à Scholar, souvent bien pratique pour retrouver des versions complètes téléchargeables d'articles que leurs éditeurs tentent de verrouiller. Il existe cependant tout de même quelques bases de données ouvertes d'articles scientifiques, comme HAL, et la situation ne pourra que s'améliorer avec la prise en considération croissante de l'OpenAccess(10).


Reste « Google Alertes », leur moteur de recherche permettant de lancer des requêtes continues, c'est-à-dire qu'elles restent à tourner dans le système et que vous êtes prévenus lorsque de nouveaux résultats apparaissent. Il n'y a pour le moment, à ma connaissance, pas beaucoup d'alternatives sur ce point (Marie-Lou m'a tout de même signalé Talkwalker) ; mais ce devrait être, à terme, l'une des applications possibles du système sur lequel je travaille dans le cadre de ma thèse 😊


Bien sûr, tout ça ne représente qu'une petite partie des activités de Google, même si moteur de recherche est son activité « historique ». Cet article est déjà long (surtout, une fois encore, compte tenu de la quantité de notes, qui en font partie à part entière), et évoquer tout le reste serait hors sujet. Néanmoins, citons rapidement les outils de Framasoft et l'auto-hébergement comme bons moyens de conserver le contrôle.


En tout cas et en complément, je vous renvoie à cette page sur Wikipédia, qui liste un certain nombre de moteurs de recherche, dont certains qui m'ont échappé ici. Et n'hésitez pas à ajouter toute information qui vous paraîtrait utile à ce sujet 😊


Message 2, par grim7reaper

§ Posté le 28/01/2014 à 4h 39m 11

Citation (Elzen)

Seeks (qui fournit une recherche d'image assez sympathique ; mais dont le code semble être un peu à l'abandon pour le moment).

Il n’est pas un peu à l’abandon : il est abandonné.


Citation (Emmanuel Benazera)

Je n'ai malheureusement plus le temps de mener le projet, ni de développer pour celui-ci. Le code reste disponible et si quelqu'un ou une petite équipe souhaite reprendre le flambeau, toute aide possible sera mise à leur disposition.

Concernant l'entreprise, nous sommes passés à autre chose avec celle-ci, avec de nouveaux projets, mais hors du libre pour le moment.

Source.

À ma connaissance il n’y a pas de repreneur donc actuellement le projet est mort.

Message 3, par Laërte

§ Posté le 03/03/2015 à 16h 55m 50

Duckduckgo affiche maintenant les images (tu t'en es probablement rendu compte mais comme tu tiens pas tes articles à jour... 😇 )



Message 4, par Elzen

§ Posté le 27/06/2015 à 21h 46m 04

Bah je commence à avoir un peu trop d'articles pour me souvenir de tout ce que je suis censé mettre à jour un peu partout. C'est (aussi) à ça que servent les commentaires : me prévenir de ce genre de soucis 😋


J'ai corrigé ci-dessus, avec pas mal de retard vis-à-vis de ta remarque ; et pour mentionner searx et l'apparition de framabee 😊

(Suite au décès inopiné de mon précédent serveur, je profite de mettre en place une nouvelle machine pour essayer de refaire un outil de blog digne de ce nom. J'en profiterai d'ailleurs aussi pour repasser un peu sur certains articles, qui commencent à être particulièrement datés. En attendant, le système de commentaires de ce blog n'est plus fonctionnel, et a donc été désactivé. Désolé ! Vous pouvez néanmoins me contacter si besoin par mail (« mon login at ma machine, comme les gens normaux »), ou d'ailleurs par n'importe quel autre moyen. En espérant remettre les choses en place assez vite, tout plein de datalove sur vous !)