Le Web 2.0

Comprendre le Web 2.0 par l'exemple

Citation
, XML
Auteurs

Abstract

Ce knol tente d’expliquer ce qu’est la transition/révolution dénommée Web 2.0. Trop souvent employé pour tout et n’importe quoi, le concept 2.0 est à la mode, ce qui pourrait laisser croire à tort qu’il n’est qu’une mode.
Le Web 2.0 n’est pas nouveau. C’est une nouvelle étiquette collée récemment sur des outils qui sont en train de changer profondément notre société.
Pour le philosophe et historien des sciences Michel Serres, les nouvelles technologies de l’information fondent une transition dont la portée est équivalente à celle de l’invention de l’imprimerie. Mais qu’est-ce qui change vraiment avec ces outils de communication électroniques ?

Vous ne savez pas ce que c’est que le Web 2.0 ? Vous n’êtes pas le seul…

Frédéric Lefebvre et le Web 2.0
Le député Frédéric Lefebvre, initialement pressenti pour le poste de Nathalie Kosciusko-Morizet à l’économie numérique, fait preuve d’une méconnaissance du Web 2.0 qui lui a sans doute coûté sa nomination. La culture internet des hommes politiques est encore très modeste.

Tim O’Reilly, qui a lancé le concept Web 2.0,  en donne une définition assez complexe qui risque de ne pas beaucoup vous aider. Et pourtant, même si vous ne connaissez pas grand-chose au fonctionnement d’internet, vous allez voir que ce n’est pas si compliqué.

Le Web 2.0, c’est fondamentalement la version moderne de la devise des mousquetaires : un pour tous, tous pour un. L’un des mots qui le caractérise le mieux est donc communautaire.

Le Web 2.0 valorise l’intelligence collective d’un groupe humain

Le cerveau humain est le meilleur modèle d’organisation pour comprendre le Web 2.0, même si ce dernier est très éloigné du niveau de complexité de notre cortex ; chacun de nos neurones n’a pas d’intelligence propre, mais la richesse des connexions entre nos milliards de neurones aboutit à un système apte à résoudre des problèmes complexes.

Dans le Web 2.0, c’est nous qui sommes les neurones, plus ou moins connectés avec les autres, plus ou moins instruits, plus ou moins rapides pour transmettre l’information/l’influx nerveux. Le Web 2.0 nous fédère car il permet les connexions nécessaires entre nos cerveaux, mieux que ne l’a jamais fait aucun outil de communication. 

Il y a 100 000 ans, le langage élaboré par l’humain permettait la communication de type un à un (ou  à quelques-uns.)

Il y a 600 ans, l’imprimerie permettait une communication de type un à plusieurs.

Depuis 10 ans, la généralisation d’internet permet une communication de type plusieurs à plusieurs, ou pair-à-pair (peer to peer en anglais).

Ce qui est nouveau donc, n’est pas l’information ou la connaissance, mais la façon dont la parcelle que chacun possède est connectée avec celle des autres humains.

Pour mieux comprendre cette notion d’intelligence collective apportée par le Web 2.0, concentrons-nous sur un exemple célèbre, concret, et finalement mal connu : Google. La magie du moteur de recherche vedette est cachée sous son capot, et son apparente simplicité dissimule une révolution dans la gestion documentaire.

L’un des premiers services Web 2.0 : Google !

Eh oui, tel M. Jourdain, nous faisions du Web 2.0 sans le savoir depuis des années ! Google « trouvetout » n’a pas toujours existé, il y a eu un « avant Google » dont vous vous souvenez peut-être.
Or Google est le meilleur exemple d’application 2.0 tant il a créé une rupture avec l’existant.

Voyons en détail : aux débuts du Web, pour recenser les pages et les sites, nous avons employé les techniques ancestrales des bibliothécaires. Comme des livres dans des rayonnages, les sites étaient classés dans des annuaires par catégories, par genre, par type, par sous-type… soigneusement rangés dans des étagères. Bref, ce que l’on avait fait jusqu’ici depuis l’invention du document écrit. A l’intérieur des livres les plus importants ou des encyclopédies, figuraient des index permettant de chercher une page à partir d’un mot -clé.

Yahoo! , pionnier des catalogues

Le plus célèbre des annuaires de sites s’appelle Yahoo!. L’image ci-dessous montre le site Yahoo en 1996, la « préhistoire » du Web.

Les sites ou pages étaient classés par des humains qui visitaient les sites et les intégraient dans la rubrique appropriée de l’annuaire.

Mais très vite, l’explosion du nombre des documents disponibles rendit ingérable un tel annuaire, qui ne reflétait qu’une faible partie du fond documentaire disponible, et dont la mise à jour devenait ruineuse. L’annuaire Yahoo a disparu du site principal et n’est plus guère utilisé (il est caché ici.)

Après le catalogue Yahoo apparaissent les index et les moteurs de recherche

Quelques pionniers eurent alors l’idée d’automatiser le processus d’indexation : des ordinateurs connectés au réseau et appelés « spiders » (araignées) , vont explorer automatiquement le Web (la « Toile »), en se comportant comme un visiteur qui cliquerait au hasard sur tous les liens rencontrés sur les sites.

Chaque page était alors « analysée », et les mots contenus stockés dans un gigantesque index. Des requêtes (interrogations) faites dans cet index permettaient ensuite de retrouver les sites visités, exactement comme l’index d’une encyclopédie permet de trouver le bon article au sein de 20 gros volumes. Les « moteurs de recherche » étaient nés : Wanderer, puis Lycos, Excite (tous ces moteurs ont disparu depuis, « tués » par Google.)

Mais nous étions toujours dans un processus très classique : malgré la lecture automatique des pages, ce n’était jamais que de l’indexation de mots dans un texte, comme elle se pratiquait depuis l’invention des textes imprimés.

Les premiers moteurs de recherche automatisent l’indexation traditionnelle, mais n’inventent rien

Ces moteurs de recherche de première génération tentèrent de perfectionner leur indexation en apportant plus de poids aux mots répétés dans la même page, ou présents dans les titres ou les mots-clés. Leur qualité culminèrent avec AltaVista. Mais il n’y avait toujours aucune réelle nouveauté dans cette approche : les encyclopédistes réalisaient cela manuellement depuis plusieurs siècles.

Les moteurs atteignirent alors deux limites infranchissables :
- Ils ne pouvaient correctement indexer et classer que les pages bien rédigées par leurs auteurs. Contrairement aux encyclopédistes qui coordonnent leur travail, les webmasters sont libres d’organiser leurs sites et pages comme ils le souhaitent et génèrent un chaos bien difficile à indexer. Un titre mal choisi, une page mal organisée, et voilà un document de référence qui n’était proposé qu’en 50ème position dans les résultats de recherche, autant dire devenu invisible.
- Le commerce apparut sur la toile et les marchands eurent tôt fait de s’intéresser aux méthodes d’indexation qu’ils manipulèrent à leur guise : comme les critères de pertinences utilisés par les moteurs étaient uniquement liés au contenu des pages, il était facile d’optimiser, ou plutôt de truquer, ses propres pages pour les faire ressortir dans les premiers résultats des moteurs de recherche. Cette pratique aboutit d’ailleurs à un nouveau métier, le référencement.

La révolution 2.0 commence en 1998

Nous étions arrivés à la limite d’un modèle millénaire de classement de la connaissance (rayons, étagères, annuaires, index, table des matières.)
C’est alors qu’entrèrent en scène Sergey Brin et Larry Page, deux étudiants en informatique de l’université Stanford. Ils avaient 25 ans, nous étions en 1998.

JPEG - 61.5 ko
Cette photo des fondateurs de Google paraît ancienne. Elle n’a pourtant que 8 ans…

Dans leur esprit, ce n’était initialement qu’un simple projet de recherche qui proposait pourtant une rupture totale avec le passé : les critères qui permettent d’apprécier la pertinence d’un document ne sont pas  dans le document lui-même, mais dans les liens qui le connectent aux autres documents, c’est-à-dire dans le crédit que d’autres accordent à ce document.

Pour résumer, avant 1998 : on analysait depuis des siècles le contenu du document pour le classer et déterminer sa valeur, soit par le cerveau humain et ses annuaires, soit par un indexeur automatique alimenté par des mots-clés.

Après 1998 : Google collecte simplement le comportement des hommes autour des documents et en tire des informations sur leur pertinence. C’est une rupture totale avec le passé, et un des concepts fondateurs du Web 2.0.

Tordons le cou d’emblée à une idée  fausse : Google ne privilégie pas les documents les plus « populaires », les plus souvent consultés. Un tel critère n’aurait aucun intérêt et aboutirait au nivellement de la qualité, chaque éditeur de site cherchant alors à plaire au plus grand nombre comme le font les médias de masse. Cette idée d’un Google favorisant les pages les plus lues est pourtant très répandue.

La réflexion de Larry Page et Sergey Brin a été plus approfondie : à chaque fois que quelqu’un écrit une page pour internet, il crée des liens dans cette page pour indiquer au lecteur d’autres pages qui lui paraissent pertinentes afin d’approfondir sa réflexion. Or, c’est une graine d’intelligence : les auteurs utilisent leur capacité d’analyse et leur connaissance du sujet pour créer ces liens. En regroupant ces analyses disséminées en un tout cohérent, on devrait faire émerger une intelligence collective, permettant d’identifier les documents les plus intéressants.

De même que les connexions neuronales de notre cerveau se sont façonnées au fur et à mesure de nos apprentissages et de nos expériences, les liens internet émergent au fur et à mesure de la création des pages Web.

Page et Brin eurent donc l’idée de créer une première règle d’indexation pour utiliser au mieux l’intelligence collective du Web. Cette règle porte à présent le nom de PageRank du nom de son créateur, et ce fut leur sujet de mémoire de fin d’étude.  Certes cette approche se nourrissait de travaux antérieurs, mais leur mérite

est de l’avoir mise en œuvre.

La pertinence des supports d’information s’apprécie mieux par leurs liens que par leur contenu.

Le principe initial du PageRank est simple : une page internet est présumée intéressante si d’autres pages font des liens vers elle. Cela peut se traduire facilement dans l’ancienne représentation du classement de l’information : un livre est intéressant s’il remplit les conditions suivantes :
- Il est souvent cité en référence par d’autres livres ou articles,
- Il est souvent conseillé par un bibliothécaire.

Notez que le critère « il est souvent lu » n’est pas pris en compte : un livre répondant aux deux critères précédents est certes plus souvent lu qu’un autre, mais il ne sera pas forcément le plus lu. Le nombre de lectures d’un livre ou d’un article n’est pas un facteur de qualité significatif.

Le schéma ci-dessous illustre le fonctionnement du PageRank ; la taille du petit personnage qui représente une page internet est proportionnelle à l’importance accordée à son contenu. Cette taille dépend de deux éléments :
- Le nombre de liens qui pointent vers lui,
- L’importance (la qualité) de ceux qui incluent des liens vers lui.

Être lié (pointé par) un éditeur de site de qualité augmente plus le PageRank qu’être lié par une page anonyme ou peu considérée.

Récapitulons les grands principes de Google :
- Google propose une rupture totale avec l’indexation traditionnelle : ce n’est plus le contenu du document qui est le plus important, mais ce qu’en pensent les autres auteurs et les bibliothécaires.
- Google ne propose pas les liens les plus populaires, les plus lus, ou les mieux considérés par la foule des internautes, car ces données ne sont pas pertinentes.
- Au contraire, Google met en valeur et nous propose les liens conseillés par d’autres auteurs car il considère qu’en faisant cela, il fédère l’intelligence de tous ces auteurs et que cette intelligence collective est plus rapide et étendue que toute autre.

Brin et Page sont tellement sûrs de leur fait que la page d’accueil de leur nouveau site est une véritable provocation :

La page d’accueil de Google en 1998

- Aucun décor : un cadre de saisie et un titre, c’est tout. Pas d’options de recherche, de mode « avancé ». Google marque la rupture avec Altavista, le leader du marché des moteurs de recherche en 1998 dont la page d’accueil  était particulièrement chargée.
- Un bouton énigmatique « J’ai de la chance » affiche directement à l’écran le premier résultat de la recherche, sans passer par une page intermédiaire de résultats. Dans la majorité des cas, ce premier résultat est le bon ! L’effet de saisissement est garanti; alors qu’il fallait auparavant tester plusieurs résultats de recherche, voire plusieurs moteurs pour obtenir péniblement le document ou site recherché.

C’est une des premières manifestations d’une maxime liée au Web 2.0 : « Keep it simple ant stupid » (KISS). L’interface doit être simple et intuitive, l’intelligence de l’application est cachée pour donner une impression de « magie ».

A ses débuts, Google applique une méthode rudimentaire, car il se contente de trier l’information en examinant des liens et en calculant un PageRank pour chaque page, ce qui est une fonction cognitive singulièrement limitée.

Voyons comment il va étendre ses capacités pour devenir la porte d’entrée principale du Web et symboliser le Web 2.0

Amélioration du PageRank

Le PageRank n’était qu’une première étape. L’algorithme (la méthode de calcul) qui permet actuellement à Google de trier les ressources du Web repose désormais sur une centaine de critères, dont le secret est jalousement gardé pour éviter toute manipulation par les éditeurs de sites. Certains de ces critères sont néanmoins suspectés ou connus et l’on se rapproche de plus en plus d’un fonctionnement neuronal.

JPEG - 132.9 ko
Réseau de neurones
 

● Le PageRank ne s’appuie plus sur des auteurs quelconques qui font un lien vers une page, mais sur les auteurs qui traitent du même sujet. C’est une modification importante car elle augmente la qualité de la sélection. Ce ne sont plus les bibliothécaires ou les auteurs en général qui conseillent un ouvrage ou un article, mais d’autres, spécialistes du sujet traité. Ces « spécialistes » peuvent être réels ou autoproclamés, la loi des grands nombres pondèrera les extrêmes.

● Les liens sortants sont pris en compte : il ne faut pas seulement être conseillé par d’autres auteurs (liens entrants), il faut soi-même conseiller de bons documents (liens sortants) pour accroître sa réputation. Ce qui est assez logique et conforme à ce qui se passe dans la vie réelle.

● Google propose différents services additionnels, dont une barre d’outils qui permet à son utilisateur de stocker ses adresses de sites (favoris). Cette base de données de sites favoris est stockée sur les serveurs de Google. Or il est probable que le moteur tient compte des sites sélectionnés pour leur donner un poids plus important. De plus, les internautes créent des dossiers pour ranger ces liens, et le nom de ces dossiers est une information précieuse sur les sujets traités.

● Google n’analyse plus seulement le nombre de liens qui pointent vers un site, mais la dynamique d’apparition de ces liens. En effet, des liens artificiels créés pour l’influencer apparaissent généralement tous en même temps et à partir du même site. Au contraire, un contenu de qualité génère des liens spontanés chez d’autres auteurs, et leur répartition dans le temps est progressive et étalée sur de nombreux sites.

● Google tient compte de l’âge du document et de sa mise à jour. Un contenu ancien dans un site qui ne bouge plus risque d’être moins pertinent qu’un article souvent modifié qui continue à recevoir de nouveaux liens.

● Lorsque nous faisons une recherche dans Google, celui-ci analyse notre comportement sur la page de résultats. Si nous allons voir une page indiquée et que nous revenons après quelques secondes, c’est que cette page ne correspondait pas à notre attente. Son PageRank sera abaissé. Au contraire, la page consultée en dernier aura un PageRank augmenté : si nous avons cessé nos recherches après cette page, c’est sans doute un gage de pertinence par rapport à cette recherche.

Il existe des dizaines d’autres critères destinés à privilégier l’information pertinente sans la moindre analyse du contenu. Il est même possible de trouver une page qui ne contient pas le mot cherché, pour peu qu’elle reçoive de très nombreux liens dont le libellé contient ce mot. Ces règles fonctionnent aussi bien pour du français que de l’anglais ou du chinois. En outre, Google met en œuvre des techniques de détection de la fraude si pointues que le principal conseil actuellement pour être bien classé dans ce moteur est « créer du contenu intéressant. »

Bien sûr, tout n’est pas parfait et le moteur peine parfois sur certaines requêtes difficiles ou très commerciales. Mais l’absence de liens de qualité dans une requête ne fait souvent que refléter la pauvreté des contenus en accès libre disponibles.

Nous venons de passer en revue la façon dont Google s’appuie sur le travail intellectuel des webmasters et sur le comportement des internautes, pour agréger leurs micro-expertises en une forme d’intelligence neuronale. C’est à mon avis un des plus bel exemple du Web 2.0 :
- Google ne demande d’effort à personne, il utilise un travail déjà réalisé par d’autres pour d’autres objectifs.
- Google met en forme des données publiques, mais que lui seul parvient à agréger correctement.
- Google est ouvert à tous et ne coûte rien à ceux qui utilisent ses services, tout en gagnant énormément d’argent avec d’autres (le Web 2.0 n’est en rien synonyme de bénévolat mais la gratuité d’accès est quasiment une règle).
- Google sépare clairement le service qu’il apporte (trouver l’information) et son gagne-pain (la publicité). S’il ne le faisait pas, il disparaîtrait en quelques années faute d’utilisateurs, tant la crédibilité de ses résultats serait altérée.
- Google touche à un domaine clé de la civilisation de l’information : l’accès à la bonne information au sein d’un « bruit » phénoménal.
- Google se fonde sur un réseau, mot-clé du Web 2.0, mais il ne le crée pas : il utilise le réseau constitué par les auteurs-lecteurs du Web.
- Google est un outil conçu par des gens intelligents qui ne se prennent pas au sérieux. J’aime bien la photo ci-dessous.

A partir du seul exemple de Google, vous disposez d’une vision du concept 2.0 qui permet d’en appréhender quelques facettes.
Les idées-force du Web 2.0 sont les suivantes :
– Le 2.0 est en rupture nette avec le passé (le 1.0). Mais cette r/évolution ne coupe pas de têtes, elle se contente de rendre le passé obsolète.
– Le 2.0 fédère des Hommes et s’appuie sur des communautés d’utilisateurs ou des réseaux.
– L’outil 2.0 est généralement d’un abord simple, bien que parfois complexe dans la « mécanique » qu’il utilise.
– Le monde du 2.0 ne se prend généralement pas au sérieux, ce qui n’empêche pas certains succès un peu trop fulgurants pour être durables.

Bien sûr, le Web 2.0 ne se résume pas à Google, et encore une fois, le périmètre du concept est flou et controversé. Si j’ai choisi de traiter uniquement de Google dans cet article, c’est parce que le moteur constitue à la fois une des premières applications 2.0, un outil connu de tous, un succès incontestable, et une révolution que tout le monde peut appréhender. C’est par ailleurs un clin d’œil car Knol est un des nombreux services que Google propose en plus de ses outils de recherche.

J’ai un peu plus détaillé l’intelligence communautaire sous le concept de pairjectivité dans un autre knol.

Bien qu’elle commence à dater un peu, je vous recommande cette vidéo en anglais qui exprime bien certains aspects de la r/evolution 2.0

Vidéo YouTube

D’autres aspects du Web 2.0 sont traités par des sites francophones spécialisés que je vous recommande et qui vous permettront d’approfondir le sujet :
– Un numéro de la lettre EMERIT qui dresse un excellent panorama sur le sujet.
– La Fondation Internet Nouvelle Génération (FING) et son site d’informations InternetActu
– Les sites de Fred Cavazza, un des meilleurs spécialistes du sujet (mais très orienté « business ») :

– Le blog de Francis Pisani http://pisani.blog.lemonde.fr/
– Et bien sûr l’incontournable Wikipédia http://fr.wikipedia.org/wiki/Web_2.0,  autre service phare du Web 2.0, ou comment l’agrégation de la culture parcellaire de centaine de milliers de rédacteurs anonymes et bénévoles aboutit à une encyclopédie dont la qualité s’améliore de jour en jour.

Vous pouvez me suggérer en commentaire d’autres sites ou articles qui vous paraissent bien illustrer le Web 2.0 en expliquant en quelques lignes pourquoi leur apport est important.