vendredi 13 mai 2011

La qualité d'un site selon Google : la loi du Panda

.
Panda est l'algorithme de Google conçu et sans cesse ajusté, depuis février 2011, pour que les recherches des internautes débouchent de manière primordiale sur des sites de qualité (high-quality websites). Google a publié 23 critères selon lesquels Panda juge et classe les sites, critères qui constituent une sorte d'échelle de qualité.
Réduisons ce questionnaire à 8 catégories essentielles.
  1. Promouvoir les contenus originaux, pénaliser les contenus redondants et la production de masse
  2. Privilégier l'expertise et les autorités reconnues
  3. Favoriser les sites en qui l'on peut avoir confiance (paiement, santé) et que l'on peut recommander
  4. Privilégier la qualité formelle, le soin dans l'écriture (langue, orthographe, syntaxe)
  5. Qualité factuelle des contenus présentés (vérification)
  6. Favoriser l'honnêteté intellectuelle, l'objectivité, l'exhaustivité dans le traitement
  7. Défavoriser les sites que l'encombrement publicitaire rend illisibles
  8. Favoriser les sites dont le contenu serait digne d'être publié dans un livre, une encyclopédie ou un magazine
Ces critères sont aussi ceux que mobilisent, ou devraient mobiliser, un titre de presse ou un ouvrage collectif. Rien à objecter en principe à de tels critères. Conservateur et conformiste, Google suit les règles de qualité des médias traditionnels (points 2 et 8). Quelle influence sur la créativité formelle ? N'est-ce pas comme si l'on soumettait des textes d'écriture automatique (cf. Champs magnétiques) ou des "cadavres exquis" aux règles de L'Art poétique de Boileau ?
  • Comment déceler l'original de la copie, si Google a "crawlé" la copie avant l'original ? 
  • Comment prendre les marques à leur juste mesure ? Leur contenu n'est pas toujours à la hauteur de leur autorité et Google semble l'ignorer. Soumission pour le moins douteuse du Web aux "grandes marques".
  • Comment est traitée la communication non verbale (photo, vidéo, dessin, par exemple) ?
  • Jusqu'où doit s'exercer la police des mots ? Comment ne pas penser à l'audiovisuel américain et à sa ridicule liste de sept mots à ne pas prononcer à l'antenne ("Seven dirty words" ou "filthy words").
  • Il me semble qu'il manque une prise en compte des références aux sources originales et à leur vérifiabilité (liens, citation). Quid du plagiat (content theft) ?
Il faut que cette liste un peu floue suscite une réflexion approfondie sur le rôle des moteurs de recherche dans l'accessibilité aux documents publiés sur le Web. Déjà, Google propose une appli permettant d'évincer définitivement un site des réponses obtenues (Personal Blocklist). Tout semble se passer comme si Google développait, à sa manière, une censure au profit d'une sécurisation contextuelle des investissements publicitaires - dite "Brandsafety" ou "Adverification", allant ainsi sur les brisées des DoubleVerify, AdLoox, Adwatch, Suresafe, Pubscan (Contextual Media Group) ou AdXpose (Mpire Corporation).
Sous des apparences techniques, anodines, Panda définit des normes éditoriales pour le Web. Google se trouve ainsi auto-investi, sans penser à mal (bien sûr !), d'un rôle de distributeur et d'organisateur des linéaires numériques : sur Internet, c'est Google qui gère le facing, les mises en avant et les stop rayons. 

6 commentaires:

Coralie a dit…

Trois questions émanent de la lecture de cet article.
- Les sites d’agrégation de contenus émergents, ou mashup, ne sont-ils pas menacés par la volonté de Google d’éliminer la redondance dans les résultats de recherche ?
- La lutte contre les fermes de contenus prétextée par Google sera-t-elle réellement efficace ?
- Étant donné le pouvoir de Google sur l’organisation des linéaires numériques, le moteur de recherche n’est-il pas aussi prescripteur dans la distribution physique ?
Quoi qu'il en soit, le référencement naturel favorisera l’intérêt de certains au détriment des autres. Par conséquent, les algorithmes de Google seront toujours contestés par les laissés pour compte.

Hélène a dit…

Si l'algorithme suffisait à créer de l'intelligence, l'humain ne servirait plus à grand chose. On a tendance à oublier que la machine n'est qu'un outil et on voudrait qu'elle remplisse des missions dont elle est incapable. Alors bien sûr Google trie, ce qui est bien utile dans le chaos de la toile, mais Google se vante.... L'outil reste et restera très imparfait : erreurs dues à l'automatisation (cf. copie/original), incomplétude des méthodes mathématiques (cf. cantonnement à l'analyse lexicale), sous estimation de la complexité des processus de sélection et mise en avant du conformisme. Autant de limites qui doivent nous amener à nous méfier et à remettre en question les déclarations de Google à propos de Google... Surtout que Google malgré ses dires est bien loin d'être philanthrope et désintéressé.

Anne-Claire a dit…

Ne peut-on pas voir dans cette initiative de Google sa volonté de se positionner en un média en tant que tel ? C'est-à-dire qu'il trie et filtre l'information, avant de la délivrer à l'internaute.
Mais une question se pose également : les internautes n'aimaient-ils pas justement choisir eux-mêmes leurs informations au travers de la multitude qui s'offraient à eux ?
En effet, je pense aussi que c'est une menace pour les mashups.
Google se positionne en tant que régulateur de la toile, mais n'est-ce pas contraire aux principes fondateurs d'Internet...

Sébastien a dit…

Par cette initiative, Google cherche officiellement à éviter l'apparition dans les premiers résultats de recherche de pages dupliquant des contenus préexistants ou encore de pages utilisant les mots-clé de façon abusive. Mais quand on voit l'immense proportion d'utilisateurs ayant google comme page d'accueil (paramétré par défaut sur un navigateur internet comme firefox), il est tout à fait légitime de craindre une sorte de censure pour certains sites ou au contraire un favoritisme illégitime pour d'autres, de telle sorte que le net ne serait plus aussi neutre qu'on veuille le croire...

Chloé Durand a dit…

A la lecture de cette article, je pense que les fermes de contenu ont du soucis à se faire pour leur survie! En effet, le business modèle de celles ci mise sur le nombre de visites du site. Du fait de leur classement dans les résultats de recherches internet, leur site est vu très facilement. Cependant avec cette nouvelle loi, la plus part de ces sites seront relégués dans les deux ou troisième pages de résultats de recherches de Google (premier moteur de recherche). L'avenir de ces fermes de contenu me parait compris à la vue de cette nouvelle loi Panda!

Chloé Durand a dit…

A la lecture de cette article, je pense que les fermes de contenu ont du soucis à se faire pour leur survie! En effet, le business modèle de celles ci mise sur le nombre de visites du site. Du fait de leur classement dans les résultats de recherches internet, leur site est vu très facilement. Cependant avec cette nouvelle loi, la plus part de ces sites seront relégués dans les deux ou troisième pages de résultats de recherches de Google (premier moteur de recherche). L'avenir de ces fermes de contenu me parait compris à la vue de cette nouvelle loi Panda!