jeudi 26 mars 2009

Un peu de sémantique dans le moteur


Le Financial Times lance un moteur de recherche qui ajoute du sémantique (meaning and relationship) au procès lexical habituel à base de mots clés et de booléen. Newssift ne traite que d'économie et de finances (son nom vient du verbe anglais to sift, tamiser). Produit par FT Search Inc., ce moteur exploite un outil de guidage et d'exploration de Endeca.
Les résultats de la première requête peuvent être raffinés en recourant à des catégorisations (facet) et filtres. Ainsi pour une recherche donnée, on peut délimiter le champ d'investigation en précisant le domaine d'application à des entreprises, des personnes, une zone géographique, un thème. Filtres différents de ceux que propose "Advanced search" de Google (langue, format, un domaine voire un site, page similaires). 
On peut comme dans Google délimiter l'intervalle de temps de référence. En revanche, on ne peut choisir la langue des documents : il semble pour l'instant n'y avoir de résultats qu'en anglais. Google donne le choix entre des dizaines de langues.

Plus original : le choix d'une orientation rédactionnelle (sentiment), positive ou négative, pour les articles. Les sources sont classées et l'on peut sélectionner le type de sources à explorer (journaux, dépêches d'agences, blogs, TV et radio, etc.).
Le principe d'utilisation de Newssift consiste à partir d'une recherche générale et de la particulariser progressivement. On peut ainsi chercher parmi les résultats, privilégier une orientation, puis une source, etc. 
On peut sauvegarder ses recherches. 

Exemple : la requête "search engines in China" donne 17 500 réponses avec Google, 2 570 avec Newssift (all dates), Newssift ne donnant que les pages à dominante économie ou finance. Sur ces 2 570, 1 430 sont positives, 669 neutres et 471 négatives. Parmi les négatives, 102 proviennent des journaux, 47 des blogs, etc.

Bien sûr, tous les premiers utilisateurs sont beta testeurs (un questionnaire est déjà en ligne). Première impression : ergonomie simple, intuitive ; mais résultats limités (à vérifier). Plus commode pour une recherche simplifiée. L'avantage de Google se voit à la quantité de données brassées, notamment grâce à la prise en compte de la diversité des langues. Pour profiter des atouts de Google, il faut passer à la recherche avancée, qui demande un effort de réflexion, un peu de temps... on rentre alors dans l'exploitation professionnelle. Google par défaut est grand public, grand public qui s'en tient au premier écran de résultats.

2 commentaires:

stéphane a dit…

Les nouveaux champs de ce moteur ouvrent de nouvelles perspectives très intéressantes pour les recherches. Cependant alors que l'on sait comment fonctionne google pour référencer ces sites (mots-clés), on se demande comment newssift classe ces sites. En effet, comment savoir si un texte est positif ou non? Si l'auteur attribue lui même le caractère positif ou non de ses écrits, on peut se poser la question de la légitimité de cette information.
Il n'en demeure pas moins vrai que les nouvelles perspectives proposées par ce moteur sont très intéressantes. Google devrait se méfier!

Clément C a dit…

Je suis plutôt d'accord avec Stéphane sur le dernier point. Il semble évident que si le moteur est très utilisé (ce qui peut sans doute être le cas étant donné la "spécialisation" de ce moteur dans l'économie et les finances), les fonctionnalités ne tarderons pas à s'enrichir, notamment au niveau de la langue dans laquelle on peut consulter les documents. Si l'on enrichit les questions que l'on peut se poser à propos de ce type de moteur, on peut se demander si la spécialisation des moteurs dans tel ou tel domaine n'est pas la principale menace qui guette Google? En effet, en se focalisant sur un domaine (par exemple un moteur ne traitant que des informations sur le sport), ne pourrait-on pas permettre une recherche plus qualitative de l'information...N'est-il pas plus judicieux de guider le consommateur vers une information de qualité plutôt que le délaisser au regard des seuls liens apparaissant en première page de Google? Il me semble que l'enrichissement de mots clés liés au premier mot clé est une très bonne idée à développer.