Affichage des articles dont le libellé est lexique. Afficher tous les articles
Affichage des articles dont le libellé est lexique. Afficher tous les articles

mardi 1 octobre 2024

500 expressions françaises bien décortiquées

 Lire magazine, hors-série, septembre 2024, 196 p., Index, 12,90€

On les a toutes, ou presque toutes, déjà lues ou entendues. Sans toujours en connaître le sens exact, sans souvent en savoir l'origine.  C'est ce qu'apportent ces pages qui nous donnent l'origine, expliquent la signification, la "décortiquent", qu'elle soit actuelle ou passée, de 500 expressions françaises (donc on n'y trouvera pas le québécois, et c'est dommage : c'est pour un autre numéro, peut-être ?).

Ces 500 locutions font voir la richesse de la langue et son histoire aussi. C'est une sorte d'étymologie à laquelle se sont livrés les auteurs. Ainsi, par exemple,"savoir nager entre deux eaux" qui a d'abord signifié "naviguer entre deux courants". Le verbe "nager" vient du latin nato, natare, dérivé du latin classique navigare : à vos Gaffiot ! Parfois, l'origine est douteuse ou confuse : ainsi "avoir la quille" qui évoque trois linguistes, chacun proposant une explication, sans convaincre les lecteurs. Mais faute de service militaire obligatoire, qui connaît encore cette expression parmi les jeunes générations ?

Pour achever la lecture de ce magazine, il ya des pages (68 et 69, ou 166 et 167) donnant des jeux qui permettront aux lecteurs-trices de tester leur savoir et leur mémoire. Pas si facile ! 

L'ensemble est à lire à petites doses pour enrichir son français, et savoir, si on l'ignorait, que l'on ne le sait pas si bien que l'on croyait.

dimanche 11 août 2024

N'apprenez pas l'anglais, puisque vous le savez déjà !

Bernard Cerquiglini, "La langue anglaise n'existe pas". C'est du français mal prononcé, Paris, Gallimard, 2024, 196 p., Index des mots commentés, bibliographie. 

Bernard Cerquiglini est un bon linguiste. Normalien, Professeur des Universités, membre de l'OULIPO, auteur de nombreux livres, il a fait carrière dans l'étude et l'histoire du français mais, surtout, et le titre du livre le rappelle, il a gardé un peu d'humour : affirmer que la langue anglaise n'existe pas ne manque pas de culot ! Mais la démonstration rappellera aux Français les grandes étapes linguistiques de la conquête du monde par la langue anglaise, "vainqueur de la mondialisation". Victoire que l'anglais devrait au français - mais pas seulement - qui lui a fourni "tout ce qui a fait d'elle une langue internationale recherchée, employée, estimée comme telle". Conclusion : "l'essor mondial de l'anglais est un hommage à la francophonie", tel est le parti pris, a priori paradoxal, de ce livre.

La démonstration commence par un peu d'histoire, entre 1066 (bataille d'Hastings) à 1400, le français est d'abord la langue de l'Angleterre, puis il devient une langue seconde pour les Anglais raffinés. Ensuite, l'anglais l'emporte totalement mais en empruntant beaucoup de français : donc, "qui s'exprime en anglais parle largement français". Un résultat arithmétuque le souligne : 29% des mots anglais viennent du français, 29% viennent du latin, 26% du germanique. Après des chapitres historiques, vient un chapitre intitulé : "comment on a fabriqué la langue anglaise", dont la première phrase dit l'essentiel "la langue anglaise est un français régional". Mais le livre n'aborde pas les questions grammaticales ; d'où viennent les structures syntaxiques de l'anglais ? Qu'ont-elles de commun avec celles du latin et celles du français ? Et puis, quelles sont les conditions économiques et militaires de la domination de l'anglais ? Pour le reste, la démonstration est éloquente et le livre est bien conduit. Alors, améliorez votre anglais amis anglophones : mêlez-y donc un peu de français et de latin !


jeudi 7 janvier 2016

Les mots et les choses dans les titres de la presse française


L'analyse lexicologique porte sur l'ensemble des termes présents dans les titres du corpus : tous les nouveaux titres et tous les hors-séries depuis 2003, soit 24 080 titres. Sont exclus de la collecte les titres de jeux et mot croisés, les titres de la presse syndicale et d'entreprise, de la presse des administrations territoriales, de la presse électorale, associative, etc.

Avant le comptage, nous avons effecué un nettoyage en plusieurs étapes. D'abord en excluant les signes de ponctuation (on compte 1092 points d'exclamation et 246 points d'interrogation), puis en évacuant les mots-outils et mots vides (stop words) : prépositions, conjonctions, articles, pronoms. Enfin, nous avons pratiqué une lemmatisation pour ne garder des mots que leur forme canonique (infinitif, masculin, pluriel). Sont regroupées à cette occasion les orthographes diverses d'un même terme (erreurs, translittérations variables de mots arabes, chinois, japonais, russes, turcs), des équivalences (& / et), recours ou non au tiret, abrévations, abandon ou non de signes diacritiques (accents)...
Source : Base presse MM (le comptage est arrêté au 1er décembre 2015). Cette statistique est issue d'un travail de recherche
dont les principaux résultats ont fait l'objet d'une communication au séminaire Média de l'IREP en décembre 2015.

L'histogramme obtenu pour la distribution des mots évoque la loi de Zipf. Une longue traîne de mots dont peu de mots émergent en tête de distribution.

La syntaxe des titres ne fait pas dans le sentiment (ou très rarement), elle est strictement dénotative faite de juxtapositions (parataxe de mots), de génitifs. On compte 5 144 prépositions "de", 2 004 conjonction "et" (hypotaxe), 1 017 "en".
"Vous", vocatif de l'apostrophe est présent 118 fois avec les adjectifs possessifs "votre" et "vos" (509) : injonctions à la participation, à l'appropriation, à la personnalisation de la réception peut-être (cf. le nombre de points d'exclammation : 1092 contre 246 ). Acte de langage, valeur performative. "Montez votre PC 100% gaming" (H-S PC Gamer), "Votre grand horoscope", "Réussir votre prépa" (Jogging international), "Votre histoire", "Rénover votre maison" (H-S Viva déco),  Défendez vos droits, "Les médicaments et vous" (H-S Notre Temps), etc.

Au terme de cette analyse, qu'avons-nous pu apprendre ?
  • Le mot le plus fréquent est "guide", il appartient à la définition d'un genre intervenant dans la composition d'un magazine tout comme les mots "recettes", "achat" et "idées". La dimension primordiale de la presse française, et la raison essentielle de son succès, est sa fonction d'utilité (cardinale), la satisfaction des consommateurs (lecteurs utilisateurs). 
  • Passés les 1 000 premiers mots, on peut observer une longue longue traîne de 13 000 mots mobilisés par les titres. Effet indirect de la loi Bichet : la presse magazine est diverse, changeante, riche. Des milliers de mots n'ont qu'une occurence. Richesse de mots, diversité d'idées ?
Les mots qui suivent le mot "guide" (fréquence décroissante) énoncent des thèmes, des domaines d'application de ces genres : cuisine, automobile, maison, histoire, sport... Cette liste corrobore celle des domaines distingués dans l'analyse en catégories et centres d'intérêt.
Le titre, s'il est l'élément majeur du paratexte -pour reprendre l'expression de Gérard Genette dans Seuils, relève surtout du marketing, qu'il s'agisse des titres de presse ou des titres de livres. Il appartient d'abord au packaging.

lundi 7 octobre 2013

Lire la presse, c'est [pour ] faire : loisirs créatifs, déco, bricolage, cuisine, achat

.
La presse constitue une catégorie générale confuse : catégorie juridique et fiscale aux contours précis, certes, catégorie matérielle assortie d'un modèle économique spécifique, certes, mais ce sont là des catégories ignorant l'usage. "Lire", "consulter", "feuilleter", disent les études pour définir audience et lectorat. Faudrait-il rajouter "faire", le terme "faire" permettant de ne pas avoir à distinguer entre travail et loisir, à démêler les constituants de ce "travail à-côté" (s'agit-il d'économie non marchande, d'auto-consommation) ?
Car que font les lecteurs avec les magazines qu'ils achètent ? A quoi leur servent-ils ?
Ne pourrait-on catégoriser les titres de presse selon les usages qu'ils suscitent, guident et accompagnent, selon l'activité à laquelle ils contribuent (les lecteurs sont des "actifs") ? On pourrait ainsi tenir compte de l'engagement pratique des lecteurs - en est-il d'autres ?

A parcourir les statistiques de la presse grand public publiées au cours des dix dernières années, une catégorie d'usages émerge : la catégorie pratique, celle des titres utiles pour faire et pour acheter. Il s'agit essentiellement de magazines, de publications qui font passer à l’acte (faire), et à l'acte d'achat.
Quel actes ? Bricoler, tisser, coudre, cuisiner, recycler, tricoter, encadrer, décorer, réparer, photographier, restaurer, crocheter, aménager, récupérer (upcycling), collectionner, configurer, échanger, jardiner, broder, ranger... et, toujours, créer. Ce sont, tout à la fois, des travaux domestiques et des loisirs (semi-loisirs ?), la plupart ont lieu à la maison et, souvent, pour la maison, pour la famille, les fêtes traditionnelles, les enfants...

On dénombre ainsi 1 100 titres centrés sur les loisirs créatifs, 350 sur le jardinage, 170 sur le bricolage, 800 sur la cuisine, 900 sur la décoration (maison), entre autres ; il faut encore y ajouter le maquettisme, les loisirs numériques, informatique, photo, etc. Cette presse montre comment "faire soi-même" ("do-it-yourself") ; didactique, elle énonce, pas à pas, un mode d'emploi, des recettes, des conseils, indiquant quel produit acheter, quel appareil utiliser, à quelle astuce recourir ("Système D", truc de grand-mère ou secret de professionnel), fournissant un patron, des fiches, des plans. Elle montre, décrit, illustre, explique des gestes ("500 gestes de jardinage", par Rustica). "Savoir tout faire" : en photographie, en plomberie, en électricité, en retouche beauté, avec tel ou tel logiciel... Le contrat de lecture de ces titres est sans ambiguité : il s'agit de "vie pratique" ("Déco à vivre")  et de création ("Noël Créatif", "Tricots créatifs") ; la publicité est partie prenante de la promesse.
De la lecture à l'achat, la distance est souvent franchie : ces magazines comportent presque toujours des guides d'achat (1 300 titres) : il faut acheter pour faire, et acheter le mieux possible. "Une question brico ? Une réponse produit", titre le hors série de "Bricoler du côté de la maison" (hors série du 28 mars 2014).
  • Loisirs créatifs et bricolage sont a priori le refuge de la valeur d'usage, du plaisir, de "l'artisanat facile" (Feutrine) ; le métier, c'est la valeur d'échange, le gagne-pain. Toutefois, la dimension valeur d'échange n'est jamais absente de ces pratiques qui permettent de faire des "économies". Parfois, cela peut aller jusqu'à Etsy ou Amazon Handmade...
  • La sociologie de ces pratiques permettrait une analyse plus fine des budgets-temps dans les familles (cf. Ménage, ménagère, manager) et permettrait de requalifier de nombreux titres classés dans la presse dite "féminine", catégorie faible qui mélange tout.
  • Cette presse des pratiques recourt à un large lexique technique et, par conséquent, à des actes de langage qui peuvent faciliter un ciblage en ligne précis, discriminant (souvent les termes technique sont expliqués (cf. "Debuter en couture", HS de Home Solutions de Oracom SA, mai 2014). 
  • La presse renoue avec son histoire : en 1831, aux débuts de la presse grand public, Émile de Girardin lançait le Journal des connaissances utiles (sous-titré Recueil encyclopédique de la famille). Petites choses (Little Things), dira-t-on plus tard  ! "Life's about the little things" proclame le site DIY lancé en septembre 2014, à New York.
  • Attention : la vidéo est un média concurrent, notamment avec YouTube (Google). Le how-to représente une partie importante et croissante de ses contenus (dont certains produits par des marques). Cf. "I want-to-do moments: from home to beauty". La presse doit apporter cette dimension éditoriale et publicitaire sur ses sites.
Source
Base MM (40 700 titres en novrembre 2018)
Ont été pris en compte pour cette analyse : les nouveaux titres et hors-séries publiés de 2003 à mars 2015 (plus de 15 000 titres grand public). N.B. A un même titre, peuvent être affectées plusieurs catégories, jusqu'à 4 ; par exemple : bricolage, décoration, guide d'achat.

Références

  • Florence Weber, Le travail à-côté. Une ethnographie des perceptions, éditions EHESS, 1989, 2009.
  • Philippe Coulangeon, Pierre-Michel Menger, Ionela Roharik, "Les loisirs des actifs : un reflet de la stratification sociale", Economie et statistique, N° 352-353, 2002). Voir, notamment, la notion de "semi-loisir".
  • lundi 16 juillet 2012

    Orthographe : de la dictée au moteur de recherche, du magazine au scrabble

    .
    Timbrés de l'orthographe, (sous-titre : A lire sans faute). Trimestriel, 100 pages, tiré à 25 000 exemplaires, 4,9 €

    Les Editions de l'Opportun, éditrices de ce magazine, ont mis en place un concours national de dictée (25 000 participants déclarés, avec finale dans un amphi de la Sorbonne) ; le magazine en publie corrigés et palmarès. Institution, le concours est parrainé par La Poste, défenseur des lettres et du courrier, d'où le titre du magazine ; il a le soutien du ministère de l'éducation, du Figaro littéraire...
    Les Editions de l'Opportun commercialisent une gamme de produits orthographiques dérivés (guides pratiques, jeux), dont le magazine fait la promotion. Aucune autre publicité n'y est présente.
    Le contenu du magazine est en grande partie didactique : exercices à trous, dictées préparées avec les "difficultés expliquées", comme à l'école. Il s'agit d'entraîner des lecteurs aux compétitions d'orthographe. Le magazine s'intéresse aussi, de manière plus désintéressée, à la langue française et publie des rubriques sur le secret oublié des expressions, l'évolution des mots, les publications récentes sur le thème.

    "Science des ânes" ? "Politesse de la langue" ? Maladie ? Car on a médicalisé la faute d'orthographe : disorthographie ! Tout Français a vécu une partie de son enfance ballotté entre 0 et 5 fautes d'orthographes. Ce souci de l'orthographe et de ses pièges le poursuit : toute sa vie, il / elle sera jugé(e) sur son orthographe (stigmate) ; tout au long de sa vie, il jugera ses collègues et ses petits chefs, ses correspondants sur l'orthographe. Orthographe dans les copies de concours et d'examens, dans les CV et dans les courriers, dans les lettres d'amour même. L'orthographe a encore cours sur le marché de l'emploi et sur le marché matrimonial (cf. la chanson de Serge Gainsbourg, "En relisant ta lettre"). L'indignation orthographique a de l'avenir : l'orthographe est un filon éditorial riche d'autant que le Web y ajoute les fautes de frappe (typos, indissociables des claviers et de leur ergonomie), les corrections intempestives des logiciels de correction orthographique / typographique et des moteurs de prédiction (T9), le mélange avec les langues proches, les abréviations qui se propagent au-delà des textos... Orthographe et scrabble aussi (cf. infra, le hors série de Timbrés de l'orthographe, décembre 2016). D'ailleurs l'orthographe est associé aux jeux (cf. Scrabble magazine).
    Pourquoi l'orthographe est-elle si importante ? On peut y déceler des explications sociologiques et politiques mais aussi, avec le numérique, des raisons techniques, donc économiques.
    • Explications sociologiques et historiques
    L'orthographe a une valeur symbolique, Victor Hugo n'identifie-t-il pas que le mal à une "Faute d'othographe de Dieu" (1859) ? Héritée du certificat d'études primaires (CEP, 1866-1989), la dictée a été, avec l'écriture, le premier critère de réussite pour l'éducation scolaire obligatoire. Au CEP, 5 fautes à la dictée était éliminatoire. L'orthographe était avec l'écriture (que l'on évaluait à l'occasion de la dictée) le pilier de la culture scolaire, la faible distinction de ceux qui n'ont pas fréquenté longtemps l'école. La dictée reste déterminante au Brevet des collèges (cf. La dictée.fr). Aussi, réformer l'orthographe risque de dévaluer le capital culturel de ceux qui n'ont pour tout bagage et toute fierté scolaires que de l'avoir apprise et ne l'avoir pas oubliée.
    D'obsession, de crainte, l'orthographe est devenue un divertissement, la dictée un jeu, de celle plutôt mondaine de Mérimée à celle télévisée de Pivot. Timbrés de l'orthographe en est l'illustration. Dans les pays anglophones, des concours existent également, Spelling Bees. La télévision s'est emparée très tôt de la passion orthographique : le premier des game shows, diffusé en 1938 sur la BBC, était consacré aux spelling bees. "Des Chiffres et des lettres", émission lancée en France en 1965, aujourd'hui sur France 3 et TV5, a une forte présence internationale, publie une appli, des jeux de société, etc. En novembre 2012, Mondadori lance un trimestriel "Des chiffres et des lettres magazine".
    • Explications politiques
    Touchant à la langue officielle et à l'enseignement, l'orthographe et ses réformes sont affaire d'Etat(s) ; elles mettent en branle l'Académie française, les institutions de la francophonie internationale, les institutions éducatives, les médias... La question de sa réforme revient régulièrement, sous la pression des administrations scolaires, mobilisant des linguistes, des sociologues : diminuer la difficulté de l'orthographe pour améliorer la réussite scolaire, pour faciliter l'apprentissage de la langue française par les étrangers ? Produit de la tradition et de la convention, résultante de nombreuses couches d'arbitraire sédimentées depuis plusieurs centaines d'années, l'orthographe est même souvent perçue comme un patrimoine à conserver (cf. l'édito du magazine).
    • Orthographe et numérique
    Les médias numériques donnent une dimension nouvelle à l'orthographe car elle affecte les performances des moteurs de recherche lexicaux (10% d'erreurs d'orthographie dans les requêtes, selon Google). Par voie de conséquence, l'orthographe concerne aussi le SEO, à travers l'orthographe des sites, des requêtes, des traductions automatique, imposant à l'exploitation des données lexicales une lemmatisation vigilante (cf. Orthographe. De la dictée au moteur de recherche). Des algorithmes de détection et de correction des fautes d'orthographe sont développés (cf. nécessité d'anticiper les typos et les fautes d'orthographe, ex. Keyword Typo Generator, etc.). La question globale de l'orthographe devra sans doute être repensée dans cette perspective.


    Pour aller (un peu) plus loin
    L'orthographe, plaisir des yeux. Compte-rendu du livre de Bernard Cerquiglini sur L'Histoire de l'orthographe française
    Conseil Supérieur de la langue française, Les rectifications de l'orthographe, 1990
    Spelling correction for Search engine Queries
    Nuance, T9 The Global Standard for Mobile Text Input
    et un film sur les concours d'orthographe aux Etats-Unis : Spellbound, 2002 (Jeffrey Blitz)

    mardi 20 décembre 2011

    Sentiment, réputation, engagement : la fabrique d'une actualité

    .
    Les réseaux sociaux importent, dans le champ du marketing et des médias, des notions et une terminologie qui empruntent à la psychologie morale plus qu'à la psychologie sociale. Notions si courantes et si floues que chacun de nous croit savoir de quoi il est question : engagement, réputation, participation, influence, sentiment. Sans compter les notions, toutes aussi confuses, de "Like" (aimer bien), de "talking about this" (Facebook), de "followers" (Twitter).
    Des dizaines d'entreprises tentent d'évaluer l'engagement, le sentiment envers une marque, la réputation d'un annonceur, à partir des interventions et des traces laissées sur les réseaux sociaux. Terrain magnifique pour les études de marketing et pour les études d'opinion. Le travail de base est d'analyse lexicale (comptage) et de classement sémantique (souvent effectué à la main, de manière empirique). Le marché des études électorales s'empare d'un tel terrain.

    OTUS News (pour "Of The United States"), émission produite par le network ABC exploite les commentaires et autres contenus de Facebook et Twitter (pas de Google+) pour calculer une cote continue des candidats aux postes politiques ("political stock market"). Il s'agit de copier/coller la bourse : la cote défile à l'écran comme un flux instantané de marché (FIM, ticker), comme les scores sportifs (d'ailleurs, il y a aussi un "scorecard" et un compte à rebours - "countdown to"- dans la colonne de droite).
    Pour l'émission, un cocktail à la mode est confectionné : connaissances politiques d'initiés (punditry) relevées d'un trait subtil de média social ("It’s political punditry with a sophisticated dash of social media – a new way to measure who’s up and who’s down in a tumultuous campaign"). Commentaires d'expert et statistiques descriptives pour parer l'élection d'une image scientifique.
    Bluefin Labs assure l'exploitation des données issues des médias sociaux (analytics), dégageant des tendances ("By the numbers", etc.). Du marketing de marque au marketing électoral.

    Au bout du compte, la cote monte ou baisse au gré des déclarations et des événements de la campagne : il se passe toujours quelque chose sur le marché des valeurs politiques (7h-19h ; L-V) donc il y a chaque jour, pour chaque bulletin d'information, quelque chose à commenter, que peut-être d'autres médias reprendront à leur tour, à quoi des politiciens voudront réagir, etc... Donnez-nous le marronnier de chaque jour. Journalisme qui crée son actualité.


    Cette tentative de modernisation de l'opinion publique retrouve inévitablement certains éléments de la critique classique de l'opinion publique :
    • Représentativité : qui fréquente régulièrement (active users) les réseaux sociaux et y publie des opinions ? Quid de l'inégalité des moyens d'expression des opinions. Où sont les non-réponses ? Comment s'exprime l'abstention ? 
    • Risque de bidonnage : de même que les marques invitent les consommateurs à dire qu'ils les aiment, (like), des partis ou groupes de pression peuvent demander aux électeurs de se déclarer en leur faveur. L'émission elle-même risque de susciter des porte-parole se mettant sur le devant de la scène, etc.
    • Risque que le client (candidat, parti politique) retienne abusivement de ces analyses - et le proclame - que l'opinion publique est avec lui ! 
    Conclusion : si les réseaux sociaux sont de formidables médias de ciblage, ils ne peuvent pas, par construction, apporter la même rigueur à la connaissance des opinions et des comportements.

    vendredi 22 avril 2011

    Ciblage lexical et ciblage thématique

    .
    Google Display Network propose un nouveau ciblage thématique (topic targeting). Ce ciblage calcule le thème dominant d'une page (specific topic) à partir des mots de la page afin d'en déduire un thème de ciblage. 1 750 thèmes et sous-thèmes ont été établis. Le ciblage peut être mis en oeuvre pour tout type d'intervention publicitaire : mots clés, bannières, rich media et vidéos. Il procède selon trois niveaux : ciblage large (thème), ciblage plus restreint (sous-thème) et enfin ciblage lexical classique par mot clé (keyword based). Le ciblage mobilise les sélections et les exclusions.

    Comment passe-t-on des mots d'une page aux thèmes et sous-thèmes de cette page ? Une page peut-elle relever de plusieurs thèmes et sous-thèmes ? Comment s'effectue cette opération de sémantisation, de catégorisation ?  "Our system looks at all the terms on a page to determine the topic of the page and is less reliant on particular keywords". Cibler plus largement signifie donc cibler moins précisément. Pour être convaincants simultanément, il semble que ciblage thématique et ciblage par mots clés devraient recourir à des techniques différentes. Sinon, comment différencie-t-on les mots clés des autres mots, moins décisifs, moins discriminants ? Par leur affinité avec le thème de la page, thème défini par les mots ?
    • Ce ciblage thématique est une reconnaissance en acte des limites des mots clés. Le besoin de sémantisation est évident : Google l'approche, selon ses principes constants, par la statistique plutôt que par la linguistique.
    • Pour l'annonceur, l'intérêt du ciblage thématique élargi à la page, serait, selon Google, de créer davantage de notoriété et d'accroître la prise en compte de ses produits et services dans l'ensemble de considération. En tout cas, il s'agit pour Google d'accroître son chiffre d'affaires publicitaires. 
    • Google réinvente le médiaplanning que pratique la presse magazine depuis plus d'un siècle; mais la presse magazine a pour elle l'objectivité de la déclaration intuitive de la catégorie d'appartenance d'un titre (famille, etc.) ou d'une rubrique, positionnement produit par le ciblage délibéré du rédactionnel en amont (que le sommaire enregistre, pour l'essentiel). 
    • A terme, quel effet aura sur le contenu d'une page, sur son lexique, cette nouvelle pratique de ciblage alors que les mots seront inévitablement choisis pour attirer le ciblage et les investissements publicitaires (anticipation rationnelle) ?
    La question sémantique reste posée ; souvent elle dissimule un abus de langage, n'étant que catégorisation à base d'algorythmique lexicale, même lorque l'on évoque des intentions (NetSeer). L'approche par les langues naturelles (NLP, Natural Language Processing) reste une promesse encore non tenue (IA-complet).
    .

    lundi 7 février 2011

    L'expansion du lexique. Les mots du Web

    .
    Au début de février 2011, l'anglais comptait 1 008 879 mots selon le Global Language Monitor (GLM) et 1 022 000 selon la Harvard Google/Study qui a compté les mots présents dans 15 millions de livres et révèle que cet univers lexical est en expansion au rythme de 160 mots par semaine. Ces comptages, pour discutables qu'ils soient, dans leur principe et dans leur marketing, sont sans doute réalistes. Déjà, remarque un lexicologue, il existe au moins un million d'insectes et chacun a son nom...
    En comparaison de ces comptages sur le Web, The Oxford English Dictionary (OED, 1989, papier) ne propose que 301 100 entrées dans son édition de 2005. Ce nombre double (616 500) lorsque l'on prend en compte les mots dérivés, les composés, etc. L'édition en ligne (ODO), libérée des contraintes matérielles (encombrement), croît à  raison de 2 500 mots par trimestre (révisions comprises) et elle s'en tient à la synchronie, l'OED couvrant les aspects diachroniques (évolution des mots). Sur ce dernier point voir OED vs ODO.
    Le GLM a une politique encore plus ouverte que l'OED, acceptant largement tous les mots, y compris ceux issus du tissage de mots anglais avec des mots d'autres langues (chinois, espagnol, hindi, etc.), les termes inventés par le cinéma (hollywords), etc. 
    • Les frontières du corpus qui donne naissance à un dictionnaire sont floues. Qu'est ce qu'un mot qui n'est compris que par quelques uns ? Quand un mot inusité cesse t-il d'être pris en compte ? Quelle fréquence d'usage, quelle extension géographique ? Que faire des mots de spécialistes (sciences, techniques), des régionalismes, des sociolectes et géolectes ? La délimitation est arbitraire ; il n'est pas commode d'établir le périmètre des mots d'une langue.
    • Dans la plupart des cas, on recense les mots écrits, les corpus étant puisés dans des livres, des journaux. Mais les mots que l'on dit, que l'on entend, comment les recenser ? Rares sont les bases de mots issues de l'oralité ; le Français fondamental de Georges Gougenheim élaboré dans les années 1950, à fin didactique, en ce domaine, fut révolutionnaire. 
    • Il ne peut exister d'échantillon représentatif des mots d'une langue car il ne peut exister de base de sondage d'où l'on pourrait tirer des mots de manière aléatoire.
    Le Grand Robert compte 100 000 mots (et 800 000 formes fléchies, soit en moyenne 8 formes fléchies par mot). On on estime que le vocabulaire français passe à 700 000 termes et au-delà lorsque l'on incorpore le français technique et diverses créations lexicales récentes. Ainsi, d'un dictionnaire traditionnel à l'enregistrement de toutes les pratiques présentes par écrit sur le Web, le nombre de mots varie de 1 à 10. 
    Et de touts ces mots, on dit que les Français n'utilisent en moyenne que 3 000 à 30 000, selon leur capital culturel et scolaire.
    • Le lexique d'Internet est 250 fois plus riche que le vocabulaire courant (25 fois plus riche que celui du public dit cultivé). Donc la fréquence des mots est fondamentale, donc leur lemmatisation aussi. Plus la fréquence d'un mot est basse (son rang élevé), plus il est probable qu'il est discriminant (cf. les travaux de Zipf, revus par Benoît Mandelbrot, à partir des résultats de Claude E. Shannon). 
    • Sans lemmatisation, l'orthographe brouille tous les calculs ; la maîtrise de l'orthographe varie selon l'âge et selon le capital culturel, cf. l'échelle Dubois-Buyse). Certaines "fautes" d'orthographe ont une source et une valeur socio-linguistiques (elles ciblent), d'autres sont des fautes de frappe (mais on dit que ces fautes - typo- rapporteraient gros sous la forme de typosquatting !).
    Références 
    Claude E. Shannon, Warren Waever, The Mathematical Theory of Communication, 1949
    François Ters, Georges Mayer, Daniel Reichenbach, L'échelle Dubois-Buyse, 1988
    Pierre Bourdieu et al., Rapport pédagogique et communication, 1968
    Léon Brillouin, La science et la théorie de l'information, 1959 (Editions Jacques Gabay, 1988)
    Benoit Mandelbrot,"Information Theory and Psycholinguistics", in Language by R.C. Oldfield and J.C. Marshall, 1968 pp. 263-275.
    .

    jeudi 25 novembre 2010

    Numérotation des chaînes et linéaire TV

    .
    L'opérateur du câble Comcast et la chaîne Tennis Channel s'opposent à propos du positionnement de la chaîne dans l'offre commercialisée par l'opérateur.
    La chaîne est offerte dans le cadre d'un package optionnel de chaînes sportives alors qu'elle demande à être distribuée dans le service de base (basic tier), ce qui lui donnerait une meilleure chance d'être regardée et surtout lui permettrait d'être mieux rémunérée par l'opérateur (sa rémunération dépend du nombre d'abonnés à Comcast qui reçoivent la chaîne). Tennis Channel fait remarquer que deux chaînes de sport, Golf Channel et Versus (chaîne multi-sport), qui appartiennent à Comcast sont placées dans le package basic accessible à tous les abonnés. Tennis Channel y dénonce une discrimination (carriage discrimination). parmi les packages et donc sur la numérotation du canal affecté à la chaîne (lineup). Incapables de s'accorder, Comcast et Tennis Channel attendent l'arbitrage de la FCC.
    • Ce conflit doit être lu dans une double perspective 
      • La fusion NBCU / Comcast. Certains y voient une préfiguration de ce que donnerait une concentration des pouvoirs distributeur / détenteur de contenus : la mise en danger d'une sorte de neutralité de la distribution. Tennis Channel compte profiter de ce contexte.
      • Le lancement de Google TV. Avec Google TV, ou tout moteur de recherche TV, la numérotation, et le nom de la chaîne ne viennent plus qu'au second rang pour le téléspectateur qui choisit son programme à l'aide de requêtes (mots). Le moteur lui permet de trouver et sélectionner des émissions en fonction de leur description (thèmes, acteurs, horaires, etc.), et bien sûr de leur référencement (naturel et payant). Le nom de la chaîne et, a fortiori, son numéro, ne sont qu'un élément taxonomique faible (par opposition à film, sport, documentaire, etc.) auquel succéderont de facto des outils folksonomiques.
    • Ce conflit laisse entrevoir la remise en question prochaine de la logique commerciale du linéaire TV et du référencement des produits vidéo par le distributeur (le basic est comme une tête de gondole). Tennis Channel réclame un meilleur positionnement, une meilleure visibilité par les téléspectateurs. Google TV fournit au distributeur le moyen de gérer son offre plus simplement et plus rationnellement dans l'intérêt du consommateur. On voit poindre la remise en chantier de la politique des prix pratiqués par les distributeurs : le paiement des chaînes intervenant plutôt, par exemple, en fonction de la durée de consommation, que du nombre théorique d'abonnés (cf. initialisation). La notion de "package" (tier, etc.) ne survivra pas longtemps à la remise à plat des offres vidéo par les moteurs de recherche, pas plus que celle, parente et tout aussi surannée, de "portail" que s'efforcent, sur le Web, de faire survivre quelques distributeurs.

    mardi 18 mai 2010

    écoMédia, école en vert

    .
    Le groupe média américain CBS vient d'acquérir la société EcoMedia dont le métier est la mise en place de partenariats incluant une dimension écologique. De nombreux médias de CBS ont participé à de tels partenariats locaux (TV, radio, affichage, Internet) au cours des trois années passées.
    Ces partenariats constituent en réalité des opérations publicitaires. Nombre d'entre eux incluent des participations scolaires telle la CBS-EcoZone Green Schools Initiative (notamment à Miami, mais aussi à Chicago et San Francisco) qui associe des écoles à Procter and Gamble. Un élément de plus dans la panoplie des médias publicitaires, d'autant plus efficace qu'il n'a pas l'air publicitaire, drapé de vert, d'éducation et d'enfance.
    • Comment évaluer les retombées d'un montage si complexe et si hétérogène ? Un seul moyen permet d'établir le bilan global d'une telle action, bilan immédiat et dans sa durée, synchronique et diachronique : l'analyse des effets observables sur Internet, tant en quantité (nombre de connexions, durée, etc.) qu'en qualité (analyse des traces linguistiques, des émergences lexicales et sémantiques).
    • Le Cheval de Troie écologique ouvre la voie des institutions éducatives aux annonceurs. Dans cette affaire, c'est l'école qui fait la publicité des annonceurs, habillés de vert pour l'occasion.  Quel meilleur faire-valoir que l'école ? Espérons qu'elle fait payer très cher ce soutien inestimable !
    .

    lundi 26 avril 2010

    Three French Women's Magazines

    .
    The press is in jeopardy. Impossible to ignore such a statement, which is all over... the press.
    Is all the press in trouble? Of course not!
    The magazine market, which has always been very strong in France, seems to remain healthy and creative. All in all, if we take every press segment into account (free and paid), more than 700 new titles were launched in France in 2009 - mostly magazines (Source: Base MM). According to our data (which seems to correspond to most of the observations by Presstalis), some segments are doing well, even very well: women's, history, culture, transportation, nostalgia, comics and mangas, cooking and gastronomy, arts and crafts, educative...

    The most recent good surprise comes from the women's segment with the launch of three weeklies.
    • Grazia (August 2009, Saturday, 1 /1.50 €), French adaptation of a European magazine published by Mondadori: 187,000 copies sold (OJD, French ABC).
    • Be (March 2010, Friday, 1.50 €) published by Lagardère: 220,350 copies sold for the first four issues, 36 ad pages per issue  (source: Lagardère). Sold with Elle at a promotional price (2.50 €) instead of 3.50 €
    • Envy  (February 2010, Thursday, 1.70 €) published by Marie Claire Group. 240,000 copies sold (OJD/ABC). 
    • But there is a major failure: Femmes (Prisma / Grüner und Jahr) dedicated to women and luxury, launched in May 2008, did not make it (80,000 copies / OJD) and is currently closing 2 years after.
    People, fashion and beauty... One can find everything in such magazines: in fact, magazines return to their etymology (store, magasin); they are like a department store.
    But in comparison with older magazines which became digital only at maturity (Elle, Marie-Claire, Biba, Femme Actuelle, etc.), these three new magazines are born with a double life, paper in the newsstand, digital on the net.
    They all have a website, a page on Facebook, on Twitter, an iPhone app, blogs, newsletters, etc. They also have their own online boutique (catalog, coupons). They all want to "engage" the reader, build communities, fan clubs. They each propose video, audio, ("song of the day"), etc. At this point of their life cycle they use catch-all marketing and testing. Waiting to see what will succeed. Nobody knows. Full-scale testing, live. Even the pricing is being tested.

    What will be done with the data collected, on-line and off-line? What kind of behavioral targeting, of retargeting? Lots of research is necessary to take advantage of this double flow of data. What will be done with so many words, all these women's words? A researcher's dream!

    Talking about words, it is surprising to notice the number of English expressions (now generation, Be/bees, gossip, Be on air, etc.), how does this use of English work with search engine optimization?
    Is this really the way women talk? Or is it just French journalese?
    .

    samedi 19 juillet 2008

    Baidu : l’exception culturelle 百度更懂中文

    .
    Baidu est le premier moteur de recherche de l’Internet chinois : 60 % des recherches en Chine sont effectuées avec Baidu. La Chine est le premier pays au monde pour Internet, devant les Etats-Unis.
    Comment Baidu a-t-il résisté à Google alors qu’en France, par exemple, Google détient plus de 90% de part de marché, ne laissant que des miettes aux moteurs issus de cultures européennes ?
    Pour expliquer cette réussite, la direction de Baidu rappelle l’origine de la marque "Baidu" : mot à mot, Baidu signifie « très nombreuses fois », (百度 évoque un poème classique de la dynastie Song ("青玉案·元夕", 960-1279), écrit par 辛弃疾 (Xin qiji). Le poème décrit la recherche de l’âme sœur par un jeune homme, qui finit par la retrouver, après de nombreuses recherches, dans le chaos de la vie et de la ville. Imaginons un moteur de recherche européen qui devrait son nom à Du Bellay ou Pétrarque...

    百度更懂中文 : "Baidu sait mieux le chinois" 


    Baidu sait mieux le chinois que les Américains : c’est le thème d’un message publicitaire de Baidu diffusé à la télévision chinoise et sur Internet. Ce message illustre un tournant symbolique dans les rapports de forces culturels. 
    Dans ce message, un jeune lettré du XVème siècle (Tang Bohu, (唐伯虎 de la dynastie Ming) s’oppose à un Américain. Le duel littéraire consiste à ponctuer un texte en vue d’une récompense. Ce duel de lecteurs suppose une maîtrise parfaite de la segmentation. Google et Baidu se sont affronté sur la question du segmenteur.
    L’Américain, tout droit sorti d’un western, propose une lecture simpliste ; le jeune lettré entre en scène, s’esclaffe et administre, pinceau à la main, une leçon de segmentation : la segmentation est un problème clé pour un moteur de recherche en chinois où le même espacement sépare les "mots" et les caractères qui composent les mots (中文分词技术). Le texte affiché juxtapose trois fois en quatre colonnes les expressions "Je sais / Tu ne sais pas" (我知道你不知道). Avec ces caractères, sans changer leur disposition, on peut former nombre d'énoncés différents, selon la segmentation : "Moi, je sais ; toi tu ne sais pas. Je sais que tu ne sais pas, etc."
    Baidu revendique la tradition culturelle au service du numérique, la culture particulière plutôt qu'une méthode universelle. Résistance culturelle et positionnement marketing vont de pair.

    Universalité et uniformité
    Comme l’Encyclopédie de Diderot et D’Alembert fondait les Lumières, les moteurs de recherche, outils de classement et d’exposition (indexation), universalisent l’accès aux cultures. Mais une culture ne peut être séparée ni de son organisation ni de sa langue. Un moteur de recherche ne peut se penser hors d'une langue et d'une culture, culture qui ne peut sans dommage être réduite à un stock lexical, tout comme le font également les outils de traduction automatique associés aux moteurs de recherche.

    La solution : multiplier les moteurs au service de la diversité langagière. Dans ce domaine, comme l'établit François Jullien : "le châtiment de Babel, c'est la nécessité de traduire qui met au travail les cultures entre elles"(De l'universel, de l'uniforme, du commun et du dialogue entre les cultures, p. 248). Cette affirmation vaut pour les moteurs de recherche dont l'objectif n'est pas d'effacer les différences mais plutôt d'en rendre compte (de même que traduire doit faire valoir les différences et non les abolir).

    La part de marché de Google dans les recherches effectuées par les internautes est un symptôme : un même moteur de recherches, hégémonique, applique à des langues différentes une seule et même méthode, issue d'une seule langue. Le châtiment de Babel s'avère ainsi une bénédiction, une opportunité. Il invite l'organisation sociale à construire la concertation des différences plutôt que l'uniformité.

    谢谢,岚
    .