lundi 28 février 2011

Guide TV toujours



Le programme des émissions de télévision demeure un argument de vente pour la presse quotidienne. D'ailleurs, du people aux programmes, une grande partie de la presse imprimée se nourrit de télévision.
Aujourd'hui en France (quotidien national du groupe Amaury, version dé-régionalisée du Parisien, Diffusion Payée France, 170 000 exemplaires) a lancé son guide télévision qui sera publié chaque samedi, inséré dans le journal. Présenté comme "supplément gratuit", il donne les programmes de la semaine qui commence le dimanche suivant : 4 pages people, 3 pages de jeux, 2 pages de pub (dont 1 pour une chaîne TV).

Observons l'analyse que la rédaction effectue en acte de l'offre "populaire" de télévision, telle que l'objective sa présentation des programmes :
  • Page synoptique des programmes de prime time de la semaine (p. 20) : les 6 chaînes historiques ((TF1, F2, F3, C+, ARTE /F5, M6)
  • Chaque jour :
    • En première ligne, 8 chaînes : les 7 chaînes "historiques" plus TMC
    • En seconde ligne, 7 chaînes TNT : Direct8, Direct Star, W9, NT1, F4, NRJ, Gulli
    • En encadré minuscule, 2 chaînes de type info, iTV, BFM et les chaînes parlementaires
    • En encadré, 14 chaînes câble et satellite...
    • Le reste (dont les chaînes en langues étrangères, LCI et France Ô) est rejeté aux ténèbres extérieures, livré à l'enfer du zapping et au guide de programme électronique.
Tout est dit par ce classement, y compris les audiences. Guide TV pour médiaplanners ?.
..

Diplomatie par temps numériques

.
Internet transforme la communication. A force d'être obnubilés par les médias traditionnels, qui, en comparaison, ne vont pas si mal, on en oublierait de regarder là où le numérique fait mal, radicalement, définitivement : l'organisation et la gestion politiques, l'éducation, l'administration, entre autres. Par exemple, la diplomatie.

Après les révélations de Wikileaks, les transformations politiques en cours dans le Maghreb et le Moyen-Orient offrent le spectacle navrant, honteux parfois, de l'inefficacité et des errements des activités diplomatiques. Faillite lisible ces jours-ci dans la plupart des médias.

Faut-il encore entretenir des représentations politiques croisées en des centaines de pays, y compris les pays européens ? Faut-il y maintenir les complicités et les connivences que cela implique nécessairement avec des dictatures, pourrissantes ou triomphantes ? Ce système régalien, avec ses protocoles archaïques et son théâtre, est cher, contre-productif et compromettant.
Internet, Web et télécoms autorisent une communication politique directe, complète, continue, multimédia, agile et transparente. Partage de documents, collaboration en ligne, assistance langagière (interprétation et traduction), archivage, classement : dans les entreprises, ceux qui gèrent des activités internationales savent travailler avec ces moyens.

L'influence de la France dans le monde n'est pas celle de ses ambassades : c'est celle de ces laboratoires, de ses entreprises, de ses produits, de ses armées, de ses lois ("des arts, des armes et des lois" !).
Quels outils de travail pour "l'action extérieure de l'Etat" à l'époque d'Internet ? Avec la mondialisation, est-il encore une action politique, économique qui ne soit extérieure, et, à tout le moins, européenne ?
.

vendredi 25 février 2011

Le Canard : notre wikileaks hebdo

.
On ne lit jamais d'assez près le Canard Enchaîné. C'est l'un des antidotes à l'ingestion chronique de célébrations, au détournement d'attention qui nous assiège. On a beau lire, veiller, mettre en place des alertes, explorer les tweets, s'abonner à des flux RSS... chaque semaine, la lecture du Canard indique ce qui a échappé à notre enquête constante sur l'actualité des médias. Le Canard, c'est le contrepoint de l'info, c'est ce qui manque à l'info pour être de l'info. C'est l'indication de la censure du champ médiatique par lui-même.
Cette semaine, par exemple, et je n'épingle que quelques cas, et m'en tiens à ce qui est explicitement média :
  • sur le Wimax (p. 4)
  • une collecte de fonds patronaux pour la création de "grands médias catholiques", dont une plateforme Internet p. 4
  • le retrait d'une affiche écolo du métro (p. 5)
  • la recension d'une biographie de journaliste collabo (Jean Fontenoy) p. 8.
  • la recension d'un docu consacré à Justin Bieber ("Never Say Never") p. 6
  • Facebook et "fesses boutées" p. 8
Et la rubrique hebdomadaire "Canard +", p. 7.

.

samedi 19 février 2011

Plus belle la vie (PBLV), média total

.
Magazine lancé en janvier comme hors-série du guide de programmes TV Télé-Loisirs (Prisma / Bertelsmann). Prix facial : 4 €, pour 116 pages. La mise en place du premier numéro, déclarée par l'éditeur, est de 200 000 exemplaires. Distribution par Presstalis, placé en pile dans le linéaire "Télévision", à côté de Télé-Loisirs. Peu de promotion, juste un peu de PLV ; vendu comme "collector".

Le magazine est consacré à l'émission diffusée du lundi au vendredi sur FR3 où elle réunit en plein prime time (20H10), en face des journaux de Farnce 2 et TF1, plus de cinq millions de téléspectateurs qui regardent vivre les habitants du Mistral, quartier imaginaire de Marseille (où l'émission est tournée), avec sa prison, son commissariat, son bistro, son parc... L'émission co-produite par Telfrance et Rendez-vous Production, a été lancée en été 2004. Elle est diffusée aussi sur France 4 en access (17h05), en Belgique (ladeux), en Suisse (TSR 1) et en Tunisie (Nessma TV) ; l'émission est également accessible en VOD et en DVD. Au total, déjà plus de 1 800 épisodes.
L'émission est servie par de nombreux produits dérivés :
  • des livres (les romans du feuilleton, une BD, un livre de cuisine, un livre documentaire), 
  • un jeu de société, des jeux vidéo, des CD, une appli de jeux pour iPhone (0,79€) 
  • un mensuel (avec DVD) qui a cessé sa diffusion en décembre 2010 et que remplace ce nouveau magazine, 
  • un site officiel avec une boutique en ligne, et aussi un site "non officiel" de fans, un site pour les fans belges, une présence sur Facebook, sur Twitter, etc
  • des T-Shirts, des mugs, des casquettes, etc. et même un scooter aux couleurs de l'émission, MIO (Sym) ! 
Ce magazine est un exemple presque idéal-typique d'un média de médias. Le cinéma, la télévision sont grandes pourvoyeuses de contenus pour la presse, qui la reflète et dont elle profite, non sans hyprocrisie : sans télévision, pas de people ! Avec ce feuilleton, sorte de sitcom / soap opera (du genre "All in the Family"), les téléspectateurs regardent vivre des familles dans leur quotidien. On n'est jamais loin du roman-photo. Avec son audience régulière, ce format se prète bien à un prolongement magazine. Comme le site, le magazine fait voir le hors-champ sans trop céder à la tentation de la distanciation. Making-of, "stars des coulisses", etc.
La mise en page du magazine emprunte aux habitudes des réseaux sociaux (cf. "le mur Facebook du Mistral" où l'on s'exprime en termes de SMS). Un peu de déco, des pages cuisine, musique / cinéma, des tests prospectifs, mots flêchés et sudoku, horoscope. Rien ne manque, sauf la publicité. Ce premier numéro n'en comporte, et s'en tient à des promotions des titres du groupe Prisma.

Cet ensemble médiatique invite à reconsidérer les classifications des médias. Au centre, il y a une émission qui imite la vie, quotidienne, et attire des millions de téléspectateurs. Autour de ce média, circulent des médias ancillaires, multiplicateurs d'images et instigateurs d'usages, prolongeant et amplifiant l'émission par tous les sens (lecture, vidéo, musique, objets) et enfin, s'entretissant, les outils numériques redoublent l'ensemble, invitent à l'action (fans, personnalisation, achats). "Plus belle la vie" peut être qualifié de média total, pluridimensionel, en détournant, mais pas tant que cela, la notion de "fait social total" (Marcel Mauss : fait "où s'expriment à la fois et d'un coup toutes les institutions"). On gagnerait à l'appréhender dans sa totalité, tant au plan de la production que de la consommation et de ses usages publicitaires (médiaplanning, mesure d'efficacité).
.

vendredi 18 février 2011

La radio se mesure au téléphone

.
La mesure de la radio peut s'affranchir des enquêtes déclaratives en recourant au téléphone portable (3G).
C'est ce que teste Ipsos MediaCT avec le MediaCell à Londres, aux Etats-Unis et en Italie. MediaCell recourt à la technique des "false echoes" insérés dans le signal radio (techniquede type watermarking : signal non audible).
Aux Etats-Unis, Arbitron recourt au Portable People Meter (PPM), appareil qui reconnaît un élément de code inséré par la station dans le signal et enregistre les consommations des panélistes acceptant de garder sur eux ou proche d'eux cet appareil, dans tous les instants de leur vie. Que ce PPM puisse être avantageusement remplacé par un téléphone portable semble évident et les tests effectués par Arbitron sont positifs ; pourtant, plusieurs objections techniques sont évoquées :
  • La fiabilité inégale des micros des smartphones : leurs micros doivent être assez sensibles pour reconnaître sans erreur le signal radio capté là où se trouve le panéliste et l'affecter à la bonne station, 
  • L'espérance de vie  trop brève de la batterie.
Ces améliorations techniques, importantes assurément, étant mises en oeuvre, trois questions resteront entières qu'il importe d'autant plus de noter que ces deux méthodes s'étendent à la mesure de l'audience TV (profitant des économies d'échelle abaissant les coûts unitaires : un seul panel pour deux médias).
  • La pénétration encore insuffisante des smartphones. 
  • Le problème du recrutement des panels. Les difficultés rencontrées aux Etats-Unis par Arbitron pour faire accréditer le PPM par le MRC tiennent aux difficultés de recrutement des panels.
  • La définition nouvelle de l'audience qu'induit ce type mesure est plus large que celle des enquêtes déclaratives. L'audience mesurée au terme d'une enquête téléphonique ou par carnet d'écoute, sut une définition essentiellement consciente, choisie de l'écoute. En revanche, l'audience mesurée par le PPM et par toute enquête passive, résulte d'une définition de facto plus large, incluant l'audience non consciente, non choisie (radio entendue dans un taxi, dans un bistrot, etc.).
  • fin, il restera encore à prendre en compte l'audience de la radio avec les téléphones portables (dont applis), et avec les ordinateurs.

mardi 15 février 2011

Supply-side journalism


Tackable crowdsources parts of its reporting, asking readers to provide photos via cell phones. Photo assignments for 34 newspapers from the San-Francisco Bay Area. People can see these assignments on a map (see the explanation in this YouTube clip) published by an app from Tackable.

The platform hopes to attract amateur photographers who look to share in an event, with perhaps a slight incentive. The photos are rights-free and can be used by the newspapers.
Sounds a lot like Foursquare, except it is the newspapers which take the initiative (demand-side).

A new economic model for the press: lots of free labor, geographically distributed and very involved.


lundi 14 février 2011

Mesure des audiences et cookies

.
Le serveur de publicité (adserver) de Mediamind (ex. Eyeblaster) vient d'être accrédité par le MRC (Media Rating Council, équivalent américain du CESP) pour son estimation du nombre de visiteurs uniques (couverture) et sa fréquence moyenne (répétition moyenne). Cet audit s'étend aux messages publicitaires rich media et vidéo (cf. communiqué de presse).
Les données "données" par Mediamind, et auditées, prennent en compte les effets du rejet ou de la suppression éventuels de cookies par les internautes, les effets des dates d'expiration, des différents types de cookies, de la multiplication des navigateurs sur un même ordinateur, etc. Redressements, modélisation, ajustement ? A voir, de près.
Cette accréditation constitue un événement pour la mesure de la fréquentation du Web, elle renforce la pertinence des mesures sur sites (site centric) en apportant des réponses aux objections courantes. Elle est d'autant plus importante que divers modes de suppression des cookies sont désormais proposés par les navigateurs et par les sites mêmes, sans que l'on sache ce que font les internautes (cf. les débats autour du "Do not track", de la FTC).
On ne peut s'en tenir sans examen aux évaluation non accréditées de comScore (par exemple) qui affirme que, du fait de la suppression des cookies, les mesures site centric inflatent les audiences (de 2 à 3 fois, selon une étude comScore menée en Australie). Selon cette étude, la couverture serait surestimée 5 à 6 fois par les serveurs de publicité du fait du recours aux cookies ; la répétition serait sous-estimée dans un même rapport. Les taux de transformations seraient également sous-estimés.

Cette "première" américaine MRC / Mediamind invite l'inter-profession à poursuivre et approfondir le travail entrepris. Deux types d'initiatives pourraient rendre service aux annonceurs, aux agences média :
  • Un examen scientifique et technique des méthodologies mises en oeuvre respectivement par Mediamind et par l'audit présidant à l'accréditation du MRC. On ne peut se fier a priori à un "algorithme mathématique sophistiqué" sans vérifier ses effets à partir de montages et de simulations en labo.
  • Des travaux statuant sur le taux d'effacement ou d'évitement des cookies (selon le type de cookies, etc.) permettant de proposer une mesure opérationnelle et continue des audiences des sites, concurrente de celle des panels qui pèchent par d'autres biais (cf. le web sans mesure hors domicile). 
  • La confrontation des mesures et le libre examen des méthodologies (transparence) ne peuvent être que salutaires au développement et à la rationalisation du marché publicitaire. La possibilité de recourir à deux méthodologies de cadrage publicitaire peut abattre des barrières à l'entrée dans le marché des plus petits acteurs du Web et améliorer l'efficience du marché publicitaire.

dimanche 13 février 2011

Borders empêtré dans la transition numérique

b.
Borders est, avec Barnes and Noble, l'une des grandes chaînes de librairies américaines ;  incapable de refinancer sa dette, elle est en dépôt de bilan (Chapter 11). Résultat d'une accumulation d'incompétences des directions et de mauvais choix (exportation, gestion financière, immobilière, etc.) ; en période de transition, ces incompétences ne pardonnent pas.
Constituée dans les années 1970 à partir de Ann Arbor (Michigan), Borders a compté plus de 1 200 librairies ; aujourd'hui, elle en compte 509 grandes et 169 petites (dans les aéroports, etc.) passant de 35 000 à moins de 20 000 employés, et sans doute moins à l'avenir (on parle de la suppression de un tiers des magasins et de 6 000 emplois).
Storytime et Wi-fi dans une librairie Borders (Waterford, Connecticut)
Cet effondrement constitue un cas édifiant de passage mal piloté d'une économie matérielle à une économie partiellement numérique.
Entre autres erreurs de Borders, la plus incroyable aujourd'hui, est d'avoir confié ses activités numériques à Amazon en avril 2001, pour ne les reprendre qu'en 2008. Pendant ce temps, la concurrence développait des lecteurs électroniques (e-reader) : Amazon, le Kindle (2007) et Barnes and Noble, le Nook (2009). Depuis Borders a passé un accord avec Kobo pour la distribution d'un e-reader et de e-books. Le retard de Borders suite à cette malheureuse décision ne se rattrapera pas aisément.


Mise à jour octobre 2011
Après le dépôt de bilan de Borders, ses activités numériques ont été rachetées par Barnes and Noble pour 13,9 millions de dollars : le site Web, les activités Twitter et Facebook, et le fichier clients.


Bien sûr, on évoque les effets des transformations technologiques, comme pour le marché de la musique et de la vidéo. Mais ces effets sont sur-déterminés par d'autres aspects propres à la librairie :
  • Le déclin des outils traditionnels de la culture scolaire (dictionnaires, encyclopédies) ;
  • Le prix de livres dont on ne comprend pas qu'ils ne soient pas publiés immédiatement en livres de poche (paperback) pour attirer le très grand public ;
  • Des partenaires (édition) et des prescripteurs (enseignants, presse) souvent conservateurs freinent l'évolution numérique ;
  • Un urbanisme commercial mal adapté. La plupart des petites librairies se contentent d'offrir des best-sellers au grand public et se diversifient dans les gadgets. Les acheteurs plus exigeants demandent une offre plus large (les grandes surfaces de type Borders et Barnes and Noble ont 100 à 170 000 titres en stock). Ne trouvant pas ce qu'ils cherchent, les clients se tournent vers la vente par correspondance, Amazon (plus de 2,5 millions de titres), Barnes and Noble (plus d'un million de titres) mais aussi vers de nombreuses petites librairies spécialisées).
Aux Etats-Unis, ces grandes librairies font tout ce qui est possible pour atttirer et retenir la clientèle, et notamment la clientèle familiale ; elles offrent des coins confortables pour lire (certains clients les utilisent comme des bibliothèques), des connections Wi-Fi, des sections adaptées aux jeunes enfants et aux parents, des animations (conférences d'auteurs, lectures pour enfants), de vastes linéaires presse, des sections musique (CD) et vidéo (DVD), de la papeterie (calendriers, posters, cartes de voeux, etc.), un rayon scolaire (required readings) et des toilettes propres avec un endroit pour changer les bébés. Le système de commandes est efficace (on peut commander pour voir, sans obligation, recevoir les livres achetés dans la librairie ou à domicile). On y trouve un coin café avec boissons, sandwichs, pâtisseries (accord Starbucks / Borders). Tout traduit la volonté de reconstituer des lieux de vie accueillants (cosy), une ambiance propice à la lecture, à la rencontre, à la flânerie dans les rayons, favorable à l'achat. Il y a un public pour cela.
.

samedi 12 février 2011

Le Web sans mesure hors domicile

.
Certaines enquêtes de mesure des audiences du Web appliquent à ce média les principes et les habitudes prises depuis des décennies avec le télévision : enregistrer les comportements de fréquentation des sites Web par des panels d'Internaute depuis les ordinateurs de leur domicile.
Connection au Web dans les entreprises
Apprécier selon la même méthode l'audience hors domicile (entreprises, établissements scolaires et universitaires) est une autre histoire. Comment panéliser des internautes sur leur lieu de travail ? Tout travaille contre : les DSI des entreprises, garantes de la sécurité des réseaux de l'entreprise refusent les installations de logiciels ou de barres d'outils remontant des informations sur l'activité dans l'entreprise. De leur côté, employés, enseignants et étudiants sont réticents, par principe, à laisser observer leur consommation.
Quant à disposer des comportements de fréquentation d'Internet pour une même personne au domicile et dans son entreprise (privée ou publique) ou à l'université, et les conjuguer, c'est mission bien difficile. Et en plus de tout cela, il faut satisfaire aux contraintes de représentativité énoncées par les études de cadrage (types et tailles d'entreprises, secteurs d'activité, fonction occupée dans l'entreprise, ancienneté, etc., et variables socio-démographiques habituelles).

L'utilisation du Web et d'Internet hors domicile ne cesse de progresser, et il est probable qu'elle est déjà supérieure à la consommation au domicile. L'"Enquête sur les technologies de l'information et de la communication et le commerce électronique" menée en France par l'INSEE permet d'approcher l'ampleur de la consommation du Web dans l'entreprise (Insee Résultats N°52 Economie - février 2011). Il apparaît que plus de la moitié des personnes dans les entreprises de plus de 10 salariés utilisent régulièrement un ordinateur connecté à Internet (France métropolitaine, en 2009). Dans plus de 90% des cas, il s'agit d'une connection haut débit. A une enquête en ligne d'OpinionWay (CAWI, 1 154 salariés du privé et du public) pour les Editions Tissot, 45% des salariés et en particulier 78% des cadres déclarent consulter Internet à titre privé pendant les heures de travail.
Dans ces conditions, qui ne feront que s'amplifier, on ne voit pas comment un panel pourrait rendre compte des fréquentations d'Internet et du web au travail, a fortiori distinguer les usages privés des usages professionnels. Or il est vraisemblable que cette fréquentation sur le lieu de travail représente pour la plupart des personnes actives la majeure partie de leur fréquentation du Web. Quant à l'université, la fréquentation d'Internet par les étudiants est proche de 100%. Et, bien sûr, pour ne rien simplifier, Web mobile et immobile se mélangent constamment, tant pour les populations de cadres que d'étudiants.

Un tel déficit de connaissance sous-estime assurément l'importance du Web ; et il est certain qu'il affecte, à la baisse, son utilisation publicitaire.
.

mercredi 9 février 2011

Super Bowl: Greeen Bay, Wisconsin

.
Les Packers ont gagné le Superbowl. Green Bay, DMA 70. Ce pays de forêts, de neige et de lacs n'est guère connu, hors du Midwest, que par son équipe de football, crée en 1919, du temps des "small town teams". Elle a gagné les deux premiers Super Bowl (1967, 1968). Cette quatrième victoire représente une formidable promotion pour cette région agricole vouée au tourisme (pêche, chasse, sports de neige, randonnée) et à l'industrie du bois. Marquette, Eau-Claire, Marinette, Fond-du-Lac, beaucoup de noms rappellent la présence de commerçants français dès le 17ème siècle. Si la région est connue pour les cranberries et le sirop d'érable, ingrédients essentiels de la gastronomie américaine, sur les plaques d'immatriculation du Wisconsin, on vante l'America's Dairy Land ; d'ailleurs, l'emblème des Packers est un "cheesehead hat".

Blouson des Packers
Ce 45ème Super Bowl diffusé par le network Fox améliore le record de l'audience : 111 millions de téléspectateurs en moyenne (source : Nielsen), 163 millions de personnes ayant regardé un moment quelconque du match (audience cumulée TV). C'est une victoire de la télévision grand public alors que l'on ne parle que VOD, Internet, smartphones et délinéarisation. C'est une victoire de l'événement télévisuel, puisque presque un foyer sur deux a regardé le match à la télévision (46% mais ce taux était de 49% en 1996). Moindre pénétration mesurée, mais sans doute le match a-t-il été regardé sur des supports non pris en compte dans le panel audimétrique (Web, différé, bars, etc.).

Cette édition confirme qu'il n'y a pas de concurrence Web / TV mais des complémentarités plus ou moins complexes, plus ou moins maîtrisées, des synergies concernant aussi bien les programmes que la publicité. On a beau le savoir depuis des années, cet événement le rappelle avec éclat. L'important est justement la construction artificielle d'un événement sportif et publicitaire et son amplification par tous les médias. La télévision est au coeur du dispositif pluri-média, elle est la résultante de toutes les forces en jeu. Internet et les réseaux sociaux ont sans doute contribué largement à cette audience télévisuelle, mais on ne sait pas mesurer cet effet, de même que l'on ne sait à quels facteurs attribuer ce record d'audience. Cf. l'activité record sur Twitter aussi : plus de 4 000 tweets par seconde (TPS) en fin de match.
Des annonceurs ont diffusé leurs messages sur Facebook, Twitter et YouTube, sur leur blog aussi : Pepsi, Volkswagen, Doritos... Le message Volkswagen aurait été vu, selon l'annonceur, 14 millions de fois avant le match... Doritos aurait été la marque aurait été la plus discutée sur Twitter, sans que l'on puisse raisonnablement décider du signe de cette notoriété. De son côté, Foursquare déclare plus de 200 000 check-ins à l'occasion de réunions pour regarder le Super Bowl.
Aux côtés des traditionnels Nielsen, la mesure de l'audience des messages publicitaires voit rivaliser TiVo (analyse des comportements observés grâce à l'enregistreur numérique), Hulu (vote des téléspectateurs sur le site de VOD gratuite) et AdMeter du quotidien national USA Today (vote également)Rentrak qui recourt à un panel de 17 millions de foyers (set top boxes) souligne la qualité de l'attention portée aux messages publicitaires (Ad Retention Index). Le Super Bowl est aussi un festival de la mesure de l'audience de la publicité.
.

lundi 7 février 2011

L'expansion du lexique. Les mots du Web

.
Au début de février 2011, l'anglais comptait 1 008 879 mots selon le Global Language Monitor (GLM) et 1 022 000 selon la Harvard Google/Study qui a compté les mots présents dans 15 millions de livres et révèle que cet univers lexical est en expansion au rythme de 160 mots par semaine. Ces comptages, pour discutables qu'ils soient, dans leur principe et dans leur marketing, sont sans doute réalistes. Déjà, remarque un lexicologue, il existe au moins un million d'insectes et chacun a son nom...
En comparaison de ces comptages sur le Web, The Oxford English Dictionary (OED, 1989, papier) ne propose que 301 100 entrées dans son édition de 2005. Ce nombre double (616 500) lorsque l'on prend en compte les mots dérivés, les composés, etc. L'édition en ligne (ODO), libérée des contraintes matérielles (encombrement), croît à  raison de 2 500 mots par trimestre (révisions comprises) et elle s'en tient à la synchronie, l'OED couvrant les aspects diachroniques (évolution des mots). Sur ce dernier point voir OED vs ODO.
Le GLM a une politique encore plus ouverte que l'OED, acceptant largement tous les mots, y compris ceux issus du tissage de mots anglais avec des mots d'autres langues (chinois, espagnol, hindi, etc.), les termes inventés par le cinéma (hollywords), etc. 
  • Les frontières du corpus qui donne naissance à un dictionnaire sont floues. Qu'est ce qu'un mot qui n'est compris que par quelques uns ? Quand un mot inusité cesse t-il d'être pris en compte ? Quelle fréquence d'usage, quelle extension géographique ? Que faire des mots de spécialistes (sciences, techniques), des régionalismes, des sociolectes et géolectes ? La délimitation est arbitraire ; il n'est pas commode d'établir le périmètre des mots d'une langue.
  • Dans la plupart des cas, on recense les mots écrits, les corpus étant puisés dans des livres, des journaux. Mais les mots que l'on dit, que l'on entend, comment les recenser ? Rares sont les bases de mots issues de l'oralité ; le Français fondamental de Georges Gougenheim élaboré dans les années 1950, à fin didactique, en ce domaine, fut révolutionnaire. 
  • Il ne peut exister d'échantillon représentatif des mots d'une langue car il ne peut exister de base de sondage d'où l'on pourrait tirer des mots de manière aléatoire.
Le Grand Robert compte 100 000 mots (et 800 000 formes fléchies, soit en moyenne 8 formes fléchies par mot). On on estime que le vocabulaire français passe à 700 000 termes et au-delà lorsque l'on incorpore le français technique et diverses créations lexicales récentes. Ainsi, d'un dictionnaire traditionnel à l'enregistrement de toutes les pratiques présentes par écrit sur le Web, le nombre de mots varie de 1 à 10. 
Et de touts ces mots, on dit que les Français n'utilisent en moyenne que 3 000 à 30 000, selon leur capital culturel et scolaire.
  • Le lexique d'Internet est 250 fois plus riche que le vocabulaire courant (25 fois plus riche que celui du public dit cultivé). Donc la fréquence des mots est fondamentale, donc leur lemmatisation aussi. Plus la fréquence d'un mot est basse (son rang élevé), plus il est probable qu'il est discriminant (cf. les travaux de Zipf, revus par Benoît Mandelbrot, à partir des résultats de Claude E. Shannon). 
  • Sans lemmatisation, l'orthographe brouille tous les calculs ; la maîtrise de l'orthographe varie selon l'âge et selon le capital culturel, cf. l'échelle Dubois-Buyse). Certaines "fautes" d'orthographe ont une source et une valeur socio-linguistiques (elles ciblent), d'autres sont des fautes de frappe (mais on dit que ces fautes - typo- rapporteraient gros sous la forme de typosquatting !).
Références 
Claude E. Shannon, Warren Waever, The Mathematical Theory of Communication, 1949
François Ters, Georges Mayer, Daniel Reichenbach, L'échelle Dubois-Buyse, 1988
Pierre Bourdieu et al., Rapport pédagogique et communication, 1968
Léon Brillouin, La science et la théorie de l'information, 1959 (Editions Jacques Gabay, 1988)
Benoit Mandelbrot,"Information Theory and Psycholinguistics", in Language by R.C. Oldfield and J.C. Marshall, 1968 pp. 263-275.
.