Le big data se personnalise

Excel est un outil magnifique qui devrait être enseigné dans toutes les écoles. Excel ne permet pas seulement de faire des listes en ligne ou en colonne, mais principalement de réfléchir plus vite.

Excel peut exécuter toutes les opérations d’une calculette, mais le logiciel est aussi un précieux assistant personnel : suivi des dépenses, stockage des contacts, analyse des inventaires, n’importe quelle donnée peut être intégrée dans Excel et traitée.

L’entrée de donnée est une opération relativement accessible à tous, mais le traitement est une discipline qu’il est aujourd’hui essentiel d’acquérir. Notre vie est devenu un flux de données, une trace numérique qui nous suit partout et accompagne presque toutes nos actions. Tout individu est à lui seul un cas de big data : dépenses, poids, consommation d’énergie, exercices, revenus, notes, enfants, écoles, banques, déplacements quotidiens, produits consommés, objets possédés, administrations publiques et privées, sans compter toutes les données générées sur internet que nous ne savons même pas comment gérer …

Contrôler ces données permet de formuler au quotidien des choix plus intelligents. En connaissant la logique d’Excel et ses formules, il est possible de calculer rapidement un grand nombre de données et donc de variables de notre quotidien. Cela nous permet de mieux anticiper nos actes et d’améliorer notre vie en étant plus actif dans la création de nos futurs données.

Une rencontre avec le créateur du défunt Wasabi, une application Web de gestion des finances personnelles, m’avait appris quelque chose d’intéressant : mon interlocuteur m’expliqua que le but de son application était de permettre à ses utilisateurs de faire des choix financiers plus intelligents en offrant plus de maîtrise à ses itilisateurs. Les banques tirent un grand bénéfice de nos lacunes en gestion financière : mal calculer ses dépenses revient à se retrouver plus facilement en situation de déficit ou de crédit, ce qui constitue une part importante du revenu des banques aujourd’hui. En d’autres termes, le plus vous êtes bête (bancairement parlant dans cet exemple), le plus vous êtes profitable.

La santé sur mobile

L’application S Health, pré-installée sur le téléphone que je viens d’acheter, compte vos pas, vos activités sportives, votre rythme cardiaque, vos apports nutritionnels, tous les éléments nécéssaires pour vous aider à équilibrer votre santé physique.

Le hic, c’est que l’application S Health ne connaît pas votre alimentation si vous ne la rentrez pas quotidiennement et manuellement dans l’application. De même, il faut penser à faire des entrées régulières de son rythme cardiaque si l’on veut en tirer quelque chose d’intéressant.
Il est donc très curieux d’explorer cette application qui est déjà un dinosaure de son espèce : le jour où toutes nos actions seront automatiquement numérisées (activités, nutrition, sommeil, achats, interactions sociales, sexe,  …), les applications santé deviendront d’inséparables compagnons de vie, mais il faut d’abord qu’elles parviennent à capter par elles-mêmes la totalité des données qui composent notre environnement biologique (on a encore quelques décennies devant nous). Tant que l’entrée de donnée est manuelle, elle sera toujours faussée : en remuant légèrement votre téléphone de haut en bas, vous trompez son téléphone qui va comptabiliser vos mouvements comme des pas ; si vous n’entrez pas systématiquement tout ce que vous ingurgitez,  l’application pensera que vous êtes gravement sous-alimenté.

Niveau fournisseur, ceux qui domineront ce marché auront entre leurs mains une donnée proche de celle du Graal : connaître la performance biologique de chaque être, analyser les caractéristiques des groupes dominants, fournir des données marketing à tous les échelons de l’économie, orienter les actions de chaque être en fonction de leur intérêt personnel et de l’intérêt lucratif de l’entreprise… Ce que Facebook fait pour le lien social, les applications santé doivent le faire pour notre bien-être biologique.

Retweet analytics, la boîte noire de Twitter

Quand on parle de Twitter, on se réfère souvent à une plateforme publique et ouverte. Dans le cadre d’une veille sur Twitter, il est vrai qu’avec les bons outils, il est possible de capter toutes les retombées sur les requêtes ciblées. Twitter devient une plateforme plus fermée lorsque l’on souhaite, aù-delà du volume des mentions, mesurer l’influence de chaque tweet. Pour faire simple, dans une campagne contenant 50% de tweets positifs et 50% de tweets négatifs, on veut aller un peu plus loin dans l’analyse pour savoir quel 50% a eu le plus d’influence.

L’influence d’un tweet

L’influence d’un tweet se mesure sur plusieurs facteurs :

  • Nombre de followers de chaque émetteur de chaque tweet
  • Nombre de retweets de chaque tweet
  • Nombre de followers de chaque retweeteur

Pour connaître l’influence d’un tweet, il faut additionner le nombre de followers de l’émetteur et l’ensemble des followers de chaque retweeteur. En d’autres termes, le calcul de l’influence constitue le calcul du reach (audience totale) de chaque tweet.

Limites du retweet

Le problème surgit dans le calcul de l’audience sur les retweets : Sur le site twitter.com et via l’API, il est possible de connaître le nombre de retweets. Sur le site twitter.com, il est possible d’identifier 8 retweeteurs. Via l’API, il est possible d’en identifier 100. Si un tweet cumule plus de 100 retweets, il devient impossible d’identifier tous les retweeteurs de ce tweet, et donc d’en calculer le total reach.

Qui influence qui

Ce que Twitter ne partage pas non plus, c’est l’heure de chaque retweet, et quel utilisateur a influencé qui : si user 2 et user 3 se suivent entre eux, qu’ils suivent tous deux user 1, et que tous deux retweetent un tweet émis par user 1, Twitter ne nous dit pas si user 3 a retweeté le tweet de user 1 suite à son émission par ce dernier, ou suite à son retweet par user 2.

Avec l’heure de chaque retweet, on pourrait déduire qui a influencé qui (les premiers influencent les suivants), mais ici encore cette donnée relève du domaine de la boîte noire qui habite les entrailles des serveurs de Twitter.

Le business du retweet

Pourquoi Twitter ne partage-t-il pas cette donnée ? Probablement un objectif de la monétiser soi-même en l’intégrant aux solutions publicitaires proposées aux marques. Depuis sa création, Twitter n’a cessé de cloisonner l’accés à ses serveurs, d’internaliser certaines technologies, et de réduire la transparence de ses données. Le passage au retweet tel qu’on le connait aujourd’hui avait pour principal objectif de reprendre le contrôle sur une fonctionnalité créée par les utilisateurs (donc incontrôlée) et devenue le principal moteur du site. Ce contrôle s’exerce de la manière décrite dans cet article.

Une rumeur courait ces dernières semaines selon laquelle Twitter expérimentait un compteur de vues pour chaque tweet, un indicateur d’influence pour les utilisateurs. Si cette fonctionnalité ne permettra pas de connaître la logique de propagation d’un tweet, elle permettra d’en identifier parfaitement son audience, ce qui sera une belle progression pour la plateforme Twitter.