{Spinning de texte|besoin d’alternatives}

Dernièrement, j’ai été confronté à la problématique de spinner des textes… manuellemment. Croyez-le bien, c’est une tâche fort pénible. Finalement, le cerveau n’est pas si flexible lorsque l’exercice consiste à créer plusieurs versions de la même histoire. Et pourtant, un spinning n’est réussi que si une version est structurellement et lexicalement originale à 30%, et si la narration de la version spinnée est cohérente. Il existe des logiciels de spinning de texte, mais les plus évolués n’offre que des solutions anglophones – leur rendu reste souvent très aléatoire – et le français est une langue dont la mécanique sémantique reste dure à capturer pour l’esprit logique à la base des fondements de toute intelligence informatique.

La phase la plus difficile du spinning manuel, c’est le début: il faut se familiariser avec l’histoire qui est racontée, puis il faut activer notre dictionnaire cérébral de synonymes et d’expressions communes. Une fois qu’on est lancé, l’exercice devient complètement différent d’une simple permutation de synonymes, au point de se demander si les techniques de spinning automatisé d’aujourd’hui ne sont simplement pas dans le faux avec la manière dont la diversification textuelle est abordée.

Chez les référenceurs, on va faire du spinning pour deux raisons: soit on travaille pour un client et le contenu spinné doit être propre, auquel cas le spinning est semi-automatisé, cad que des corrections doivent être apportées manuellement sur chaque version spinnée. Soit on bâtit une méga-nébuleuse de sites pour générer du SEO juice, auquel cas les contenus sont juste balancés automatiquement sans relecture. Dans les deux cas, on peut affirmer que le spinning automatisé n’est pas encore à la hauteur du potentiel qu’offre l’informatique aujourd’hui.

En spinnant manuellement les textes, je me rend compte que l’exercice ne consiste pas à gérer un ensemble de synonymes et d’expressions sur des mots-clés donnés, mais plutôt d’adopter plusieurs styles narratifs pour transmettre la même information. Cependant, le spinning de texte ne devrait pas consister à créer des listes de termes interchangeables sur un texte donné, mais il devrait plutôt être capable de créer un texte à partir de certains mots-clés, et à partir de scénario pré-paramétrer.

En gros voici un exemple: la phrase « le cac40 est encore en baisse, mais LVMH affiche des revenus positifs » devrait être soumise à un soft de spinning de la manière suivante:

« Mot-clé 1 » « catégorie mot-clé 1 » « état/attribut mot-clé 1 » « mot-clé 2 » « catégorie mot-clé 2 » « état/attribut du mot-clé 2 » « relation entre mot-clé 1 et mot-clé 2 » etc…

Ce qui donnerait:
>Mot-clé 1: cac40
Catégorie mot-clé 1: bourse, finances
État/attribut mot-clé 1: en baisse, encore
Mot-clé 2: LVMH
Catégorie mot-clé 2: entreprise
État/attribut mot-clé 2: revenus, positifs
Relation entre mot-clé 1 et mot-clé 2: contradiction, dissonance

De cette manière, on se retrouve avec des objets, associés à des champs sémantiques précis, qui traduisent un état précis, et structurés entre eux autour de scénario relationnels définis.

Selon ce paradigme, le rôle du logiciel n’est pas plus de proposer un ensemble de synonymes pour chaque terme identifié, que de suggérer plusieurs structures narratives différentes qui retranscrivent fidèlement l’histoire initiale.

Bien sûr, cette idée n’est qu’une idée: quid de sa réalisation technique…

Clickjacker le nouveau bouton suivre de Twitter

Clickjacking Twitter

Fin mai (2011), Twitter annonçait le lancement de son nouveau « follow button »: Celui-ci permet en un clic, sans passer par la case Twitter (sauf pour se login via un popup), de follower des twittos. Comme vous pouvez le constater, nous avons installer des boutons follow dans la colonne de droite, donc n’hésitez pas à vous amuser avec en cliquant dessus 🙂

Le rendu est simple et efficace, et Twitter rattrape ainsi Facebook qui a lancé son like button depuis un moment déjà, et a été fortement adopté par le world wide web. En permettant aux Internautes de s’abonner à du contenu sans les rediriger sur sa propre plateforme, Twitter va probablement observer de fortes augmentations dans le nombre de follows sur sa plateforme. Pour vous procurez ce code et l’insérez dans votre site, c’est par ici: Bouton suivre Twitter

Cependant, tout n’est pas si rose dans le monde de l’oiseau bleu: Le jour qui suivit l’annonce de Twitter, un blogueur aux influences blackhat a publié sa technique pour faire du clickjacking sur le nouveau bouton follow. Le principe est très simple et à la portée de toute personne capable de gérer 3 lignes de code:

  • Placer le bouton dans une iframe
  • Rendre l’iframe transparente via css
  • Capturer les mouse events (mouvements de souris)
  • Quand la souris bouge, bouger l’iframe pour que celle-ci reste toujours sous le curseur de la souris
  • Si un visiteur clique n’importe où sur la page, il suivra automatiquement le compte du follow button

Et si vous voulez tester, l’auteur du billet a créé une petite page démo où la transparence de l’iframe est paramétrée à 20% pour que l’on puisse se rendre compte du subterfuge: Twitter clickjacking demo

Source: SERP Hacker via @YannickEyl

Twitter shoote ses flux RSS

twitter rss search

L’annonce autant que la mise en oeuvre a été très discrète: Twitter a complètement stoppé la diffusion par flux RSS de ses comptes Twitter. En effet, si je teste ce qui était ma page RSS: http://twitter.com/statuses/user_timeline/6660072.rss, plus rien ne s’affiche. Ainsi, comme Twitter l’a clairement formulé depuis sur son site:

we no longer directly support RSS feeds

Pour les petits utilisateurs que nous sommes, cette décision peut paraître non-justifiée. En effet, nous sommes plus d’un à s’inscrire au flux RSS d’un compte Twitter pour de la veille, de l’analyse, de la republication…

Cependant, la présence de flux RSS permet également de tracker une grande partie de l’activité de la plateforme Twitter sans jamais avoir à s’identifier, ou à se rendre sur le site. Les appels aux flux RSS peuvent être effectués à partir d’un serveur tierce, ce qui permet également l’anonymat complet. Cela peut poser des problèmes lorsque d’autres acteurs importants du Web, comme Google, Facebook, Bing, etc, se permettent avec leur puissance de frappe d’enregistrer la quasi-totalité de l’activité des twittos via les flux RSS, à l’insu complet de Twitter. Quand on voit la guerre Google-Facebook, on comprend les enjeux du côté des titans du Web (ie Facebook qui bloque les crawlers de Google pour que les gens n’utilisent pas Google pour faire une recherche dans Facebook).

Outre les guerres de titans, les flux RSS peuvent aussi être utilisés par tout type de spammeurs, blackhatteurs, et autres malveilleurs de toute heure. Parce que les flux RSS ne nécessitent pas d’identification pour être lus, ils représentent une vulnérabilité dans le système.

Ainsi, même si les flux RSS représentent une bénédiction pour les Internautes aguerris, il faut se faire à l’idée que la guerre des titans est lancée depuis un moment déjà, et que dans ce bras de fer, les protocoles non-propriétaires vont se faire shooter.

A noter que les flux RSS sont toujours live sur le moteur de recherche, mais on est aujourd’hui en droit de penser que leurs jours sont comptés.