La faille de Recaptcha

Recaptcha, vous connaissez? C’est le système anti-spam que l’on trouve en bas des formulaires en ligne qui garantissent que c’est bien un humain qui est derrière l’envoi d’information. Recaptcha vous affiche des lettres/chiffres tordus ou disposés de manière non-linéaires, et vous demande de recopier ce que vous voyez. Recaptcha n’est pas le seul à fournir ce genre de solution antispam, mais il est le seul à y avoir vu un intérêt sémantique et lucratif. Cependant, son système a une faille que le logiciel ne peut malheureusement pas guérir…

Recaptcha, le crowdsourcing de la reconnaissance de symboles

Recaptcha est né au milieu d’une masse incalculable d’outils proposant exactement la même solution. Son USP? L’idée de Recaptcha est d’intégrer dans la suite de lettres/chiffres à recopier exactement des symboles que même une application OCR n’est pas capable d’interpréter. Par exemple, dans une suite de 10 chiffres/lettres, 2 voir 3 des ces éléments seront inconnus de Recaptcha.

Quel intérêt? De cette manière, Recaptcha stocke en base tous les chiffres/lettres identifiés par les utilisateurs et permet ainsi d’enrichir la technologie OCR de manière générale. Il y a fort à parier que les chiffres/lettres inconnus de Recaptcha sont soumis à plusieurs utilisateurs pour croiser les réponses et garantir l’exactitude de la donnée fournie.

Google achète et l’adapte à ses besoins

Recaptcha a été racheté par Google en 2009. L’intérêt de Google est claire: il peut utiliser Recaptcha pour déchiffrer tout contenu que ses spiders auraient du mal à analyser, principalement les scans de journaux, de livres, ou tout pdf de qualité moyenne. Avec Recaptcha, Google enrichit son pouvoir d’analyse et d’indexation.

recapcha exempleMais Google ne s’arrête pas là: l’un de ses produits pose un problème auquel Recaptcha peut répondre: Google Maps. En effet, avec Streetview, Google Maps enregistre une capture de toutes les façades de tous les immeubles ou maisons. Les ingénieurs de Google Maps ont eu l’idée ingénieuse d’utiliser Recaptcha pour que les utilisateurs identifient eux-mêmes les numéros devant chaque façade. En effet, il est de plus en plus fréquent que Recaptcha affiche une série de 5-6 chiffres/lettres, suivie d’une photo d’un numéro de rue à déchiffrer. De cette manière, ce sont les utilisateurs de Recaptcha qui renseignent Google Maps sur le numéro de chaque rue, une valeur ajoutée qui permet à Google d’économiser en technos de reconnaissance, ou en petites mains qui analysent chaque numéro de rue un-à-un.

Tout cela pour en venir au fait: si vous avez un Recaptcha avec trois numéros sur une plaque qui ressemble à une plaque de numéro de rue, vous pouvez entrer n’importe quel numéro car Recaptcha n’a aucune idée des chiffres qu’il vient de vous soumettre. Cela rend tout de suite la solution recaptcha beaucoup moins séduisante pour sécuriser un site…