Captcha e letteratura: stop spam, read books!

Captcha e letteratura: sembra un binomio improbabile, ma il Test di Turing pubblico e completamente automatico per distinguere computer e umani , al quale noi tutti siamo sottoposti quando ci registriamo a un sito o commentiamo un post, ha più di un elemento di contatto con il mondo dei libri.

Ad esempio sapete cos’è Recaptcha? Si tratta di un particolare servizio Captcha che oltre a funzionare da anti-spam sta aiutando nel processo di digitalizzazione di migliaia di libri antichi.

Quando si digitalizza un libro si procede prima scansionandolo e poi facendo analizzare le immagini ottenute da un programma OCR, "Optical Character Recognition", che estrae il testo. Il problema è che non sempre il computer è in grado leggere correttamente le parole e soprattutto se il volume è antico, il riconoscimento e la decifrazione delle lettere sbiadite o distorte non avviene. In questo caso sarebbe necessario l’intervento umano che però costa in termini di tempo e soldi. Ecco perché è stato ideato un captcha composto di una parola che l’OCR non ha riconosciuto e un’altra nota. Si presuppone che se l’utente individuerà correttamente la parola nota, individuerà con elevata probabilità anche la parola “dubbia”. Quando tre utenti danno la stessa risposta, il sistema archivia la parola come corretta. Con questo sistema si sono convertirti 440 milioni di parole con un'accuratezza del 99%! Inoltre Recaptcha dal 2009 è usato da Google Books per convertire la sua collezione.

Ma non è tutto, c'è anche chi dai Captcha si è fatto ispirare ed è addirittura riuscito a creare un fumetto, The Captcha story, partendo dai test e dalle loro sequenze di parole apparentemente senza senso. Chissà che inauguri un nuovo genere, la Captcha Literature.

Viviana Lisanti

Nessun commento, per ora

I commenti sono chiusi.