Una scimmia che preme a caso i tasti su una tastiera, prima o poi scriverà l’intera Divina Commedia.

« Lorem ipsum dolor sit amet, consectetur adipisci elit, sed eiusmod tempor incidunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid ex ea commodi consequat. Quis aute iure reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint obcaecat cupiditat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. »

Bello vero ? Ma cosa vuol dire Marco Tullio Cicerone in questa frase ?

NULLA! Assolutamente NULLA! Specie perchè questo brano non è scritto da Cicerone, anche se “suona” come fatto da lui. Questo brano è stato scritto “campionando” un vero brano di Cicerone: sono state prese delle mezze parole o solo delle sillabe dal testo originale in modo tale da mantenere la “frequenza di comparsa” delle sillabe simile fra il brano originale e quello campionato.

Oh… mi rendo conto che ho scritto “frequenza di comparsa” ! Vuol dire per caso che si potrebbe scrivere un testo del genere premendo i tasti a caso ? E magari si potrebbe scrivere pure qualche “best seller” schiacciando i tasti qua e la ? Oppure usando un programma che lo fa automaticamente ?

Vediamo un po’ ! 🙂

Nota tecnica: questa è una definizione che ci riporta alla statistica ed esattamente alla definizione di probabilità, e qui ci sarebbe da dire un sacco di cose. Matematicamente questa frequenza di comparsa con il vincolo di tenere conto di quello è comparso in precedenza viene chiamata “Probabilità Condizionata” e le sue proprietà di base vengono illustrate dal famoso/famigerato “Teorema di Bayes“. Se lo formalizziamo matematicamente viene fuori qualcosa che per me e la maggior parte della gente è indecifrablile, qundi vediamo di procedere con un altro approccio.

 Frequenza di comparsa delle lettere in varie lingue(fate click sull’immagine per ingrandire)

in italiano ( percento )

in inglese ( normalizzata a 1 )

in spagnolo ( percento )

Come si può vedere ogni lingua ha la sua “frequenza di comparsa” caratteristica che la rende riconoscibile da tutte le altre. In italiano ( ordinando le lettere dalla più frequente alla meno frequente) abbiamo quello che viene riassunto dalla figura:

Frequenze di comparsa delle lettere dell’alfabeto in un brano di lingua italiana.

Ovvero, ogni 1000 lettere digitate avremo circa 117 “E”, 115 “A”…… fino a 5 “Q” e “Z” . Siccome lo stile di scrittura di ognuno è una cosa estremamente personale ci saranno delle piccole ma persistenti e significative variazioni a seconda dell’autore del testo di cui facciamo l’analisi. Basta pensare a Dante e ad un qualsiasi autore contemporaneo: seppur italiani entrambi il fraseggiare e l’uso dei termini è fondamentalmente diverso e questo si riperquoterà sulla distribuzione di comparsa delle lettere, Ovviamente sarà quasi impossibile che le “L” del testo diventino più frequenti delle “A” ma potrebbe accadere che le “L” diventino meno frequenti delle “R” oppure diventino leggermente più frequenti delle “N”. Una distribuzione del genere risulterà caratteristica di ognuno, anche se questo di per sé non è molto significativo. Vediamo come mai.

A questo punto possiamo farci una domanda oziosa: “….ma se scrivo un programma che mi scrive lettere a “caso”, ma con quella pre-determinata frequenza di comparsa, quello che ottengo è un testo italiano di Dante ?

Assolutamente NO! E non suonerebbe neanche lontanamente simile come nel caso del “Lorem Ipsum” visto in precedenza. Perché ?

Perché un programma del genere avrebbe come uscita qualcosa tipo:

eefffqhtouprthhrrqqaasssaaadddaeeeesrraaa……

che non è neanche lontanamente simile ad un qualsiasi scritto in italiano, ma se contate le lettere, esse si prensentano con la frequenza predetta dalla tabella riportata sopra. Infatti quello che manca in una “frase” del genere è che abbiamo trascurato il seguente fatto: la probabilità che una lettera compaia successivamente ad un’altra!

 

Nota Bene:

la probabilità che questo accada è una specie di “memoria statistica” del sistema, i sistemi puramente casuali, tipo quelli del lancio di una pallina sulla roulette o di un lancio di dadi, hanno probabilità condizionata pari al valore dovuto al caso (1/37 per la roulette europea, 1/6 per i dadi, 1/90 per la tombola ed il lotto o bingo, e così via): ovvero non ricordano quello che è successo prima e ci impediscono di fare previsioni su quello che accadrà in futuro. In altre parole: è inutile giocare sui ritardi! Se una roulette o una coppia di dadi o qualsiasi altro gioco presentano una “memoria statistica” significa una cosa sola: sono truccati. Infatti il metodo per scoprire se questi giochi sono stati manipolati è proprio quello di misurare “la memoria” degli stessi e se essa non è quella dovuta al caso ( quindi uguale per tutti i risultati possibili ) …… allora significa che ci troviamo di fronte a qualcosa che, come minimo, è un abuso della fiducia del giocatore.

Ad esempio: in italiano accoppiate di lettere tipo:

ac cc co op pp pi ia at te

sono plausibili e frequenti mentre qualcosa del genere:

qz tz gz ht hl hh bq … ( e così via ) …

non compaiono se non in qualche errore di st0mpa! Se imponiamo “qualcosa” ( una serie di regole ) del genere al nostro programma che genera il testo potremo avere qualcosa di simile:

enti ha creimo gnifalzu tesdortanze ci sildia nuerpa hito minildecca borqeanpo iti leronavve lumosdorca pessogale…….

che è molto più pronunciabile del testo precedente ma ancora è ben lontano da una lirica di Dante o di chiunque altro. Una tabella che voglia rappresentare la frequenza di comparsa di tali coppie di lettere sarà un quadrato 21×21 ( 441 caselle ) che ricorda quello della battaglia navale con ai bordi le lettere e nella casella il numero di comparsa delle coppie ogni 1000 o 10.000. Una coppia di lettere ipossibile tipo “HQ” oppure “HH” oppure “CB” che in italiano non esistono conterranno zero, le altre quante volte si presentano nel testo  selezionato. Tale tabella è meno facile da rappresentare graficamente, ma contiene informazioni molto più dettagliate che quelle contenute ma ancora non sono sufficenti a “generare” un testo che abbia una parvenza di significato: è solo leggibile/ pronunciabile senza troppa difficoltà. Per estendere questo fatto a delle terne di lettere ( ed avere un testo leggermente più plausibile come italiano, ma sempre privo di senso ) sarà necessario usare 21 griglie di dimensione 21×21 ovvero un cubo di lato 21 ( 9261 caselle ). Se volessimo trovare e memorizzare la frequenza di comparsa delle quaterne di lettere avremmo bisogno di 21 cubi di quel genere ( 194481 caselle ).

Possono sembrare numeri grandi, ma per un calcolatore, memorizzare 194481 caselle del genere in un file di testo occuperebbe poco più di un megabyte, considerando che una foto ( un “sefie” ) di media qualità spesso è ben oltre i 2 Mbyte…. 😉 rendiamoci conto che non è una occupazione di memoria eccessiva.

Ora devo fare una precisazione di quanto detto prima: la frequenza di comparsa delle singole lettere consente si di discriminare una lingua dall’altra, ed anche 2 scrittori con stili fondamentalmente differenti, ma basandosi solo su di essa non si possono ottenere dei testi sensati, o apparentemente tali. Per ottenere qualcosa del genere è necessario utilizzare almeno una tabella di comparsa di sillabe ( 2,3 o 4 lettere ) o di coppie di sillabe. Queste tabelle, sono “enormi” per l’essere umano, ma costituiscono una impronta sufficientemente dettagliata per riconoscere un autore e discriminarlo dall’altro.

Si può anche pensare di usare queste tabelle per attribuire uno scritto inedito e non firmato ad autore noto, oppure vedere se ci troviamo di fronte ad un plagio o per scoprire quali dei nostri “amici” ci manda delle mail “scherzose” da un account anonimo … lascio a voi l’iniziativa di scoprire altri utilizzi di questa metodologia. Un programma che possa generare una tabella del genere e confrontarla con un altra non è molto complesso, solo lento! 😉

Tornando a questo punto alla scimmia che ho citato nel titolo di questo post, possiamo supporre che tale delizioso animaletto decida di passare il suo tempo a premere i tasti del pc cui si trova di fronte.

Se la scimmia non sa leggere, possiamo supporre che prema i tasti a caso. A quel punto la distribuzione delle frequenze di comparsa delle lettere sarebbe più o meno uniforme per tutte le lettere ovvero circa 467 volte per ogni lettera per 10.000 volte che vengono premuti i tasti.

Per cambiare la frequenza con cui vengono premuti i tasti possiamo “aggiungerne” degli altri in modo tale che nella tastiera ci siano 12 “E”, 12 “A”, 11″I”, 10 “O” e cosi’ via – fino ad avere 1000 tasti – in modo da rispettare le frequenze illustrate nella tabella mostrata sopra. Il risultato anche in questo caso sarà comparabile con quello visto sopra.

Se vogliamo utilizzare coppie di lettere la tastiera dovrà contenere i tasti corrispondenti a tali coppie in numero tale da rispettare la tabella 21×21 di cui abbiamo parlato sopra. In tale tastiera non compariranno combinazioni di lettere impossibili, tipo “sz” “zt” “hh” e così via. Analogamente per terne, quaterne, cinquine … n-ple di lettere.

E questo giustifica quello che ho affermato nel titolo di questo post. 😉


A questo punto mi sento di fare un commento approfondito e “giustificato” su quanto affermato nel pregevole articolo che ha ispirato questo post:  http://silvanodonofrio.wordpress.com/2014/12/16/debunking/

Carissimo, purtoppo la “scimmia” cui tu ti riferisci genera prodotti causati solo dal caso: ha dalla sua solo il tempo e le propabilità. È più facile fare delle affermazioni plausibili, ma completamente infondate che smontare/combattere queste “creazioni geniali” casuali. Per inciso: visto che quello che esce da un processo del genere è frutto del caso, è improbabile, ma non impossibile che ci sia qualcosa di vero o verosimile inframezzato a tutto il resto. E se ricordo bene, secondo la teoria della “fluttuazione quantica del’universo” anche la nostra presenza qui è frutto del caso ( e assicuro chi ci legge che questa non è una delle mie solite sparatate: guardate questo post pubblicato su Astronomicamens ! 😉 ); e questo mi da molto da riflettere. Inoltre, ci vuole molto tempo per smontare/combattere quello che scrive e contrariamente alla scimmia, la quale si può permettere di sprecare il suo tempo perché non ha nulla di meglio da fare. NOI, questo, non ce lo possiamo permettere.

Se incontri una scimmia che “genera” testi/ipotesi/discorsi e simili ( e non mi sbilancio di più, perché SO che mi hai capito ) l’unica cosa saggia da fare è allontanarsi prima di farsi invischiare 🙂

Tanto poi la scimmia si copre da sola dei suoi stessi liquami prodotti. 😀

Sappi che hai tutta la mia comprensione e la mia solidarietà 🙂

Advertisements

Un pensiero su “Una scimmia che preme a caso i tasti su una tastiera, prima o poi scriverà l’intera Divina Commedia.

  1. Pingback: Come vincere alla roulette. | Num3ri v 2.0

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...