Mapping Corruption in the Panama Papers with Open Data

Ribloggo e traduco un piacere un articolo – che può essere of topic per questo blog – ma che penso possa interessare diverse persone e possa far capire quale ruolo possa avere, al giorno d’oggi, una corretta analisi dei dati. Ogni contenuto nel testo della traduzione è di proprietà intellettuare dell’autore.

Quando si parla di analisi di dati, specialmente se sono molti [big data] spesso e volentieri si pensa a qualcosa di “trascendentale”, di qualcosa che va ben oltre la comprensione ed anche l’utilizzo della vita quotidiana. Di qualcosa del genere, sebbene in modo molto più “artigianale”, avevo parlato già nel mio post precedente “Le reti sociali

Introduzione/Digressione

Se ci troviamo a discutere assieme in più di due persone, la discussione prima o poi spazierà su tutti i campi dello scibile; siamo tutti pronti a discutere dei “massimi sistemi”, ci si trasforma in fliosofi che farebbero pelo e contropelo a Kant, Hegel e Marx, in  economisti di una levatura tale che possono far sfigurare Alexander Gerschenkron e Walt W. Rostow, fisici che farebbero impallidire Rubia e Hawkings, dei commissari tecnici che …( non metto termini di paragone qui, che è meglio ), dei mistici che sarebbero….. ( VISTI I TEMPI CHE CORRONO non metto termini di paragone NEANCHE qui, che è meglio ) e poi finita la discussione tutti a spaparanzarsi sul divano 😀 Però dal punto di vista concreto, i discorsi che si fanno in queste discussioni sono tutti basati sul “sentito dire”.

Come avrebbe detto mio nonno: «Sono discorsi da osteria» ( che può essere bonariamente tradotto con: “non servono a nulla e lasciano il tempo che trovano” ). Quello che conta sono i fatti, i numeri, e soprattutto quello che questi ci dicono. Nella grande quantità di dati spesso perdiamo di vista l’informazione importante, lasciandoci distrarre e fuorviare da fattori carini, ma poco importanti. Guardiamo gli alberi e perdiamo di vista la foresta. Inoltre anche se guardiamo la foresta, spesso non traiamo le conclusioni giuste. E questo si evince chiaramente da questo articolo.

Nota Personale: Devo ammettere che ho cercato su intenet di trovare qualcosa di analogo – non solo per quanto riguarda la corruzione, ma anche per altre cose, tipo segnalazioni del dissesto urbano, ….. – per l’Italia o quanto meno per l’Europa, però non ho trovato nulla di lontanamente comparabile. Visto che siamo tutti commissari tecnici, mi aspettavo almeno qualcosa per le partite o le corse dei cavalli, ma a parte i siti sponsorizzati, IL DESERTO….. L’unico sito che si può avvicinare a qualcosa del genere è “SARD SOS” – che è “nato” l’anno dell’alluvione in Sardegna (2013) e consentiva alle persone di segnalare e mappare automaticamente le situazioni di disagio dovute agli allagamenti, consentendo una capillare attività di intervento dei soccorsi. Notare la localizzazione geografica di dove è stata presa questa iniziativa. Una cosa simile ma in campo diverso è stata portata avanti dalla comunity di “Evasori.info” cui si può segnalare la presenza di evasione fiscale. Iniziativa estremamente lodevole, purtroppo ignorata dai più e dalle Pubbliche amministrazioni. Qui posto il loro banner per testimoniare loro la mia simpatia.
evasori.info: segnala e mappa l'evasione fiscale in italia

Sempre a proposito di Open Data, l’unica regione che ha avuto qualche iniziativa per creare un database geografico di dati e sempre la sardegna, con il sito https://sardiniaopendata.org/ 

C’è da notare che anche in questo caso le iniziative sono state personali. Altre iniziative non istituzionali sono nate ed abbandonate nel corso degli anni. Le P.A. – a seguito delle direttive europee del 2011 si stanno lentamente e non senza difficoltà adeguando ad esse, ma ancora oggi ( aprile 2016 ) siamo ben lontani dal raggiungere i livelli degli altri paesi tecnologicamente avanzati [tipo PERU’]…..

Nota Personale Acida: visto che in Italia siamo “all’avanguardia del digitale”,  dove abbiamo più “giga al mese” che gobuli rossi in circolo, dove si prospetta di fare tutto on-line,dalla gestione della lavatrice al governo in tempo reale, alla prenotazione del carrello della spesa, alla simulazione del tempo delle vacanze,  mi chiedo come mai una iniziativa del genere sia stata fatta in un paese. il PERU’, che qui in Europa, viene considerato come arretrato e tecnologicamente poco sviluppato. Mi fermo qui perché non voglio trascendere. Sappiate solo che la cosa mi inquieta e mi procura una lieve acidità di stomaco. 🙂 Dimenticavo, prima che mi chiediate: «Visto che ci tieni tanto, perche’ non lo fai tu ?» rispondo che se fossi capace, forse avrei gia’ scritto qualcosa, ma andare oltre la modifica di 2 o 3 procedurine di matlab – scritte inizialmente da altri non sono mai andato ed anche in quel caso è stata una enorme fatica!


Nota tecnica: Scrapy è un software libero e gratuito che può funzionare  sotto tutti i sistemi operativi più diffusi. Chi volesse sapere come istallarlo può leggere la apposita pagina. Non c’é bisogno di appoggiarsi a siti o servizi a pagamento. ScrapingHub è un sito commerciale che offre vari profili ed utilità per l’implementazione di uno spider scritto con Scrapy. Il profilo base è gratuito, gli altri no. Questo può essere interessante per coloro che non vogliono perdere tempo ad istallare sulla loro macchina Python e Scrapy. Però chi ha provato ad istallare Scrapy e Python sul proprio pc mi hanno assicurato che tale operazione non è né lunga né complessa. Ci sono da dire 2 cose:

  • la documentazione di tali siti per imparare come funzionano gli strumenti NON è aggiornatissima,
  • c’è anche da dire che, se si usa uno spider su proprio computer, esso deve rimanere acceso per tutto il tempo dello scraping e sui siti remoti resta traccia del proprio ip. Usando invece una piattaforma esterna questo non accade. Mi fanno notare – è il brutto di avere amici paranoici – che se si usa una piattaforma esterna occorre FIDARSI dei gestori della stessa…….

 

Analoghe considerazioni si possono fare per Tableau o Plot.ly, ed anche per BigML e MonkeyLearn. Mi piacerebbe essere a conoscenza di altri strumenti “open source” e free da proporre qui come alternative a questi pur validi servizi.


Mappatura della corruzione nelle “Panama Papers” con gli Open Data

( Nota del Traduttore: la url della pagina dell’articolo originale si puo’ tradurre con: “Come diventare un delatore, dalle Panama Papers agli Open Data”, 😉 tanto per informarvi 😉 )


– scritto da Cecilia Haynes –

6 aprile 2016

 

Siamo ad un punto nell’era digitale, in cui la corruzione è sempre più difficile da nascondere. Le fughe di informazioni sono abbondanti e scioccanti.

Ci affidiamo a informatori per molte di queste “indiscrezioni”. Costoro hanno accesso a informazioni riservate che è impossibile da ottenere altrove. Tuttavia, anche noi viviamo in un tempo in cui i dati è più aperta e accessibile che in qualsiasi altro momento della storia. Con l’ascesa di Open Data, le persone non sono più in grado di distruggere via i loro misfatti. Nulla è mai veramente eliminato da internet ( lo dico sempre anche io – N.D.T. ). Potrebbe sorprendere quanti intuizioni di corruzione e del trapianto si nascondono in bella vista attraverso le informazioni disponibili pubblicamente. Le uniche barriere alla diffusione delle informazioni sono siti web malformati, l’inesperienza nella estrazione dei dati, e scarsa familiarità con strumenti di analisi dei dati.

Ora abbiamo collettivamente le risorse per produrre le nostre personali “Panama Papers“. Non solo come fenomeno una tantum, ma come regolari controlli di responsabilità per coloro che si trovano in posizioni di potere. Questo è particolarmente vero se uniamo le nostre informazioni per creare ulteriori collegamenti. Un esempio di questa democratizzazione dell’informazione è un recente progetto sviluppato in Perù chiama Manolo ( http://manolo.rocks/ – che può essere tradotto con “Manolo Spacca!” oppure “Manolo Ti Mena!” – N.D.T. ) e le sue relazioni con con i dati contenuti nelle Panama Papers. Manolo è utilizzato il web scraping dei dati aperti e serve per raccogliere informazioni su possibili legami fra funzionari governativi peruviani e lobbisti.

Manolo

Manolo è una applicazione web che usa Scrapy per estrarre records (da un database di circa 2.2 milioni) dei visitatori che frequentano le varie istituzioni statali peruviane. Esso raccoglie i dati e li ricompatta in una interfaccia che consente di navigare facilmente fra di essi, al contrario di quello che accade per i siti governativi. I giornalisti peruviani usano Manolo frequentemente. Manolo ha anche aiutato i giornalisti a scoprire delle lobby illegali tenendo traccia delle visite dei rappresentanti della società di costruzione che sono attualmente sotto inchiesta di specifici funzionari governativi .

Sviluppato da Carlos Peña, un tecnico della Scrapinghub, Manolo è un primo esempio di quello che un singolo privato cittadino può realizzare (il grassetto è una mia aggiunta – NDT). Consentendo l’accesso ai dati  ai Media Peruviani, questo progetto ha sollevato una discussione dovuta e molto sentita sulla trasparenza e la tracciabilità delle informazioni in Perù.

Esempio Sito Governativo (non user-friendly)


La magia di Scrapy al lavoro.( un esempio dei sorgenti )


I dati estratti in un formato strutturato

Rappresentazione finale in Manolo

Incrociare i dati

Prendendo le “indiscrezioni” quali le Panama Papers come punto di partenza, il web scraping può essere utilizzato per costruire i set di dati (dataset) per scoprire illeciti e per richiamare i funzionari corrotti.
Ad esempio, è possibile fare riferimenti incrociati fra nomi e fatti, incrociando i dati ottenuti dalle Carte Panama con i dati che si recuperano tramite web scraping. Questo darebbe più contesto e potrebbe portare VOI a fare ulteriori e diverse scoperte. Abbiamo effettivamente testato questo fatto noi stessi con Manolo. Uno dei nomi presenti nel Panama Papers è Virgilio Acuña Peralta, attualmente un membro del Congresso peruviano. Abbiamo trovato il suo nome nel database di Manolo poiché ha visitato il Ministero delle Miniere lo scorso anno.

2.0

Secondo le notizie pubblicazione peruviano Ojo Público, Acuña ha voluto utilizzare Mossack Fonseca per riattivare una società offshore che avrebbe potuto usare per garantire contratti di costruzione con lo Stato peruviano. Come un membro del Congresso, questo è illegale. In Perù, ci sono tentativi per indagare sia Virgilio Acuña che suo fratello per il riciclaggio di denaro , il quale recentemente ha corso per la carica di presidente.

Un altro nome riportato nei documenti di Panama di Ojo Público era Jaime Carbajal Perez, uno stretto collaboratore dell’ex presidente peruviano Alan García.

Ojo Público afferma che nel 2008, Carbajal, insieme con il collega Percy Uriarte e altri, ha acquistato la società off-shore Winscombe Management Corp. da Mossack Fonseca. Carbajal e Uriarte possiedono un business che vende libri per le scuole statali. Ulteriore colpo di scena è che il terzo proprietario della libreria, José Antonio Chang, è stato il Ministro della Pubblica Istruzione 2006-2011 e il Primo Ministro 2010-2011.

Una rapida ricerca del database di Manolo rivela che Percy Uriarte ha visitato il Ministero peruviano della Pubblica Istruzione 45 volte tra il 2013 e il 2015. IDL-Reporteros, un’altra presa di notizie peruviano, ha riferito che la società guidata da Carbajal illegalmente venduto libri per il governo peruviano nel 2010. ha usato una società di facciata per tali operazioni da quando è stato vietato dalla legge di impegnarsi in contratti con lo stato a causa della sua stretta associazione con l’ex presidente.

Estrazione dei dati

I dati provenienti da indiscrezioni precedenti, come i “Saudi Cables affair“, le “Swiss Leaks” e le  “Offshore Leaks” sono stati rilasciati pubblicamente. In molti casi, i dati sono stati indicizzati e catalogati, rendendo più facile per voi per navigare e cercare in essi. E ora stiamo solo aspettando il dump completo dei dati delle “Panama Papers”.

È possibile utilizzare le tecniche di recupero delle informazioni di scavare più a fondo nella leaks.You riusciva a trovare i record corrispondenti, vagliare i dati contrassegnando parole specifiche, parti del discorso, o di frasi, e di identificare le entità diverse, come istituzioni o persone.

La creazione di Open Data

Se le informazioni non sono facilmente disponibili in un database conveniente, allora si può sempre esplorare dati aperti da soli:

  • Identificare le fonti di dati aperti che hanno le informazioni necessarie. Si tratta spesso di siti web governativi e pubblici registri.
  • “Raschiare” i dati. È possibile farlo in due modi: con un strumento visuale web come Portia (che non necessita di alcuna programmazione) o un framework come Scrapy che permette di personalizzare il vostro codice. Il grande vantaggio è che questi sono due strumenti open source e completamente gratuiti.
  • Scaricare i dati e importarli nel vostro software di analisi dei dati preferito.
  • Poi iniziare a scavare (estrarre i dati)!
  • Presentare i risultati con la creazione di rappresentazioni visive dei dati con strumenti come Tableau o Plot.ly.

Abbiamo effettivamente offrire integrazquandoioni piattaforma con i programmi Machine Learning come BigML e MonkeyLearn. Stiamo esaminando l’integrazione di più strumenti di dati entro la fine dell’anno, teneteci d’occhio!

Impacchettare i dati

I dati e la corruzione sono ovunque e possono sembrare difficoltosi da avvicinare . Qui è dove il web scraping entra in gioco. Siamo un punto in cui i cittadini hanno gli strumenti necessari per comprendere le azioni  dei funzionari eletti, delle imprese e della gente al potere, che sono responsabili di azioni illegali e fonte di corruzione. Aumentando la trasparenza e la creazione di ulteriori legami tra fughe di informazioni e dati facilmente disponibili, possiamo rimuovere le lacune in cui esistono aziende come Mossack Fonseca.

Framework come Scrapy sono l’ideale per coloro che sanno scrivere codici (di programmazione), ma non ci dovrebbe essere ostacoli per l’acquisizione dei dati. I giornalisti ( e coloro che non sanno scrivere codici – come me – Aggiunta del Traduttore ) che desiderano trarre vantaggio da queste vaste fonti di informazione possono utilizzare “raschietti web” (scrapers) visivi come Portia per ottenere i dati per le indagini attuali e future.

The Scrapinghub Blog

We are at a point in the digital age where corruption is increasingly difficult to hide. Information leaks are abundant and shocking.

We rely on whistleblowers for many of these leaks. They have access to confidential information that’s impossible to obtain elsewhere. However, we also live in a time where data is more open and accessible than at any other point in history. With the rise of Open Data, people can no longer shred away their misdeeds. Nothing is ever truly deleted from the internet.

It might surprise you how many insights into corruption and graft are hiding in plain sight through openly available information. The only barriers are clunky websites, inexperience in data extraction, and unfamiliarity with data analysis tools.

We now collectively have the resources to produce our own Panama Papers. Not just as one offs, but as regular accountability checks to those in situations of…

View original post 888 altre parole

Advertisements

Un pensiero su “Mapping Corruption in the Panama Papers with Open Data

  1. Pingback: Visto nel Web – 232 | Ok, panico

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...