Shadow Analytics

La Shadow Analytics è sintomatica della mancanza di efficaci pratiche di governance dei dati ed a volte di utenti che cercano di eludere le regole. Limitarla è più o meno impossibile finché le persone che la creano e la utilizzano non hanno opzioni migliori:
– una migliore comprensione dei pericoli degli Shadow Data e dell’importanza di governare i dati;
– un migliore accesso ai dati di cui hanno bisogno per il loro lavoro regolare;
– migliori strumenti ed applicazioni che fanno parte di una corretta infrastruttura di governance;
– una migliore formazione e supporto per il loro utilizzo.

Strumenti come Excel offrono da tempo la possibilità di analizzare i dati utilizzando tabelle pivot o funzioni statistiche comuni e di creare visualizzazioni semplici. Le applicazioni più recenti di advanced analytics hanno alzato la posta in gioco e abbassato le barriere: ora gli utenti possono unire set di dati disparati, possono creare variabili personalizzate riutilizzabili e persino creare cubi OLAP in memoria senza difficoltà, creando processi complessi e difficili da mantenere.

Offrire agli utenti questo livello di capacità di interazione con i dati della propria organizzazione, se eseguito correttamente, dovrebbe migliorare notevolmente la capacità di sfruttare i dati raccolti e archiviati. Tuttavia, gli strumenti che sono ora a disposizione degli utenti possono superare la capacità dell’organizzazione di effettuare la governance e ciò porta alla proliferazione di set di Shadow Data, di solito estratti point-in-time, che vengono poi ulteriormente manipolati da strumenti il cui uso potrebbe non essere ben controllato.

Nella migliore delle ipotesi, vediamo che i dati vengono separati dalla loro fonte originale. Questa situazione è di particolare impatto se molteplici aspetti della governance dei dati, dalla qualità dei dati alla derivazione dei dati alle definizioni condivise, vengono trascurati quando gli utenti mescolano e abbinano i set di dati nel tempo e nei sistemi. Inoltre, si possono evidenziare problemi di sicurezza poiché chi prende dati da ambienti protetti corre il rischio di esporre dati sensibili su individui o informazioni riservate su un’organizzazione.

Le motivazioni sono comprensibili, a volte persino lodevoli. Gli utenti vogliono risposte e approfondimenti in tempo reale ed il tempo per disegnare nuovi elementi nel nostro data warehouse o anche semplicemente per implementare un nuovo livello semantico dei nostri strumenti di reporting potrebbe essere troppo lungo e molti utenti, in realtà, non hanno bisogno di questi dati arricchiti.

Spesso manca un catalogo centrale di reports e processi di analisi disponibili, per non parlare delle descrizioni di elementi di dati derivati e calcolati, e quindi gli utenti devono ricorrere ad una propria documentazione privata, senza garanzia che sia o rimanga accurata. Dati sempre più preziosi provengono da più fonti e il compito di aggregare i set di dati per l’analisi è spesso troppo impegnativo per i teams o gli strumenti di Business Intelligence esistenti.

L’opzione peggiore a volte si realizza: gli utenti prelevano alcuni dati secondo proprie intuizioni, in base a quelli che pensano siano i parametri corretti e dopo aver fatto alcune ipotesi su nomi di campi imperscrutabili. Poi si rendono conto che hanno bisogno di più dati, forse anche da un sistema diverso, quindi creano un set di dati congelato da quella fonte e li uniscono insieme in qualche modo. Alcuni strumenti di analisi rendono semplice questa unione, ma solo perché abbiamo collegato l’ID di una persona in un set di dati a un ID in un altro non significa che abbiamo riunito un insieme unificato di dati.

Ora immaginiamo di accoppiare questi risultati, che probabilmente rappresenteranno decine se non centinaia di ore di lavoro, con la motivazione alla base dei tradizionali shadow systems. Cosa succede se gli utenti provano a mantenere questo vasto set di dati come una fonte di analisi continua, il che significa provare ad aggiornarlo record per record? E se lo usassero “solo” come pietra di paragone storica e confrontassero i risultati di nuovi calcoli da nuovi dati con quelli archiviati qui? E se tentassero (e forse falliscono) di riprodurre i propri passi ogni anno in modo da avere una serie temporale di file “congelati” per tentare analisi storiche?

Immaginiamo inoltre che diversi utenti in diverse unità, con necessità simili, possano creare ciascuno analisi duplicate su set distinti, con una duplicazione degli sforzi ed un grande spreco di risorse. A questo punto la nostra Shadow Analytics si è arricchita non solo di set di shadow data, ma anche di reports e processi shadow.

In definitiva, le organizzazioni che implementano, per scelta o per necessità, la Shadow Analytics sono afflitte inevitabilmente da molti problemi tra cui:
– i dati diventano rapidamente obsoleti
– l’integrità dei dati è difficile da mantenere
– il lineage e la provenienza non possono essere stabiliti, quindi la convalida è essenzialmente impossibile
– i dati provengono e vengono visualizzati su più sistemi e strumenti, quindi la coerenza è quasi certamente sacrificata
– Ancora più dati aziendali sono esposti a più vulnerabilità
– Aumentano gli sforzi e le risorse sprecate

Che strada bisogna seguire per aiutare le persone a svolgere il proprio lavoro in modo più efficace, che poi è l’obiettivo della governance e dell’intelligence dei dati? L’esperienza degli ultimi anni ha chiarito quali sono i 4 punti fondamentali per ridurre la Shadow Analytics:

DASHBOARDS
– Risposte rapide alle necessità più comuni

CATALOGO DATI E PROCESSI
– Ricercabile e aggiornato
– Identifica anche i risultati dei dati come report o analisi
– Dice agli utenti cosa contengono quei risultati finali e a che tipo di domande rispondono
– Chiarisce come e dove trovarli/eseguirli

SET DI DATI CURATI
Gli analisti “ombra” non hanno le stesse competenze quando si tratta di pulire i dati e non hanno la stessa capacità di riconoscere dati imprecisi o inaffidabili, quindi è sempre più fondamentale fornire a questi utenti, non solo prodotti di dati curati, ma anche set di dati curati. Un set di dati curato si basa sulla conoscenza dell’azienda, dei suoi domini e delle sue esigenze per identificare le aree e i casi con il maggiore impatto. Questa conoscenza proviene dagli esperti in materia e dai gestori dei dati, che viene quindi raccolta e condivisa. Definiamo alcune caratteristiche chiave dei set di dati curati:
– lineage di dati
– coerenza nei nomi e nelle descrizioni
– semplicità e ripetibilità nell’estrazione
– “virtualizzazione” cioè un metodo per assicurarsi che i dati non si trovino ad invecchiare sulla workstation di un utente o nel loro cloud storage

STRUMENTI DI ANALISI PER UTENTI FINALI INTEGRATI NELLA GOVERNANCE
Selezionare strumenti di analisi dati che siano integrati nella governance, sia per la condivisione dell’accesso ai dati che ai processi, con le migliori caratteristiche di utilizzabilità per gli utenti finali. Sappiamo per esperienza che gli utenti utilizzeranno tutto ciò che è rapidamente a portata di mano per soddisfare le loro esigenze. E’ importante quindi che lo strumento li aiuti ad acquisire rapidamente l’abilità e il talento per usarlo, fluidità e alfabetizzazione dei dati, esposizione e comprensione dell’analisi quantitativa e statistica e familiarità con le visualizzazioni di informazioni visive e numeriche.

Un catalogo di dati ricercabile e aggiornato significa che i “citizen data scientist” possono utilizzare oggetti e strumenti già in uso e che qualsiasi modifica o miglioramento richiesto può essere adattato all’ambiente BI esistente. Insiemi di dati curati significano che i dati presentati in un’analisi possono essere controllati: la provenienza può essere tracciata, l’uso e la terminologia possono essere regolarizzati e la pulizia è effettuata non da individui ma tramite processi disegnati e gestiti.
Infine, i dipendenti con strumenti semplici ed integrati per esplorare i dati acquisiranno la competenza necessaria per identificare i dati utili, interpretarli in modo significativo, applicarli a decisioni e operazioni e condividere queste nuove preziose risorse con l’intera organizzazione.

I problemi causati dai sistemi dagli Shadow Data e Shadow Analytics in realtà non sono semplici da risolvere, ma l’unico modo per affrontarli è fornire agli utenti l’accesso ai dati di cui hanno bisogno. Se si bloccano gli accessi, o se si fornisce solo una soluzione parziale, o se l’organizzazione non è in grado di riconoscere e rispondere continuamente alle esigenze di dati dei suoi dipendenti, è inevitabile che il lavoro degli utenti riparta nell’ombra!

Riconoscere per tempo le nuove esigenze dati richiede di implementare un’organizzazione e degli strumenti che rendano possibile lo scambio di comunicazione e di queste esigenze in maniera semplice e “by design” . Per questo motivo un buon punto di partenza per affrontare il problema della Shadow Analytics è quello di implementare uno strumento di analisi integrato con la governance, che porti gli utenti finali a parlare “la stessa lingua” dell’IT.

In SoftAI proponiamo, sulla base della nostra esperienza, i migliori strumenti di analisi, che permettono di trasformare la Shadow Analytics in “Citizen Analytics”, di beneficiare dell’approccio low code/no code, superare “l’anarchia di Excel” con una intelligente governance e la separazione dei dati dagli algoritmi, ed implementare un efficace Catalogo Dati.

Se vuoi affrontare questi temi nella tua organizzazione sentiti libero di contattarci e farci sapere come possiamo aiutarti.