In una realtà dove la corsa ai dati è all’ordine del giorno, la differenza tra dato ed informazione è fondamentale; come fare a trasformare un dato grezzo in informazione e, opportunamente manipolato e considerato in un contesto, poi in insight?
Uno degli strumenti che abilitano e facilitano tale trasformazione è il concetto di data lineage, inizialmente inteso come documentazione delle fonti dei dati ed ora, supportato da moderne tecnologie, come processo che aiuta in numerosi aspetti della reportistica, dalla preparazione alla sua usufruizione.
Se ben mantenuto, il data lineage del dato permette, non solo di sapere senza necessità di controllo dei vari flussi da dove proviene un dato, ma anche di conoscerne il contesto e, in caso di manutenzione per problematiche o per modifica ed aggiornamento delle sue logiche, di sapere esattamente quali stakeholder verranno.
Facciamo un esempio pratico; cosa succede, con e senza data lineage, nel momento in cui uno dei principali flussi transazionali di un’ipotetica società deve subire una modifica a dei campi esistenti?
Senza data lineage, la strada da percorrere non è necessariamente chiara e sicuramente è tortuosa; innanzitutto bisogna alzare il cofano e controllare, con grandi costi in termini di tempo, dove e come quel flusso viene utilizzato e trasformato; una volta identificati tutti gli eventuali outlet di condivisione delle informazioni che derivano dal flusso, sarà necessario contattare gli utilizzatori per informarli dei cambiamenti, ed infine preparare le modifiche tecniche da applicare.
Con data lineage, gran parte del lavoro è già pronto.
Grazie alla documentazione intrinseca nel processo, sarà possibile verificare in velocità dove, come e perché il flusso viene utilizzato; similmente, il “chi” sarà identificato con altrettanta facilità. La spesa si potrà dunque focalizzare sulla sola modifica effettiva, senza avere inoltre dubbi di dimenticanze od utilizzi sfuggiti ad un’analisi di necessità.
Gli effetti positivi di un data lineage ben mantenuto sono quindi molteplici, tra cui: - controllo della fonte dei vari dati e governance della sua manipolazione e processo, dal recepimento iniziale a tutti I processi di pulizia, leggibilità e pubblicazione - controllo dei vari punti di accesso all’informazione, in modo da sapere senza perdita di tempo chi sono i vari utilizzatori per una rapida comunicazione e verifica in caso di necessità di modifiche ai processi esistenti, o gestione di problemi - possibilità di veloce verifica dell’eventuale presenza di dati sensibili e controllo dell’accesso agli stessi, per poter rispondere e gestire le sempre più precise leggi riguardo la manutenzione di dati di terze parti
Cosa serve quindi per poter arrivare ad avere un processo di data lineage efficace?
In prima battuta il processo deve essere organizzato e di facile e veloce interpretazione; più tempo deve venire speso nella ricerca delle fonti del dato e verifica della relativa manipolazione, meno l’eventuale processo di data lineage sta svolgendo il suo obiettivo.
È inoltre importante che il contesto sia facilmente derivabile per ogni dato e che il processo di data lineage sia completo per tutti i dati che l’azienda mantiene. Non ultimo, è importante che il processo risulti scalabile per una miglior efficacia nell’aggiunta di nuove fonti dato, così come la manutenzione di vecchie fonti in costante evoluzione.
Il processo di data lineage aiuta in questo ed altro, andando a supporto di altri processi di simile importanza come ad esempio il data quality. Ma di questo, ne parleremo la prossima volta!
Comentarios