logo

Che cos'è CRISP nel data mining?

CRISP-DM rappresenta il processo standard intersettoriale per il data mining. La metodologia CRISP-DM fornisce un approccio strutturato alla pianificazione di un progetto di data mining. È una metodologia solida e ben collaudata. Non rivendichiamo alcuna proprietà su di esso. Non l'abbiamo inventato noi. Siamo un convertitore della sua potente praticità, flessibilità e utilità quando utilizziamo l'analisi per risolvere problemi aziendali. È il filo d'oro che attraversa quasi ogni incontro con il cliente.

Questo modello è una sequenza idealizzata di eventi. In pratica, molte attività possono essere eseguite in un ordine diverso e spesso sarà necessario tornare alle attività precedenti e ripetere determinate azioni. Il modello non tenta di acquisire tutti i possibili percorsi attraverso il processo di data mining.

In che modo CRISP aiuta?

CRISP DM fornisce una tabella di marcia, fornisce le migliori pratiche e fornisce strutture per risultati migliori e più rapidi dell'utilizzo del data mining, quindi è così che aiuta l'azienda a seguire durante la pianificazione e la realizzazione di un progetto di data mining.

Fasi del CRISP-DM

CRISP-DM fornisce una panoramica del ciclo di vita del data mining come modello di processo. Il modello del ciclo di vita comprende sei fasi, con le frecce che indicano le dipendenze più importanti e frequenti tra le fasi. La sequenza delle fasi non è rigida. E la maggior parte dei progetti si sposta avanti e indietro tra le fasi secondo necessità. Il modello CRISP-DM è flessibile e può essere personalizzato facilmente.

Ad esempio, se la tua organizzazione mira a individuare il riciclaggio di denaro, probabilmente esaminerai grandi quantità di dati senza uno specifico obiettivo di modellazione. Invece della modellazione, il tuo lavoro si concentrerà sull'esplorazione e sulla visualizzazione dei dati per scoprire modelli sospetti nei dati finanziari. CRISP-DM ti consente di creare un modello di data mining adatto alle tue esigenze.

Include le descrizioni delle fasi tipiche di un progetto, le attività coinvolte in ciascuna fase e una spiegazione delle relazioni tra queste attività.

Cos'è CRISP nel Data Mining

Fase 1: comprensione aziendale

La prima fase del processo CRISP-DM è capire cosa si desidera ottenere dal punto di vista aziendale. La tua organizzazione potrebbe avere obiettivi e vincoli concorrenti che devono essere adeguatamente bilanciati. Questa fase del processo mira a scoprire fattori importanti che influenzano il risultato del progetto. Trascurare questo passaggio può significare che viene profuso un grande sforzo per produrre le risposte giuste alle domande sbagliate.

Quali sono i risultati desiderati del progetto?

    Fissare degli obiettivi:Descrivi il tuo obiettivo principale dal punto di vista aziendale. Potrebbero esserci anche altre domande correlate che vorresti menzionare. Ad esempio, il tuo obiettivo principale potrebbe essere quello di mantenere i clienti attuali prevedendo quando saranno inclini a passare a un concorrente.Produrre il piano di progetto:Descrivere il piano per raggiungere gli obiettivi aziendali e di data mining. Il piano dovrebbe specificare le fasi da eseguire durante il resto del progetto, inclusa la selezione iniziale di strumenti e tecniche.Criteri di successo aziendale:Qui esporrai i criteri che utilizzerai per determinare se il progetto ha avuto successo dal punto di vista aziendale. Idealmente, questi dovrebbero essere specifici e misurabili, ad esempio riducendo il battito del cliente a un certo livello. Tuttavia, a volte potrebbe essere necessario disporre di criteri più soggettivi, come ad esempio fornire spunti utili sulle relazioni.

Valutare la situazione attuale

stringa separata in Java

Ciò implica un'indagine più dettagliata sulle risorse, i vincoli, le ipotesi e altri fattori che dovrai considerare quando determini l'obiettivo dell'analisi dei dati e il piano di progetto.

    Inventario delle risorse:Elenca le risorse disponibili per il progetto, tra cui:
    • Personale (esperti aziendali, esperti di dati, supporto tecnico, esperti di data mining)
    • Dati (estratti fissi, accesso a dati live, archiviati o operativi)
    • Risorse informatiche (piattaforme hardware)
    • Software (strumenti di data mining, altro software pertinente)
    Requisiti, presupposti e vincoli:Elencare tutti i requisiti del progetto, incluso il programma di completamento, la comprensibilità e la qualità dei risultati richieste, nonché eventuali problemi di sicurezza dei dati e questioni legali. Assicurati di essere autorizzato a utilizzare i dati. Elencare le ipotesi formulate dal progetto. Queste possono essere ipotesi sui dati che possono essere verificate durante il data mining, ma possono anche includere ipotesi non verificabili sull'attività correlata al progetto. È importante elencare questi ultimi se influiscono sulla validità dei risultati. Elencare i vincoli del progetto. Questi possono essere vincoli sulla disponibilità delle risorse, ma possono anche includere vincoli tecnologici come la dimensione del set di dati che è pratico utilizzare per la modellazione.Rischi e imprevisti:Elencare i rischi o gli eventi che potrebbero ritardare il progetto o provocarne il fallimento. Elenca i piani di emergenza corrispondenti, ad esempio quali azioni intraprenderai se si verificano questi rischi o eventi?Terminologia:Compilare un glossario della terminologia rilevante per il progetto. Questo avrà generalmente due componenti:
    • Un glossario della terminologia aziendale rilevante costituisce parte della comprensione aziendale a disposizione del progetto. Costruire questo glossario è un utile esercizio di 'elicitazione della conoscenza' e di formazione.
    • Un glossario della terminologia del data mining è illustrato con esempi rilevanti per il problema aziendale.
    Costi e benefici:Costruire un'analisi costi-benefici per il progetto, che confronti i costi del progetto con i potenziali benefici per l'azienda in caso di successo. Questo confronto dovrebbe essere il più specifico possibile. Ad esempio, dovresti utilizzare misure finanziarie in una situazione commerciale.

Determinare gli obiettivi di data mining

Un obiettivo aziendale stabilisce gli obiettivi nella terminologia aziendale. Un obiettivo di data mining definisce gli obiettivi del progetto in termini tecnici. Ad esempio, l'obiettivo aziendale potrebbe essere aumentare le vendite del catalogo ai clienti esistenti. Un obiettivo del data mining potrebbe essere quello di prevedere quanti widget acquisterà un cliente, dati gli acquisti effettuati negli ultimi tre anni, le informazioni demografiche (età, stipendio, città, ecc.) e il prezzo dell'articolo.

    Criteri di successo aziendale:Descrive i risultati previsti del progetto che consentono il raggiungimento degli obiettivi aziendali.Criteri di successo del data mining:Definisce i criteri per un esito positivo del progetto. Ad esempio, un certo livello di accuratezza predittiva o un profilo di propensione all'acquisto con un determinato grado di 'incremento'. Come per i criteri di successo aziendale, potrebbe essere necessario descriverli in termini soggettivi, nel qual caso dovrebbe essere identificata la persona o le persone che esprimono il giudizio soggettivo.

Produrre il piano di progetto

Descrivere il piano previsto per raggiungere gli obiettivi di data mining e gli obiettivi aziendali. Il tuo piano dovrebbe specificare i passaggi da eseguire durante il resto del progetto, inclusa la selezione iniziale di strumenti e tecniche.

1. Piano di progetto: Elenca le fasi da eseguire nel progetto, con la loro durata, risorse richieste, input, output e dipendenze. Ove possibile, provare a rendere esplicite le iterazioni su larga scala nel processo di data mining, ad esempio, ripetizioni delle fasi di modellazione e valutazione.

Nell'ambito del piano di progetto è importante analizzare le dipendenze tra tempistiche e rischi. Contrassegnare esplicitamente i risultati di queste analisi nel piano di progetto, idealmente con azioni e raccomandazioni se i rischi si manifestano. Decidere quale strategia di valutazione verrà utilizzata nella fase di valutazione.

Il piano del tuo progetto sarà un documento dinamico. Alla fine di ogni fase, esaminerai i progressi e i risultati e aggiornerai di conseguenza il piano del progetto. Punti di revisione specifici per questi aggiornamenti dovrebbero far parte del piano di progetto.

aggiornamento da join sql

2. Valutazione iniziale di strumenti e tecniche: Al termine della prima fase, dovresti intraprendere una valutazione iniziale di strumenti e tecniche. Ad esempio, si seleziona uno strumento di data mining che supporta vari metodi per le diverse fasi del processo. È importante valutare strumenti e tecniche nelle prime fasi del processo poiché la selezione di strumenti e tecniche può influenzare l'intero progetto.

Fase 2: comprensione dei dati

La seconda fase del processo CRISP-DM richiede l'acquisizione dei dati elencati nelle risorse del progetto. Questa raccolta iniziale include il caricamento dei dati se necessario per la comprensione dei dati. Ad esempio, se utilizzi uno strumento specifico per la comprensione dei dati, è perfettamente logico caricare i tuoi dati in questo strumento. Se acquisisci più origini dati, devi considerare come e quando le integrerai.

    Rapporto iniziale sulla raccolta dei dati:Elencare le origini dati acquisite, la loro ubicazione, i metodi utilizzati per acquisirli e gli eventuali problemi riscontrati. Registra i problemi riscontrati e le eventuali soluzioni raggiunte. Ciò aiuterà con la replica futura di questo progetto e l'esecuzione di progetti futuri simili.

Descrivere i dati

Esaminare le proprietà 'lorde' o 'superficiali' dei dati acquisiti e riportare i risultati.

    Rapporto sulla descrizione dei dati:Descrivere i dati acquisiti, compreso il formato, la quantità, l'identità dei campi e qualsiasi altra caratteristica della superficie scoperta. Valuta se i dati acquisiti soddisfano le tue esigenze.

Esplora i dati

Durante questa fase, affronterai le domande di data mining utilizzando tecniche di query, visualizzazione dei dati e reporting. Questi possono includere:

Java è vuoto
  • Distribuzione degli attributi chiave
  • Relazioni tra coppie o piccoli numeri di attributi
  • Risultati di aggregazioni semplici
  • Proprietà delle sottopopolazioni significative
  • Semplici analisi statistiche

Queste analisi possono indirizzare direttamente i tuoi obiettivi di data mining. Possono contribuire o perfezionare la descrizione dei dati e le relazioni sulla qualità e alimentare la trasformazione e altre fasi di preparazione dei dati necessarie per ulteriori analisi.

    Rapporto sull'esplorazione dei dati:Descrivi i risultati della tua esplorazione dei dati, inclusi i primi risultati o l'ipotesi iniziale e il loro impatto sul resto del progetto. Se appropriato, potresti includere qui grafici e diagrammi per indicare le caratteristiche dei dati che suggeriscono un ulteriore esame di sottoinsiemi di dati interessanti.

Verificare la qualità dei dati

Esaminare la qualità dei dati, affrontando domande quali:

  • I dati sono completi o coprono tutti i casi richiesti?
  • È corretto o contiene errori e, se ci sono errori, quanto sono comuni?
  • Ci sono valori mancanti nei dati? Se sì, come sono rappresentati, dove si verificano e quanto sono comuni?

Rapporto sulla qualità dei dati

Elencare i risultati della verifica della qualità dei dati. Se esistono problemi di qualità, suggerire possibili soluzioni. Le soluzioni ai problemi di qualità dei dati generalmente dipendono fortemente dai dati e dalla conoscenza del business.

Fase 3: preparazione dei dati

In questa fase del progetto, decidi quali dati utilizzerai per l'analisi. I criteri che potresti utilizzare per prendere questa decisione includono la pertinenza dei dati rispetto agli obiettivi di data mining, la qualità dei dati e vincoli tecnici come i limiti sul volume o sui tipi di dati.

    La logica dell’inclusione/esclusione:Elencare i dati da includere/escludere e le ragioni di tali decisioni.

Pulisci i tuoi dati

Questa attività implica l'aumento della qualità dei dati al livello richiesto dalle tecniche di analisi selezionate. Ciò può comportare la selezione di sottoinsiemi puliti di dati, l’inserimento di valori predefiniti adeguati o tecniche più ambiziose come la stima dei dati mancanti mediante modellizzazione.

    Rapporto sulla pulizia dei dati:Descrivi quali decisioni e azioni hai intrapreso per affrontare i problemi di qualità dei dati. Considerare eventuali trasformazioni dei dati effettuate a fini di pulizia e il loro possibile impatto sui risultati dell'analisi.

Costruisci i dati richiesti

Questa attività include operazioni costruttive di preparazione dei dati come la produzione di attributi derivati, interi nuovi record o valori trasformati per attributi esistenti.

    Attributi derivati:Si tratta di nuovi attributi costruiti da uno o più attributi esistenti nello stesso record. Ad esempio, potresti utilizzare le variabili lunghezza e larghezza per calcolare una nuova variabile area.Record generati:Qui descrivi la creazione di eventuali record completamente nuovi. Ad esempio, potrebbe essere necessario creare record per i clienti che non hanno effettuato acquisti nell'ultimo anno. Non c'era motivo di includere tali registrazioni nei dati grezzi. Tuttavia, potrebbe avere senso rappresentare che particolari clienti abbiano esplicitamente effettuato zero acquisti a fini di modellazione.

Integrare i dati

Questi metodi combinano informazioni provenienti da più database, tabelle o record per creare nuovi record o valori.

    Dati uniti:L'unione di tabelle si riferisce all'unione di due o più tabelle con informazioni diverse sugli stessi oggetti. Ad esempio, una catena di vendita al dettaglio potrebbe avere una tabella con informazioni sulle caratteristiche generali di ciascun negozio (ad esempio, superficie, tipo di centro commerciale), un'altra tabella con dati di vendita riepilogati (ad esempio, profitto, variazione percentuale delle vendite rispetto all'anno precedente) e un altro con informazioni sulla demografia dell'area circostante. Ognuna di queste tabelle contiene un record per ciascun negozio. Queste tabelle possono essere unite in una nuova tabella con un record per ciascun negozio, combinando i campi delle tabelle di origine.Aggregazioni:Le aggregazioni sono operazioni in cui vengono calcolati nuovi valori riepilogando le informazioni provenienti da più record o tabelle. Ad esempio, la conversione di una tabella di acquisti dei clienti in cui un record per ogni acquisto in una nuova tabella e un record per ciascun cliente, con campi quali numero di acquisti, importo medio di acquisto, percentuale di ordini addebitati su carta di credito, percentuale di articoli in promozione ecc.

Fase 4: Modellazione

Seleziona la tecnica di modellazione: come primo passaggio, selezionerai la tecnica di modellazione di base che utilizzerai. Anche se potresti aver già selezionato uno strumento durante la fase di comprensione del business, in questa fase selezionerai la tecnica di modellazione specifica, ad es. costruzione di alberi decisionali con C5.0 o generazione di reti neurali con propagazione all'indietro. Se vengono applicate più tecniche, eseguire questa attività separatamente per ciascuna tecnica.

    Tecnica di modellazione:Documentare la tecnica di modellazione di base da utilizzare.Ipotesi di modellazione:Molte tecniche di modellazione fanno presupposti specifici sui dati, ad esempio che tutti gli attributi abbiano distribuzioni uniformi, che non siano ammessi valori mancanti, che l'attributo della classe debba essere simbolico, ecc. Registrare eventuali ipotesi fatte.

Generare un progetto di prova

data dattiloscritta

Prima di creare un modello, è necessario generare una procedura o un meccanismo per testare la qualità e la validità del modello. Ad esempio, nelle attività di data mining supervisionate come la classificazione, è comune utilizzare i tassi di errore come misure di qualità per i modelli di data mining. Pertanto, in genere si separa il set di dati in set di training e set di test, si crea il modello sul set di training e si stima la sua qualità sul set di test separato.

    Progettazione della prova:Descrivere il piano previsto per la formazione, il test e la valutazione dei modelli. Una componente principale del piano è determinare come dividere il set di dati disponibile in set di dati di training, test e convalida.

Costruisci modello

Esegui lo strumento di modellazione sul set di dati preparato per creare uno o più modelli.

    Impostazioni dei parametri:Con qualsiasi strumento di modellazione, spesso è possibile regolare un gran numero di parametri. Elencare i parametri, i loro valori e la logica per la selezione delle impostazioni dei parametri.Modelli:Questi sono i modelli prodotti dallo strumento di modellazione, non un rapporto sui modelli.Descrizioni dei modelli:Descrivere i modelli risultanti, riferire sull'interpretazione dei modelli e documentare eventuali difficoltà incontrate con i loro significati.

Valutare il modello

Interpreta i modelli in base alla tua conoscenza del dominio, ai criteri di successo del data mining e alla progettazione del test desiderata. Giudicare il successo dell'applicazione delle tecniche di modellazione e scoperta, quindi contattare successivamente analisti aziendali ed esperti di dominio per discutere i risultati del data mining nel contesto aziendale. Questo compito considera solo i modelli, mentre la fase di valutazione considera anche tutti gli altri risultati prodotti durante il progetto.

In questa fase, dovresti classificare i modelli e valutarli secondo i criteri di valutazione. Dovresti considerare gli obiettivi aziendali e i criteri di successo il più possibile qui. Nella maggior parte dei progetti di data mining, una singola tecnica viene applicata più di una volta e i risultati del data mining vengono generati con diverse tecniche.

    Valutazione del modello:Riepiloga i risultati di questa attività, elenca le qualità dei modelli generati (ad esempio, in termini di precisione) e classifica la loro qualità tra loro.Impostazioni dei parametri riviste:In base alla valutazione del modello, rivederli e ottimizzarli per la successiva esecuzione di modellazione. Ripeti la costruzione e la valutazione del modello finché non sei fermamente convinto di aver trovato il/i modello/i migliore/i. Documentare tutte queste revisioni e valutazioni.

Fase 5: valutazione

Valuta i risultati: le fasi di valutazione precedenti riguardavano fattori quali l'accuratezza e la generalità del modello. Durante questa fase, valuterai il grado in cui il modello soddisfa i tuoi obiettivi aziendali e cercherai di determinare se esiste qualche motivo aziendale per cui questo modello è carente. Un'altra opzione è testare il modello su applicazioni di prova nell'applicazione reale se i vincoli di tempo e budget lo consentono. La fase di valutazione prevede anche la valutazione di eventuali altri risultati di data mining generati. I risultati del data mining coinvolgono modelli necessariamente correlati agli obiettivi aziendali originali e tutti gli altri risultati che non sono necessariamente correlati agli obiettivi aziendali originali ma potrebbero anche svelare ulteriori sfide, informazioni o suggerimenti per direzioni future.

    Valutazione dei risultati del data mining:Riassumere i risultati della valutazione in criteri di successo aziendale, inclusa una dichiarazione finale relativa al fatto che il progetto soddisfi già gli obiettivi aziendali iniziali.Modelli omologati:Dopo aver valutato i modelli in base ai criteri di successo aziendale, i modelli generati che soddisfano i criteri selezionati diventano i modelli approvati.

Processo di revisione

A questo punto, i modelli risultanti sembrano soddisfacenti e soddisfano le esigenze aziendali. È ora opportuno effettuare una revisione più approfondita dell'impegno di data mining per determinare se esiste un fattore o un'attività importante che è stata in qualche modo trascurata. Questa revisione copre anche le questioni relative alla garanzia della qualità. Ad esempio: abbiamo costruito correttamente il modello? Abbiamo utilizzato solo gli attributi che ci è consentito utilizzare e che sono disponibili per analisi future?

    Revisione del processo:Riepilogare la revisione del processo ed evidenziare le attività che sono state perse e quelle che dovrebbero essere ripetute.

Determina i passaggi successivi

Ora decidi come procedere in base ai risultati della valutazione e alla revisione del processo. Finisci questo progetto e passi alla distribuzione, avvii ulteriori iterazioni o configuri nuovi progetti di data mining? Dovresti anche fare il punto sulle risorse e sul budget rimanenti, che potrebbero influenzare le tue decisioni.

    Elenco delle possibili azioni:Elencare le possibili ulteriori azioni e le ragioni a favore e contro ciascuna opzione.Decisione:Descrivere la decisione su come procedere, insieme alla motivazione.

Fase 6: distribuzione

Pianificare la distribuzione: nella fase di distribuzione, prenderai i risultati della valutazione e determinerai una strategia per la loro distribuzione. Se è stata identificata una procedura generale per creare i modelli rilevanti, questa procedura viene documentata qui per la successiva distribuzione. È opportuno considerare le modalità e i mezzi di implementazione durante la fase di comprensione del business poiché l'implementazione è fondamentale per il successo del progetto. È qui che l'analisi predittiva aiuta a migliorare il lato operativo della tua azienda.

    Piano di distribuzione:Riepilogare la strategia di distribuzione, inclusi i passaggi necessari e come eseguirli.

Pianificare il monitoraggio e la manutenzione

Il monitoraggio e la manutenzione sono questioni importanti se il risultato del data mining diventa parte dell'attività quotidiana e del suo ambiente. L'attenta preparazione di una strategia di manutenzione aiuta ad evitare periodi inutilmente lunghi di utilizzo errato dei risultati del data mining. Il progetto necessita di un piano dettagliato del processo di monitoraggio per monitorare la distribuzione dei risultati del data mining. Questo piano tiene conto del tipo specifico di distribuzione.

    Piano di monitoraggio e manutenzione:Riepilogare la strategia di monitoraggio e manutenzione, compresi i passaggi necessari e come eseguirli.

Produrre un rapporto finale

Alla fine del progetto, scriverai un rapporto finale. A seconda del piano di implementazione, questo rapporto potrebbe essere solo un riepilogo del progetto e delle sue esperienze (se non sono già state documentate come attività in corso), oppure potrebbe essere una presentazione finale e completa del risultato del data mining.

    Rapporto finale:Questo è il rapporto scritto finale dell'impegno di data mining. Include tutti i risultati finali precedenti, riassumendo e organizzando i risultati.Presentazione finale:Dopo il progetto spesso si terrà un incontro in cui i risultati verranno presentati al cliente.

Revisione del progetto

t ss

Valutare cosa è andato bene e cosa ha sbagliato, cosa è stato fatto bene e cosa necessita di miglioramenti.

    Documentazione dell'esperienza:Riassumere l’importante esperienza acquisita durante il progetto. Ad esempio, questa documentazione potrebbe includere eventuali insidie ​​incontrate, approcci fuorvianti o suggerimenti per selezionare le tecniche di data mining più adatte in situazioni simili. Nei progetti ideali, la documentazione dell'esperienza copre anche eventuali rapporti che i singoli membri del progetto hanno scritto durante le fasi precedenti del progetto.