CRISP-DM rappresenta il processo standard intersettoriale per il data mining. La metodologia CRISP-DM fornisce un approccio strutturato alla pianificazione di un progetto di data mining. È una metodologia solida e ben collaudata. Non rivendichiamo alcuna proprietà su di esso. Non l'abbiamo inventato noi. Siamo un convertitore della sua potente praticità, flessibilità e utilità quando utilizziamo l'analisi per risolvere problemi aziendali. È il filo d'oro che attraversa quasi ogni incontro con il cliente.
Questo modello è una sequenza idealizzata di eventi. In pratica, molte attività possono essere eseguite in un ordine diverso e spesso sarà necessario tornare alle attività precedenti e ripetere determinate azioni. Il modello non tenta di acquisire tutti i possibili percorsi attraverso il processo di data mining.
In che modo CRISP aiuta?
CRISP DM fornisce una tabella di marcia, fornisce le migliori pratiche e fornisce strutture per risultati migliori e più rapidi dell'utilizzo del data mining, quindi è così che aiuta l'azienda a seguire durante la pianificazione e la realizzazione di un progetto di data mining.
Fasi del CRISP-DM
CRISP-DM fornisce una panoramica del ciclo di vita del data mining come modello di processo. Il modello del ciclo di vita comprende sei fasi, con le frecce che indicano le dipendenze più importanti e frequenti tra le fasi. La sequenza delle fasi non è rigida. E la maggior parte dei progetti si sposta avanti e indietro tra le fasi secondo necessità. Il modello CRISP-DM è flessibile e può essere personalizzato facilmente.
Ad esempio, se la tua organizzazione mira a individuare il riciclaggio di denaro, probabilmente esaminerai grandi quantità di dati senza uno specifico obiettivo di modellazione. Invece della modellazione, il tuo lavoro si concentrerà sull'esplorazione e sulla visualizzazione dei dati per scoprire modelli sospetti nei dati finanziari. CRISP-DM ti consente di creare un modello di data mining adatto alle tue esigenze.
Include le descrizioni delle fasi tipiche di un progetto, le attività coinvolte in ciascuna fase e una spiegazione delle relazioni tra queste attività.
Fase 1: comprensione aziendale
La prima fase del processo CRISP-DM è capire cosa si desidera ottenere dal punto di vista aziendale. La tua organizzazione potrebbe avere obiettivi e vincoli concorrenti che devono essere adeguatamente bilanciati. Questa fase del processo mira a scoprire fattori importanti che influenzano il risultato del progetto. Trascurare questo passaggio può significare che viene profuso un grande sforzo per produrre le risposte giuste alle domande sbagliate.
Quali sono i risultati desiderati del progetto?
Valutare la situazione attuale
stringa separata in Java
Ciò implica un'indagine più dettagliata sulle risorse, i vincoli, le ipotesi e altri fattori che dovrai considerare quando determini l'obiettivo dell'analisi dei dati e il piano di progetto.
- Personale (esperti aziendali, esperti di dati, supporto tecnico, esperti di data mining)
- Dati (estratti fissi, accesso a dati live, archiviati o operativi)
- Risorse informatiche (piattaforme hardware)
- Software (strumenti di data mining, altro software pertinente)
- Un glossario della terminologia aziendale rilevante costituisce parte della comprensione aziendale a disposizione del progetto. Costruire questo glossario è un utile esercizio di 'elicitazione della conoscenza' e di formazione.
- Un glossario della terminologia del data mining è illustrato con esempi rilevanti per il problema aziendale.
Determinare gli obiettivi di data mining
Un obiettivo aziendale stabilisce gli obiettivi nella terminologia aziendale. Un obiettivo di data mining definisce gli obiettivi del progetto in termini tecnici. Ad esempio, l'obiettivo aziendale potrebbe essere aumentare le vendite del catalogo ai clienti esistenti. Un obiettivo del data mining potrebbe essere quello di prevedere quanti widget acquisterà un cliente, dati gli acquisti effettuati negli ultimi tre anni, le informazioni demografiche (età, stipendio, città, ecc.) e il prezzo dell'articolo.
Produrre il piano di progetto
Descrivere il piano previsto per raggiungere gli obiettivi di data mining e gli obiettivi aziendali. Il tuo piano dovrebbe specificare i passaggi da eseguire durante il resto del progetto, inclusa la selezione iniziale di strumenti e tecniche.
1. Piano di progetto: Elenca le fasi da eseguire nel progetto, con la loro durata, risorse richieste, input, output e dipendenze. Ove possibile, provare a rendere esplicite le iterazioni su larga scala nel processo di data mining, ad esempio, ripetizioni delle fasi di modellazione e valutazione.
Nell'ambito del piano di progetto è importante analizzare le dipendenze tra tempistiche e rischi. Contrassegnare esplicitamente i risultati di queste analisi nel piano di progetto, idealmente con azioni e raccomandazioni se i rischi si manifestano. Decidere quale strategia di valutazione verrà utilizzata nella fase di valutazione.
Il piano del tuo progetto sarà un documento dinamico. Alla fine di ogni fase, esaminerai i progressi e i risultati e aggiornerai di conseguenza il piano del progetto. Punti di revisione specifici per questi aggiornamenti dovrebbero far parte del piano di progetto.
aggiornamento da join sql
2. Valutazione iniziale di strumenti e tecniche: Al termine della prima fase, dovresti intraprendere una valutazione iniziale di strumenti e tecniche. Ad esempio, si seleziona uno strumento di data mining che supporta vari metodi per le diverse fasi del processo. È importante valutare strumenti e tecniche nelle prime fasi del processo poiché la selezione di strumenti e tecniche può influenzare l'intero progetto.
Fase 2: comprensione dei dati
La seconda fase del processo CRISP-DM richiede l'acquisizione dei dati elencati nelle risorse del progetto. Questa raccolta iniziale include il caricamento dei dati se necessario per la comprensione dei dati. Ad esempio, se utilizzi uno strumento specifico per la comprensione dei dati, è perfettamente logico caricare i tuoi dati in questo strumento. Se acquisisci più origini dati, devi considerare come e quando le integrerai.
Descrivere i dati
Esaminare le proprietà 'lorde' o 'superficiali' dei dati acquisiti e riportare i risultati.
Esplora i dati
Durante questa fase, affronterai le domande di data mining utilizzando tecniche di query, visualizzazione dei dati e reporting. Questi possono includere:
Java è vuoto
- Distribuzione degli attributi chiave
- Relazioni tra coppie o piccoli numeri di attributi
- Risultati di aggregazioni semplici
- Proprietà delle sottopopolazioni significative
- Semplici analisi statistiche
Queste analisi possono indirizzare direttamente i tuoi obiettivi di data mining. Possono contribuire o perfezionare la descrizione dei dati e le relazioni sulla qualità e alimentare la trasformazione e altre fasi di preparazione dei dati necessarie per ulteriori analisi.
Verificare la qualità dei dati
Esaminare la qualità dei dati, affrontando domande quali:
- I dati sono completi o coprono tutti i casi richiesti?
- È corretto o contiene errori e, se ci sono errori, quanto sono comuni?
- Ci sono valori mancanti nei dati? Se sì, come sono rappresentati, dove si verificano e quanto sono comuni?
Rapporto sulla qualità dei dati
Elencare i risultati della verifica della qualità dei dati. Se esistono problemi di qualità, suggerire possibili soluzioni. Le soluzioni ai problemi di qualità dei dati generalmente dipendono fortemente dai dati e dalla conoscenza del business.
Fase 3: preparazione dei dati
In questa fase del progetto, decidi quali dati utilizzerai per l'analisi. I criteri che potresti utilizzare per prendere questa decisione includono la pertinenza dei dati rispetto agli obiettivi di data mining, la qualità dei dati e vincoli tecnici come i limiti sul volume o sui tipi di dati.
Pulisci i tuoi dati
Questa attività implica l'aumento della qualità dei dati al livello richiesto dalle tecniche di analisi selezionate. Ciò può comportare la selezione di sottoinsiemi puliti di dati, l’inserimento di valori predefiniti adeguati o tecniche più ambiziose come la stima dei dati mancanti mediante modellizzazione.
Costruisci i dati richiesti
Questa attività include operazioni costruttive di preparazione dei dati come la produzione di attributi derivati, interi nuovi record o valori trasformati per attributi esistenti.
Integrare i dati
Questi metodi combinano informazioni provenienti da più database, tabelle o record per creare nuovi record o valori.
Fase 4: Modellazione
Seleziona la tecnica di modellazione: come primo passaggio, selezionerai la tecnica di modellazione di base che utilizzerai. Anche se potresti aver già selezionato uno strumento durante la fase di comprensione del business, in questa fase selezionerai la tecnica di modellazione specifica, ad es. costruzione di alberi decisionali con C5.0 o generazione di reti neurali con propagazione all'indietro. Se vengono applicate più tecniche, eseguire questa attività separatamente per ciascuna tecnica.
Generare un progetto di prova
data dattiloscritta
Prima di creare un modello, è necessario generare una procedura o un meccanismo per testare la qualità e la validità del modello. Ad esempio, nelle attività di data mining supervisionate come la classificazione, è comune utilizzare i tassi di errore come misure di qualità per i modelli di data mining. Pertanto, in genere si separa il set di dati in set di training e set di test, si crea il modello sul set di training e si stima la sua qualità sul set di test separato.
Costruisci modello
Esegui lo strumento di modellazione sul set di dati preparato per creare uno o più modelli.
Valutare il modello
Interpreta i modelli in base alla tua conoscenza del dominio, ai criteri di successo del data mining e alla progettazione del test desiderata. Giudicare il successo dell'applicazione delle tecniche di modellazione e scoperta, quindi contattare successivamente analisti aziendali ed esperti di dominio per discutere i risultati del data mining nel contesto aziendale. Questo compito considera solo i modelli, mentre la fase di valutazione considera anche tutti gli altri risultati prodotti durante il progetto.
In questa fase, dovresti classificare i modelli e valutarli secondo i criteri di valutazione. Dovresti considerare gli obiettivi aziendali e i criteri di successo il più possibile qui. Nella maggior parte dei progetti di data mining, una singola tecnica viene applicata più di una volta e i risultati del data mining vengono generati con diverse tecniche.
Fase 5: valutazione
Valuta i risultati: le fasi di valutazione precedenti riguardavano fattori quali l'accuratezza e la generalità del modello. Durante questa fase, valuterai il grado in cui il modello soddisfa i tuoi obiettivi aziendali e cercherai di determinare se esiste qualche motivo aziendale per cui questo modello è carente. Un'altra opzione è testare il modello su applicazioni di prova nell'applicazione reale se i vincoli di tempo e budget lo consentono. La fase di valutazione prevede anche la valutazione di eventuali altri risultati di data mining generati. I risultati del data mining coinvolgono modelli necessariamente correlati agli obiettivi aziendali originali e tutti gli altri risultati che non sono necessariamente correlati agli obiettivi aziendali originali ma potrebbero anche svelare ulteriori sfide, informazioni o suggerimenti per direzioni future.
Processo di revisione
A questo punto, i modelli risultanti sembrano soddisfacenti e soddisfano le esigenze aziendali. È ora opportuno effettuare una revisione più approfondita dell'impegno di data mining per determinare se esiste un fattore o un'attività importante che è stata in qualche modo trascurata. Questa revisione copre anche le questioni relative alla garanzia della qualità. Ad esempio: abbiamo costruito correttamente il modello? Abbiamo utilizzato solo gli attributi che ci è consentito utilizzare e che sono disponibili per analisi future?
Determina i passaggi successivi
Ora decidi come procedere in base ai risultati della valutazione e alla revisione del processo. Finisci questo progetto e passi alla distribuzione, avvii ulteriori iterazioni o configuri nuovi progetti di data mining? Dovresti anche fare il punto sulle risorse e sul budget rimanenti, che potrebbero influenzare le tue decisioni.
Fase 6: distribuzione
Pianificare la distribuzione: nella fase di distribuzione, prenderai i risultati della valutazione e determinerai una strategia per la loro distribuzione. Se è stata identificata una procedura generale per creare i modelli rilevanti, questa procedura viene documentata qui per la successiva distribuzione. È opportuno considerare le modalità e i mezzi di implementazione durante la fase di comprensione del business poiché l'implementazione è fondamentale per il successo del progetto. È qui che l'analisi predittiva aiuta a migliorare il lato operativo della tua azienda.
Pianificare il monitoraggio e la manutenzione
Il monitoraggio e la manutenzione sono questioni importanti se il risultato del data mining diventa parte dell'attività quotidiana e del suo ambiente. L'attenta preparazione di una strategia di manutenzione aiuta ad evitare periodi inutilmente lunghi di utilizzo errato dei risultati del data mining. Il progetto necessita di un piano dettagliato del processo di monitoraggio per monitorare la distribuzione dei risultati del data mining. Questo piano tiene conto del tipo specifico di distribuzione.
Produrre un rapporto finale
Alla fine del progetto, scriverai un rapporto finale. A seconda del piano di implementazione, questo rapporto potrebbe essere solo un riepilogo del progetto e delle sue esperienze (se non sono già state documentate come attività in corso), oppure potrebbe essere una presentazione finale e completa del risultato del data mining.
Revisione del progetto
t ss
Valutare cosa è andato bene e cosa ha sbagliato, cosa è stato fatto bene e cosa necessita di miglioramenti.