introduzione
L’apprendimento automatico ha riformato il modo in cui elaboriamo ed esaminiamo i dati e gli algoritmi dell’albero decisionale sono una decisione famosa per le attività di classificazione e regressione. L'indice di Gini, altrimenti chiamato Gini Impurity o Gini Coefficient, è una misura significativa di impurità utilizzata negli algoritmi dell'albero decisionale. In questo articolo esamineremo in modo esaustivo l'idea dell'indice Gini, la sua formula numerica e le sue applicazioni nell'apprendimento automatico. Allo stesso modo confronteremo l’indice Gini e altre misure di impurità, parleremo dei suoi limiti e vantaggi e esamineremo le analisi contestuali delle sue applicazioni nel mondo reale. Finalmente presenteremo i futuri orientamenti della ricerca da queste parti.
Cos'è l'indice Gini?
L’indice di Gini è una proporzione di impurità o disuguaglianza in contesti statistici e monetari. Nell'apprendimento automatico, viene utilizzato come misura di impurità negli algoritmi dell'albero decisionale per attività di classificazione. L'indice di Gini misura la probabilità che un test scelto a caso venga classificato erroneamente da un algoritmo dell'albero decisionale e il suo valore va da 0 (perfettamente puro) a 1 (perfettamente impuro).
Formula dell'indice di Gini
L'indice di Gini è una proporzione dell'impurità o della disuguaglianza di una circolazione, regolarmente utilizzata come misura dell'impurità negli algoritmi dell'albero decisionale. Per quanto riguarda gli alberi decisionali, l'indice Gini viene utilizzato per determinare la migliore caratteristica su cui suddividere i dati in ogni nodo dell'albero.
La formula per l'indice Gini è la seguente:
dove pi è la probabilità che una cosa abbia un posto con una classe specifica.
Ad esempio, dovremmo considerare un problema di classificazione binaria con due classi An e B. Nel caso in cui la probabilità della classe An sia p e la probabilità della classe B sia (1-p), allora l'indice di Gini può essere calcolato come :
Il valore dell'indice di Gini va da 0,0 a 0,5 per problemi di classificazione binaria, dove 0,0 dimostra un nodo perfettamente puro (tutti gli esempi hanno un posto con una classe simile) e 0,5 mostra un nodo perfettamente impuro (i test sono equamente distribuiti tra le due classi ).
Utilizzo dell'indice di Gini nei problemi di classificazione
L'indice di Gini è generalmente utilizzato come misura di impurità negli algoritmi dell'albero decisionale per problemi di classificazione. Negli alberi decisionali, ogni nodo indirizza un elemento e l'obiettivo è dividere i dati in sottoinsiemi che siano essenzialmente puri quanto ci si potrebbe aspettare. La misura dell'impurità (come l'indice Gini) viene utilizzata per decidere la migliore suddivisione in ogni nodo.
Per illustrare ciò, dovremmo considerare un esempio di albero decisionale per un problema di classificazione binaria. L'albero ha due elementi: età e reddito, e l'obiettivo è prevedere indipendentemente dalla probabilità che un individuo acquisterà un oggetto. L'albero è costruito utilizzando l'indice Gini come misura dell'impurità.
Al nodo radice, l'Indice di Gini viene calcolato in considerazione della probabilità che gli esempi abbiano un posto di classe 0 o di classe 1. Il nodo viene suddiviso in considerazione della componente che determina la diminuzione più elevata dell'Indice di Gini. Questo ciclo viene ripetuto ricorsivamente per ogni sottoinsieme finché non viene soddisfatta una misura di arresto.
Alberi decisionali
Un albero decisionale è un noto algoritmo di apprendimento automatico utilizzato sia per attività di classificazione che di regressione. Un modello viene elaborato suddividendo ricorsivamente il set di dati in sottoinsiemi più modesti alla luce dei valori delle informazioni evidenziate, determinati a limitare l'impurità dei sottoinsiemi successivi.
In ogni nodo dell'albero viene presa una decisione in base ai valori di uno dei punti salienti delle informazioni, con l'obiettivo finale che i sottoinsiemi successivi siano fondamentalmente puri quanto ci si potrebbe aspettare. La purezza di un sottoinsieme viene regolarmente stimata da una misura di impurità, ad esempio l'indice di Gini o l'entropia.
L'algoritmo dell'albero decisionale può essere utilizzato per attività di classificazione sia binaria che multiclasse, nonché per attività di regressione. Nelle attività di classificazione binaria, l'albero decisionale divide il set di dati in due sottoinsiemi alla luce del valore di una caratteristica binaria, come sì o no. Nelle attività di classificazione multiclasse, l'albero decisionale divide il set di dati in numerosi sottoinsiemi alla luce dei valori di una caratteristica semplice, come rosso, verde o blu.
Indice di Gini rispetto ad altre misure di impurità
Oltre all’indice di Gini, esistono altre misure di impurità normalmente utilizzate negli algoritmi dell’albero decisionale, ad esempio l’entropia e il guadagno di informazioni.
Entropia:
Nell’apprendimento automatico, l’entropia è una proporzione dell’irregolarità o della vulnerabilità in un insieme di dati. Viene generalmente utilizzato come misura di impurità negli algoritmi dell'albero decisionale, insieme all'indice di Gini.
Negli algoritmi dell'albero decisionale, l'entropia viene utilizzata per decidere il componente migliore su cui suddividere i dati in ogni nodo dell'albero. L'obiettivo è trovare l'elemento che determina la maggiore diminuzione dell'entropia, che si riferisce alla componente che fornisce maggiori informazioni sul problema di classificazione.
Sebbene l'entropia e l'indice di Gini siano entrambi normalmente utilizzati come misure di impurità negli algoritmi dell'albero decisionale, hanno varie proprietà. L’entropia è più sensibile alla circolazione dei nomi delle classi e in generale fornirà alberi più adeguati, mentre l’indice di Gini è meno sensibile all’appropriazione dei voti delle classi e in generale creerà alberi più limitati con meno suddivisioni. La decisione sulla misura dell'impurità si basa sul problema particolare e sugli attributi dei dati.
Guadagno di informazioni:
L'acquisizione di informazioni è un'azione utilizzata per valutare la natura di una suddivisione durante la costruzione di un albero decisionale. L'obiettivo di un albero decisionale è quello di suddividere i dati in sottoinsiemi che sono sostanzialmente omogenei quanto immaginabile per la variabile obiettivo, in modo che l'albero successivo possa essere utilizzato per formulare aspettative esatte sui nuovi dati. Il guadagno di informazioni misura la diminuzione di entropia o impurità ottenuta da una scissione. La caratteristica con il guadagno di informazioni più notevole viene scelta come migliore caratteristica su cui suddividere in ogni nodo dell'albero decisionale.
Il guadagno di informazioni è una misura normalmente utilizzata per valutare la natura delle divisioni negli alberi decisionali, ma non è quella su cui concentrarsi. Allo stesso modo possono essere utilizzate diverse misure, come ad esempio l’indice di Gini o il tasso di errata classificazione. La decisione di dividere la base si basa sulla questione principale e sugli attributi del set di dati utilizzato.
Esempio di indice Gini
Dovremmo considerare un problema di classificazione binaria in cui abbiamo un set di dati di 10 esempi con due classi: 'Positivo' e 'Negativo'. Dei 10 esempi, 6 rientrano nella classe 'Positiva' e 4 nella classe 'Negativa'.
Per calcolare l'indice di Gini del set di dati, calcoliamo inizialmente la probabilità di ciascuna classe:
p_1 = 6/10 = 0,6 (positivo)
p_2 = 4/10 = 0,4 (negativo)
Quindi, a quel punto, utilizziamo la formula dell'indice Gini per calcolare l'impurità del set di dati:
Gini(S) = 1 - (p_1^2 + p_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
Pertanto, l'indice Gini del set di dati è 0,48.
Supponiamo ora di dover dividere il set di dati su un elemento 'X' che ha due valori potenziali: 'A' e 'B'. Dividiamo il dataset in due sottoinsiemi in considerazione della componente:
Sottoinsieme 1 (X = A): 4 positivi, 1 negativo
Sottoinsieme 2 (X = B): 2 positivi, 3 negativi
Per calcolare la diminuzione dell'indice di Gini per questa suddivisione, calcoliamo inizialmente l'indice di Gini di ogni sottoinsieme:
Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0.32
Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0.48
Quindi, utilizziamo la formula del guadagno di informazioni per calcolare la diminuzione dell'indice di Gini:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Pertanto, il guadagno di informazioni (ovvero la diminuzione dell'indice di Gini) per la suddivisione del set di dati nell'evidenziazione 'X' è 0,08.
Per questa situazione, nel caso in cui calcoliamo il guadagno di informazioni per tutti gli elementi e scegliamo quello con il guadagno di informazioni più notevole, quel componente verrebbe scelto come il componente migliore su cui dividersi nel nodo radice dell'albero decisionale.
Vantaggi:
L’indice di Gini è una misura ampiamente utilizzata per valutare la natura delle divisioni negli alberi decisionali e gode di un certo vantaggio rispetto ad altre misure, ad esempio l’entropia o il tasso di errata classificazione. Ecco alcuni dei principali vantaggi derivanti dall’utilizzo dell’indice Gini:
Scorciatoie da tastiera di Linux
Efficace dal punto di vista computazionale: L'indice di Gini è una misura meno complessa e computazionalmente più veloce rispetto ad altre misure, ad esempio l'entropia, che implica il calcolo dei logaritmi.
Interpretazione intuitiva: L'indice di Gini è semplice e interpretabile. Misura la probabilità che un esemplare scelto a caso da un insieme venga classificato in modo errato nel caso in cui fosse contrassegnato a casaccio in base alla classe di trasporto nell'insieme.
Buono per la classificazione binaria: L'indice di Gini è particolarmente efficace per i problemi di classificazione binaria, in cui la variabile obiettivo ha solo due classi. In questi casi, è noto che l’indice di Gini è più stabile rispetto a misure diverse.
Robusto rispetto allo squilibrio di classe: L'indice di Gini è meno sensibile allo squilibrio di classe rispetto ad altri parametri, ad esempio il tasso di precisione o di classificazione errata. Ciò è dovuto al fatto che l’indice di Gini dipende dall’estensione generale degli esempi in ciascuna classe anziché dai numeri assoluti.
Meno incline al sovradattamento: L’indice di Gini in generale creerà alberi decisionali più modesti in contrasto con misure diverse, il che lo rende meno incline al sovradattamento. Ciò è dovuto al fatto che l’indice di Gini tenderà a favorire caratteristiche che costituiscono porzioni più piccole di dati, il che riduce le possibilità di adattamento eccessivo.
Svantaggi:
Sebbene l’indice di Gini offra alcuni vantaggi come misura di suddivisione degli alberi decisionali, presenta anche alcuni svantaggi. Ecco alcuni dei principali svantaggi dell’utilizzo dell’indice Gini:
Pregiudizio verso funzionalità con molte categorie: L'indice di Gini in generale si rivolgerà a caratteristiche con molte categorie o valori, poiché possono effettuare più suddivisioni e lotti dei dati. Ciò può portare a un adattamento eccessivo e a un albero decisionale più complicato.
Non va bene per variabili continue: L'indice di Gini non è appropriato per variabili continue, poiché richiede la discretizzazione della variabile in categorie o contenitori, il che può comportare la perdita di informazioni e una diminuzione dell'esattezza.
Ignora le interazioni delle funzionalità: L’indice di Gini pensa solo alla forza preveggente individuale di ciascuna caratteristica e ignora le interazioni tra le caratteristiche. Ciò può portare a frazionamenti inadeguati e previsioni meno esatte.
Non ideale per alcuni set di dati: a volte, l’indice di Gini potrebbe non essere la misura ideale per valutare la natura delle suddivisioni in un albero decisionale. Ad esempio, nel caso in cui la variabile obiettivo sia eccezionalmente inclinata o sbilanciata, misure diverse, ad esempio il guadagno di informazioni o la proporzione del guadagno, potrebbero essere più adatte.
Incline a bias in presenza di valori mancanti: L'indice di Gini può essere distorto in presenza di valori mancanti, poiché in generale tenderà verso caratteristiche con meno valori mancanti, indipendentemente dal fatto che non siano le più informative.
Applicazioni nel mondo reale dell'indice Gini
L'indice Gini è stato utilizzato in diverse applicazioni nell'apprendimento automatico, ad esempio nella localizzazione delle estorsioni, nel punteggio del credito e nella divisione dei clienti. Ad esempio, nella scoperta di estorsioni, l'indice Gini può essere utilizzato per distinguere i progetti nello scambio di dati e riconoscere modi di comportamento bizzarri. Nel credit scoring, l'indice Gini può essere utilizzato per prevedere la probabilità di default in considerazione di variabili come il reddito, il rapporto del debito in sospeso con la retribuzione a casa e la registrazione del rimborso del prestito. Nella divisione dei clienti, l'indice Gini può essere utilizzato per raggruppare i clienti in base al loro modo di comportarsi e alle loro inclinazioni.
Ricerca futura
Nonostante il suo uso illimitato negli algoritmi degli alberi decisionali, c’è ancora molto spazio per la ricerca sull’indice di Gini. Un’area di ricerca è lo sviluppo di nuove misure di impurità che possano affrontare i limiti dell’indice di Gini, come la sua inclinazione verso fattori con molti livelli. Un'altra area di ricerca è lo snellimento degli algoritmi degli alberi decisionali che utilizzano l'indice Gini, ad esempio l'utilizzo di tecniche di equipaggiamento per lavorare sulla precisione degli alberi decisionali.
Conclusione
L'indice di Gini è una misura di impurità significativa utilizzata negli algoritmi dell'albero decisionale per attività di classificazione. Misura la probabilità che un test scelto a caso venga classificato erroneamente da un algoritmo dell'albero decisionale e il suo valore va da 0 (perfettamente puro) a 1 (perfettamente impuro). L'indice Gini è semplice ed efficiente, produttivo dal punto di vista computazionale ed efficace contro le eccezioni. È stato utilizzato in diverse applicazioni nell'apprendimento automatico, ad esempio nella scoperta di false dichiarazioni, nel punteggio del credito e nella divisione dei clienti. Anche se l’indice Gini presenta alcune limitazioni, c’è ancora spazio per la ricerca sul suo miglioramento e sul miglioramento delle nuove misure di impurità.