logo

Algoritmo Apriori

L'algoritmo Apriori si riferisce all'algoritmo utilizzato per calcolare le regole di associazione tra oggetti. Significa come due o più oggetti sono legati tra loro. In altre parole, possiamo dire che l’algoritmo apriori è una regola di associazione che analizza che le persone che hanno acquistato il prodotto A hanno acquistato anche il prodotto B.

L'obiettivo primario dell'algoritmo apriori è creare la regola di associazione tra oggetti diversi. La regola di associazione descrive come due o più oggetti sono correlati tra loro. L'algoritmo Apriori è anche chiamato pattern mining frequente. Generalmente, si utilizza l'algoritmo Apriori su un database costituito da un numero enorme di transazioni. Comprendiamo l'algoritmo a priori con l'aiuto di un esempio; supponiamo che tu vada al Big Bazar e compri diversi prodotti. Aiuta i clienti ad acquistare facilmente i loro prodotti e aumenta le prestazioni di vendita del Big Bazar. In questo tutorial discuteremo dell'algoritmo apriori con esempi.

introduzione

Facciamo un esempio per comprendere meglio il concetto. Avrai notato che il venditore della pizzeria prepara insieme una pizza, una bibita analcolica e un grissino. Offre anche uno sconto ai propri clienti che acquistano queste combo. Ti chiedi mai perché lo fa? Secondo lui i clienti che acquistano la pizza acquistano anche bibite e grissini. Tuttavia, creando combo, rende le cose più facili per i clienti. Allo stesso tempo, aumenta anche le sue prestazioni di vendita.

Allo stesso modo, vai al Big Bazar e troverai biscotti, patatine e cioccolato impacchettati insieme. Ciò dimostra che il negoziante rende comodo per i clienti acquistare questi prodotti nello stesso posto.

I due esempi precedenti sono i migliori esempi di regole di associazione in

  • Supporto
  • Fiducia
  • Sollevare
  • Facciamo un esempio per comprendere questo concetto.

    che ha inventato la scuola

    Ne abbiamo già parlato sopra; hai bisogno di un enorme database contenente un gran numero di transazioni. Supponiamo di avere 4000 transazioni di clienti in un Grande Bazar. Devi calcolare il supporto, la fiducia e l'incremento per due prodotti e potresti dire Biscotti e Cioccolato. Questo perché i clienti acquistano spesso questi due articoli insieme.

    Su 4000 transazioni, 400 contengono biscotti, mentre 600 contengono cioccolato e queste 600 transazioni includono 200 che includono biscotti e cioccolatini. Utilizzando questi dati, scopriremo il supporto, la fiducia e l'incremento.

    Supporto

    Il supporto si riferisce alla popolarità predefinita di qualsiasi prodotto. Trovi il supporto come quoziente della divisione del numero di transazioni che compongono quel prodotto per il numero totale di transazioni. Quindi, otteniamo

    Supporto (Biscotti) = (Transazioni relative ai biscotti) / (Transazioni totali)

    = 400/4000 = 10%.

    Fiducia

    La fiducia si riferisce alla possibilità che i clienti abbiano acquistato insieme biscotti e cioccolatini. Pertanto, per ottenere la fiducia, è necessario dividere il numero di transazioni che comprendono sia biscotti che cioccolatini per il numero totale di transazioni.

    Quindi,

    Fiducia = (Transazioni relative sia ai biscotti che al cioccolato) / (Transazioni totali relative ai biscotti)

    = 200/400

    = 50 per cento.

    Ciò significa che il 50 per cento dei clienti che hanno acquistato biscotti hanno acquistato anche cioccolatini.

    Sollevare

    Considera l'esempio sopra; Il lift si riferisce all'aumento del rapporto tra la vendita di cioccolatini quando vendi biscotti. Le equazioni matematiche della portanza sono riportate di seguito.

    Sollevamento = (Fiducia (Biscotti - cioccolatini)/ (Supporto (Biscotti)

    = 50/10 = 5

    Ciò significa che la probabilità che le persone acquistino insieme biscotti e cioccolatini è cinque volte superiore a quella di acquistare i biscotti da soli. Se il valore di incremento è inferiore a uno, è improbabile che le persone acquistino entrambi gli articoli insieme. Maggiore è il valore, migliore è la combinazione.

    Come funziona l'algoritmo Apriori nel Data Mining?

    Comprenderemo questo algoritmo con l'aiuto di un esempio

    Considera uno scenario del Grande Bazar in cui l'insieme di prodotti è P = {Riso, Legumi, Olio, Latte, Mela}. Il database è composto da sei transazioni dove 1 rappresenta la presenza del prodotto e 0 rappresenta l'assenza del prodotto.

    data locale
    ID della transazione Riso Impulso Latte Olio Mela
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    L'algoritmo Apriori fa le ipotesi date

    • Tutti i sottoinsiemi di un insieme di elementi frequenti devono essere frequenti.
    • I sottoinsiemi di un insieme di elementi poco frequenti devono essere poco frequenti.
    • Correggere un livello di supporto soglia. Nel nostro caso lo abbiamo fissato al 50%.

    Passo 1

    Crea una tabella di frequenza di tutti i prodotti che compaiono in tutte le transazioni. Ora, abbrevia la tabella delle frequenze per aggiungere solo i prodotti con un livello di soglia di supporto superiore al 50%. Troviamo la tabella di frequenza data.

    Prodotto Frequenza (Numero di transazioni)
    Riso (R) 4
    Impulso(P) 5
    Olio(O) 4
    Latte(M) 4

    La tabella sopra indicava i prodotti acquistati frequentemente dai clienti.

    Passo 2

    Crea coppie di prodotti come RP, RO, RM, PO, PM, OM. Otterrai la tabella delle frequenze indicata.

    come restituire un array java
    Set di articoli Frequenza (Numero di transazioni)
    RP 4
    RO 3
    RM 2
    DOPO 4
    PM 3
    DI 2

    Passaggio 3

    Implementare la stessa soglia di supporto del 50% e considerare i prodotti che superano il 50%. Nel nostro caso sono più di 3

    Pertanto, otteniamo RP, RO, PO e PM

    Passaggio 4

    Ora cerca un set di tre prodotti che i clienti acquistano insieme. Otteniamo la combinazione data.

    1. RP e RO danno RPO
    2. PO e PM danno POM

    Passaggio 5

    Calcola la frequenza dei due insiemi di elementi e otterrai la tabella delle frequenze indicata.

    lattice di simboli di derivata parziale
    Set di articoli Frequenza (Numero di transazioni)
    RPO 4
    POM 3

    Se implementi il ​​presupposto della soglia, puoi capire che l'insieme di tre prodotti dei clienti è RPO.

    Abbiamo considerato un semplice esempio per discutere l'algoritmo a priori nel data mining. In realtà, trovi migliaia di combinazioni simili.

    Come migliorare l'efficienza dell'algoritmo Apriori?

    Esistono vari metodi utilizzati per l'efficienza dell'algoritmo Apriori

    Conteggio di set di elementi basato su hash

    Nel conteggio degli insiemi di elementi basato su hash, è necessario escludere l'insieme di elementi k il cui conteggio dei bucket di hashing equivalente è inferiore alla soglia è un insieme di elementi poco frequenti.

    Riduzione delle transazioni

    Nella riduzione delle transazioni, una transazione che non coinvolge alcun set di elementi X frequenti diventa non preziosa nelle scansioni successive.

    Algoritmo Apriori nel data mining

    Abbiamo già discusso un esempio dell'algoritmo apriori relativo alla generazione frequente di itemset. L'algoritmo Apriori ha molte applicazioni nel data mining.

    Di seguito sono riportati i requisiti principali per trovare le regole di associazione nel data mining.

    Usa la forza bruta

    Analizza tutte le regole e trova i livelli di supporto e confidenza per la singola regola. Successivamente, eliminare i valori che sono inferiori alla soglia di supporto e ai livelli di confidenza.

    Gli approcci in due fasi

    L'approccio in due fasi è un'opzione migliore per trovare le regole delle associazioni rispetto al metodo Brute Force.

    Passo 1

    In questo articolo abbiamo già discusso di come creare la tabella di frequenza e calcolare gli itemset aventi un valore di supporto maggiore di quello della soglia di supporto.

    Passo 2

    alfabeto con numeri

    Per creare regole di associazione, è necessario utilizzare una partizione binaria degli insiemi di elementi frequenti. Devi scegliere quelli con i livelli di confidenza più alti.

    Nell'esempio precedente, puoi vedere che la combinazione RPO era l'insieme di elementi frequenti. Ora scopriamo tutte le regole utilizzando RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Puoi vedere che ci sono sei diverse combinazioni. Pertanto, se hai n elementi, ce ne saranno 2N- 2 regole dell'associazione candidata.

    Vantaggi dell'algoritmo Apriori

    • Viene utilizzato per calcolare insiemi di articoli di grandi dimensioni.
    • Semplice da capire e applicare.

    Svantaggi degli algoritmi Apriori

    • L'algoritmo Apriori è un metodo costoso per trovare supporto poiché il calcolo deve passare attraverso l'intero database.
    • A volte è necessario un numero enorme di regole candidate, quindi diventa computazionalmente più costoso.