logo

Apprendimento supervisionato e non supervisionato

L’apprendimento automatico è un campo dell’informatica che dà ai computer la capacità di apprendere senza essere esplicitamente programmati. L’apprendimento supervisionato e l’apprendimento non supervisionato sono due tipi principali di apprendimento automatico .

In apprendimento supervisionato , la macchina viene addestrata su una serie di dati etichettati, il che significa che i dati di input sono accoppiati con l'output desiderato. La macchina impara quindi a prevedere l'output per i nuovi dati di input. L'apprendimento supervisionato viene spesso utilizzato per attività quali classificazione, regressione e rilevamento di oggetti.



Nell'apprendimento non supervisionato, la macchina viene addestrata su un insieme di dati senza etichetta, il che significa che i dati di input non sono accoppiati con l'output desiderato. La macchina impara quindi a trovare modelli e relazioni nei dati. L'apprendimento non supervisionato viene spesso utilizzato per attività come raggruppamento , riduzione della dimensionalità e rilevamento delle anomalie.

Cos'è l'apprendimento supervisionato?

L'apprendimento supervisionato è un tipo di algoritmo di apprendimento automatico che apprende dai dati etichettati. I dati etichettati sono dati contrassegnati con una risposta o una classificazione corretta.

L'apprendimento supervisionato, come indica il nome, prevede la presenza di un supervisore come insegnante. L'apprendimento supervisionato avviene quando insegniamo o addestriamo la macchina utilizzando dati ben etichettati. Ciò significa che alcuni dati sono già contrassegnati con la risposta corretta. Successivamente, alla macchina viene fornita una nuova serie di esempi (dati) in modo che l'algoritmo di apprendimento supervisionato analizzi i dati di addestramento (insieme di esempi di addestramento) e produca un risultato corretto dai dati etichettati.



Ad esempio, un set di dati etichettato di immagini di Elefante, Cammello e Mucca avrebbe ciascuna immagine taggata con Elefante, Cammello o Mucca.

Apprendimento supervisionato

Punti chiave:



  • L'apprendimento supervisionato prevede l'addestramento di una macchina a partire da dati etichettati.
  • I dati etichettati sono costituiti da esempi con la risposta o classificazione corretta.
  • La macchina apprende la relazione tra input (immagini della frutta) e output (etichette della frutta).
  • La macchina addestrata può quindi fare previsioni su dati nuovi e non etichettati.

Esempio:

Diciamo che hai un cesto di frutta che vuoi identificare. La macchina analizzerebbe prima l'immagine per estrarre caratteristiche come forma, colore e trama. Quindi, confronterebbe queste caratteristiche con quelle dei frutti di cui ha già appreso. Se le caratteristiche della nuova immagine fossero molto simili a quelle di una mela, la macchina predirebbe che il frutto è una mela.

stringa Java nell'array

Ad esempio , supponiamo che ti venga dato un cesto pieno di diversi tipi di frutta. Ora il primo passo è addestrare la macchina con tutti i diversi frutti uno per uno in questo modo:

  • Se la forma dell'oggetto è arrotondata e presenta una depressione nella parte superiore, è di colore rosso, verrà etichettato come – Mela .
  • Se la forma dell'oggetto è un lungo cilindro curvo di colore verde-giallo, verrà etichettato come – Banana .

Supponiamo ora, dopo aver addestrato i dati, di aver dato un nuovo frutto separato, ad esempio una banana dal cestino, e di aver chiesto di identificarlo.

Javascript globale variabile

Poiché la macchina ha già imparato le cose dai dati precedenti e questa volta deve usarle saggiamente. Per prima cosa classificherà il frutto in base alla forma e al colore, confermerà il nome del frutto come BANANA e lo inserirà nella categoria Banana. Pertanto la macchina apprende le cose dai dati di addestramento (cestino contenente frutta) e quindi applica la conoscenza ai dati di test (nuovo frutto).

Tipi di apprendimento supervisionato

L’apprendimento supervisionato è classificato in due categorie di algoritmi:

  • Regressione : Un problema di regressione si verifica quando la variabile di output è un valore reale, come dollari o peso.
  • Classificazione : Un problema di classificazione si verifica quando la variabile di output è una categoria, ad esempio Rosso o blu, malattia o nessuna malattia.

L'apprendimento supervisionato si occupa o apprende con dati etichettati. Ciò implica che alcuni dati sono già contrassegnati con la risposta corretta.

1- Regressione

La regressione è un tipo di apprendimento supervisionato utilizzato per prevedere valori continui, come i prezzi delle case, i prezzi delle azioni o il tasso di abbandono dei clienti. Gli algoritmi di regressione apprendono una funzione che mappa dalle caratteristiche di input al valore di output.

Alcuni comuni algoritmi di regressione includere:

  • Regressione lineare
  • Regressione polinomiale
  • Supporta la regressione della macchina vettoriale
  • Regressione dell'albero decisionale
  • Regressione casuale della foresta

2- Classificazione

La classificazione è un tipo di apprendimento supervisionato utilizzato per prevedere valori categorici, ad esempio se un cliente abbandonerà o meno, se un'e-mail è spam o meno o se un'immagine medica mostra o meno un tumore. Gli algoritmi di classificazione apprendono una funzione che mappa dalle caratteristiche di input a una distribuzione di probabilità sulle classi di output.

Alcuni comuni algoritmi di classificazione includere:

  • Regressione logistica
  • Supporta macchine vettoriali
  • Alberi decisionali
  • Foreste casuali
  • L'ingenuo Baye

Valutazione dei modelli di apprendimento supervisionato

La valutazione dei modelli di apprendimento supervisionato è un passo importante per garantire che il modello sia accurato e generalizzabile. Ce ne sono diversi metrica che può essere utilizzato per valutare modelli di apprendimento supervisionato, ma alcuni dei più comuni includono:

Per la regressione

  • Errore quadratico medio (MSE): MSE misura la differenza quadrata media tra i valori previsti e i valori effettivi. Valori MSE inferiori indicano prestazioni migliori del modello.
  • Errore quadratico medio (RMSE): RMSE è la radice quadrata di MSE, che rappresenta la deviazione standard degli errori di previsione. Similmente a MSE, valori RMSE più bassi indicano prestazioni migliori del modello.
  • Errore assoluto medio (MAE): MAE misura la differenza media assoluta tra i valori previsti e i valori effettivi. È meno sensibile ai valori anomali rispetto a MSE o RMSE.
  • R quadrato (coefficiente di determinazione): R-quadrato misura la proporzione della varianza nella variabile target spiegata dal modello. Valori R quadrati più elevati indicano un migliore adattamento del modello.

Per la classificazione

  • Precisione: L'accuratezza è la percentuale di previsioni che il modello effettua correttamente. Si calcola dividendo il numero di pronostici corretti per il numero totale di pronostici.
  • Precisione: La precisione è la percentuale di previsioni positive effettuate dal modello che sono effettivamente corrette. Si calcola dividendo il numero di veri positivi per il numero totale di previsioni positive.
  • Richiamare: Il richiamo è la percentuale di tutti gli esempi positivi che il modello identifica correttamente. Si calcola dividendo il numero di veri positivi per il numero totale di esempi positivi.
  • Punteggio F1: Il punteggio F1 è una media ponderata di precisione e richiamo. Si calcola prendendo la media armonica di precisione e richiamo.
  • Matrice di confusione: Una matrice di confusione è una tabella che mostra il numero di previsioni per ciascuna classe, insieme alle etichette delle classi effettive. Può essere utilizzato per visualizzare le prestazioni del modello e identificare le aree in cui il modello è in difficoltà.

Applicazioni dell'apprendimento supervisionato

L’apprendimento supervisionato può essere utilizzato per risolvere un’ampia varietà di problemi, tra cui:

  • Filtraggio anti-spam: Gli algoritmi di apprendimento supervisionato possono essere addestrati per identificare e classificare le e-mail di spam in base al loro contenuto, aiutando gli utenti a evitare messaggi indesiderati.
  • Classificazione delle immagini: L'apprendimento supervisionato può classificare automaticamente le immagini in diverse categorie, come animali, oggetti o scene, facilitando attività come la ricerca di immagini, la moderazione dei contenuti e i consigli sui prodotti basati su immagini.
  • Diagnosi medica: L'apprendimento supervisionato può aiutare nella diagnosi medica analizzando i dati del paziente, come immagini mediche, risultati dei test e storia del paziente, per identificare modelli che suggeriscono malattie o condizioni specifiche.
  • Intercettazione di una frode: I modelli di apprendimento supervisionato possono analizzare le transazioni finanziarie e identificare modelli che indicano attività fraudolente, aiutando gli istituti finanziari a prevenire le frodi e a proteggere i propri clienti.
  • Elaborazione del linguaggio naturale (PNL): L’apprendimento supervisionato svolge un ruolo cruciale nelle attività di PNL, tra cui l’analisi del sentiment, la traduzione automatica e il riepilogo del testo, consentendo alle macchine di comprendere ed elaborare il linguaggio umano in modo efficace.

Vantaggi dell'apprendimento supervisionato

  • L'apprendimento supervisionato consente la raccolta di dati e produce output di dati da esperienze precedenti.
  • Aiuta a ottimizzare i criteri di prestazione con l'aiuto dell'esperienza.
  • L'apprendimento automatico supervisionato aiuta a risolvere vari tipi di problemi di calcolo del mondo reale.
  • Esegue attività di classificazione e regressione.
  • Permette di stimare o mappare il risultato su un nuovo campione.
  • Abbiamo il controllo completo sulla scelta del numero di classi che desideriamo nei dati di allenamento.

Svantaggi dell'apprendimento supervisionato

  • Classificare i big data può essere impegnativo.
  • La formazione per l’apprendimento supervisionato richiede molto tempo di calcolo. Quindi, richiede molto tempo.
  • L'apprendimento supervisionato non può gestire tutte le attività complesse nel Machine Learning.
  • Il tempo di calcolo è vasto per l’apprendimento supervisionato.
  • Richiede un set di dati etichettato.
  • Richiede un processo di formazione.

Cos'è l'apprendimento non supervisionato?

L'apprendimento non supervisionato è un tipo di apprendimento automatico che apprende da dati senza etichetta. Ciò significa che i dati non hanno etichette o categorie preesistenti. L'obiettivo dell'apprendimento non supervisionato è scoprire modelli e relazioni nei dati senza alcuna guida esplicita.

L’apprendimento non supervisionato è l’addestramento di una macchina utilizzando informazioni che non sono né classificate né etichettate e consentendo all’algoritmo di agire su tali informazioni senza guida. Qui il compito della macchina è raggruppare informazioni non ordinate in base a somiglianze, modelli e differenze senza alcun addestramento preliminare dei dati.

A differenza dell'apprendimento supervisionato, non viene fornito alcun insegnante, il che significa che non verrà impartita alcuna formazione alla macchina. Pertanto la macchina è limitata a trovare da sola la struttura nascosta nei dati non etichettati.

È possibile utilizzare l'apprendimento non supervisionato per esaminare i dati sugli animali raccolti e distinguere tra diversi gruppi in base ai tratti e alle azioni degli animali. Questi raggruppamenti potrebbero corrispondere a varie specie animali, a patto di classificare le creature senza dipendere da etichette già esistenti.

Apprendimento non supervisionato

Punti chiave

  • L'apprendimento non supervisionato consente al modello di scoprire modelli e relazioni nei dati senza etichetta.
  • Gli algoritmi di clustering raggruppano insieme punti dati simili in base alle loro caratteristiche intrinseche.
  • L'estrazione delle caratteristiche cattura informazioni essenziali dai dati, consentendo al modello di fare distinzioni significative.
  • L'associazione delle etichette assegna categorie ai cluster in base ai modelli e alle caratteristiche estratti.

Esempio

Immagina di avere un modello di machine learning addestrato su un ampio set di dati di immagini senza etichetta, contenenti sia cani che gatti. Il modello non ha mai visto prima l'immagine di un cane o di un gatto e non ha etichette o categorie preesistenti per questi animali. Il tuo compito è utilizzare l'apprendimento non supervisionato per identificare i cani e i gatti in un'immagine nuova e invisibile.

Ad esempio , supponiamo che gli venga data un'immagine con sia cani che gatti che non ha mai visto.

rendere eseguibile lo script di shell

Pertanto la macchina non ha idea delle caratteristiche di cani e gatti, quindi non possiamo classificarli come “cani e gatti”. Ma può classificarli in base alle loro somiglianze, modelli e differenze, ovvero possiamo facilmente classificare l'immagine sopra in due parti. Il primo può contenere tutte le foto che hanno cani in essi e la seconda parte può contenere tutte le foto che hanno gatti in loro. Qui non hai imparato nulla prima, il che significa che non ci sono dati di formazione o esempi.

Consente al modello di funzionare da solo per scoprire modelli e informazioni precedentemente non rilevati. Si tratta principalmente di dati non etichettati.

Tipi di apprendimento non supervisionato

L’apprendimento non supervisionato è classificato in due categorie di algoritmi:

  • Raggruppamento : Un problema di clustering si verifica quando si desidera scoprire i raggruppamenti intrinseci nei dati, ad esempio raggruppare i clienti in base al comportamento di acquisto.
  • Associazione : Un problema di apprendimento delle regole di associazione è quello in cui vuoi scoprire regole che descrivono grandi porzioni dei tuoi dati, ad esempio le persone che acquistano X tendono anche ad acquistare Y.

Raggruppamento

Il clustering è un tipo di apprendimento non supervisionato utilizzato per raggruppare insieme punti dati simili. Algoritmi di clustering funzionano spostando in modo iterativo i punti dati più vicini ai centri dei cluster e più lontano dai punti dati in altri cluster.

  1. Esclusivo (partizionamento)
  2. Agglomerante
  3. Sovrapposizione
  4. Probabilistico

Tipi di clustering: -

rete neurale artificiale
  1. Clustering gerarchico
  2. K-significa clustering
  3. Analisi del componente principale
  4. Scomposizione di un valore singolo
  5. Analisi dei componenti indipendenti
  6. Modelli di miscela gaussiana (GMM)
  7. Clustering spaziale basato sulla densità di applicazioni con rumore (DBSCAN)

Apprendimento delle regole associative

L'apprendimento delle regole di associazione è un tipo di apprendimento non supervisionato utilizzato per identificare modelli nei dati. Regola associativa gli algoritmi di apprendimento funzionano trovando relazioni tra diversi elementi in un set di dati.

Alcuni algoritmi comuni di apprendimento delle regole di associazione includono:

  • Algoritmo Apriori
  • Algoritmo Eclat
  • Algoritmo di crescita FP

Valutazione di modelli di apprendimento non supervisionati

La valutazione dei modelli di apprendimento non supervisionato è un passo importante per garantire che il modello sia efficace e utile. Tuttavia, può essere più impegnativo che valutare modelli di apprendimento supervisionato, poiché non esistono dati concreti con cui confrontare le previsioni del modello.

Esistono diversi parametri che possono essere utilizzati per valutare i modelli di apprendimento non supervisionato, ma alcuni dei più comuni includono:

  • Punteggio della sagoma: Il punteggio della silhouette misura quanto bene ciascun punto dati è raggruppato con i propri membri del cluster e separato dagli altri cluster. Varia da -1 a 1, con punteggi più alti che indicano un migliore clustering.
  • Punteggio Calinski-Harabasz: Il punteggio Calinski-Harabasz misura il rapporto tra la varianza tra cluster e la varianza all'interno dei cluster. Varia da 0 a infinito, con punteggi più alti che indicano un migliore clustering.
  • Indice Rand rettificato: L'indice Rand corretto misura la somiglianza tra due cluster. Varia da -1 a 1, con punteggi più alti che indicano raggruppamenti più simili.
  • Indice di Davies-Bouldin: L'indice Davies-Bouldin misura la somiglianza media tra i cluster. Varia da 0 a infinito, con punteggi più bassi che indicano un migliore clustering.
  • Punteggio F1: Il punteggio F1 è una media ponderata di precisione e richiamo, che sono due parametri comunemente utilizzati nell'apprendimento supervisionato per valutare i modelli di classificazione. Tuttavia, il punteggio F1 può essere utilizzato anche per valutare modelli di apprendimento non supervisionato, come i modelli di clustering.

Applicazione dell’apprendimento non supervisionato

L’apprendimento non supervisionato può essere utilizzato per risolvere un’ampia varietà di problemi, tra cui:

  • Rilevamento di anomalie: l'apprendimento non supervisionato può identificare modelli insoliti o deviazioni dal comportamento normale nei dati, consentendo il rilevamento di frodi, intrusioni o errori di sistema.
  • Scoperta scientifica: l’apprendimento non supervisionato può scoprire relazioni e modelli nascosti nei dati scientifici, portando a nuove ipotesi e intuizioni in vari campi scientifici.
  • Sistemi di raccomandazione: l’apprendimento non supervisionato può identificare modelli e somiglianze nel comportamento e nelle preferenze degli utenti per consigliare prodotti, film o musica in linea con i loro interessi.
  • Segmentazione della clientela: l’apprendimento non supervisionato può identificare gruppi di clienti con caratteristiche simili, consentendo alle aziende di indirizzare campagne di marketing e migliorare il servizio clienti in modo più efficace.
  • Analisi delle immagini: l'apprendimento non supervisionato può raggruppare le immagini in base al loro contenuto, facilitando attività come la classificazione delle immagini, il rilevamento degli oggetti e il recupero delle immagini.

Vantaggi dell’apprendimento non supervisionato

  • Non è necessario che i dati di addestramento siano etichettati.
  • La riduzione della dimensionalità può essere facilmente ottenuta utilizzando l’apprendimento non supervisionato.
  • In grado di trovare modelli precedentemente sconosciuti nei dati.
  • L'apprendimento non supervisionato può aiutarti a ottenere approfondimenti da dati senza etichetta che altrimenti non avresti potuto ottenere.
  • L’apprendimento non supervisionato è efficace nel trovare modelli e relazioni nei dati senza che ti venga detto cosa cercare. Questo può aiutarti a imparare cose nuove sui tuoi dati.

Svantaggi dell’apprendimento non supervisionato

  • Difficile misurare l'accuratezza o l'efficacia a causa della mancanza di risposte predefinite durante la formazione.
  • I risultati spesso hanno una precisione minore.
  • L'utente deve dedicare tempo all'interpretazione e all'etichettatura delle classi che seguono tale classificazione.
  • L'apprendimento non supervisionato può essere sensibile alla qualità dei dati, inclusi valori mancanti, valori anomali e dati rumorosi.
  • Senza dati etichettati, può essere difficile valutare le prestazioni dei modelli di apprendimento non supervisionato, rendendo difficile valutarne l’efficacia.

Apprendimento automatico supervisionato e non supervisionato

Parametri Apprendimento automatico supervisionato Apprendimento automatico non supervisionato
Dati in ingresso Gli algoritmi vengono addestrati utilizzando dati etichettati. Gli algoritmi vengono utilizzati rispetto ai dati non etichettati
Complessità computazionale Metodo più semplice Computazionalmente complesso
Precisione Altamente accurato Meno accurato
N. di lezioni Il numero delle classi è noto Il numero delle classi non è noto
Analisi dei dati Utilizza l'analisi offline Utilizza l'analisi dei dati in tempo reale
Algoritmi utilizzati

Regressione lineare e logistica, foresta casuale, classificazione multiclasse, albero decisionale, Support Vector Machine, rete neurale, ecc.

Cluster K-Means, clustering gerarchico, KNN, algoritmo Apriori, ecc.

Produzione Viene fornito l'output desiderato. L'output desiderato non viene fornito.
Dati di allenamento Utilizzare i dati di training per dedurre il modello. Non vengono utilizzati dati di addestramento.
Modello complesso Non è possibile apprendere modelli più ampi e complessi che con l’apprendimento supervisionato. È possibile apprendere modelli più grandi e complessi con l’apprendimento non supervisionato.
Modello Possiamo testare il nostro modello. Non possiamo testare il nostro modello.
Chiamato come L’apprendimento supervisionato è anche chiamato classificazione. L’apprendimento non supervisionato è anche chiamato clustering.
Esempio Esempio: riconoscimento ottico dei caratteri. Esempio: trova un volto in un'immagine.

Supervisione

l’apprendimento supervisionato necessita di supervisione per addestrare il modello.

L'apprendimento non supervisionato non necessita di alcuna supervisione per addestrare il modello.

Conclusione

L’apprendimento supervisionato e quello non supervisionato sono due potenti strumenti che possono essere utilizzati per risolvere un’ampia varietà di problemi. L’apprendimento supervisionato è adatto per attività in cui il risultato desiderato è noto, mentre l’apprendimento non supervisionato è adatto per attività in cui il risultato desiderato è sconosciuto.

Domande frequenti (FAQ)

1. Qual è la differenza tra linguaggio macchina supervisionato e non supervisionato?

L'apprendimento supervisionato e quello non supervisionato sono due approcci fondamentali all'apprendimento automatico che differiscono per i dati di addestramento e gli obiettivi di apprendimento.

è uguale alla stringa in Java
  • Apprendimento supervisionato prevede l'addestramento di un modello di machine learning su un set di dati etichettato, in cui ogni punto dati ha un'etichetta o un valore di output corrispondente. L'algoritmo impara a mappare i dati di input sull'output desiderato, consentendogli di fare previsioni per dati nuovi e invisibili.
  • Apprendimento non supervisionato , d'altro canto, si occupa di set di dati senza etichetta, in cui i punti dati non hanno etichette o valori di output associati.

2. Cos’è l’apprendimento supervisionato?

L'apprendimento supervisionato è un tipo di apprendimento automatico in cui l'algoritmo viene addestrato su un set di dati etichettato, in cui ciascun punto dati ha un'etichetta o un valore di output corrispondente. L'algoritmo impara a mappare i dati di input sull'output desiderato, consentendogli di fare previsioni per dati nuovi e invisibili.

3. Quali sono gli algoritmi comuni di apprendimento supervisionato?

Gli algoritmi comuni di apprendimento supervisionato includono:

  • Classificazione: Utilizzato per assegnare categorie ai punti dati. Gli esempi includono le macchine a vettori di supporto (SVM), la regressione logistica e gli alberi decisionali.
  • Regressione: Utilizzato per prevedere valori numerici continui. Gli esempi includono la regressione lineare, la regressione polinomiale e la regressione ridge.

4. Quali sono gli algoritmi comuni di apprendimento non supervisionato?

Gli algoritmi comuni di apprendimento non supervisionato includono:

  • Raggruppamento: Raggruppamento dei punti dati in cluster in base alla loro somiglianza. Gli esempi includono il clustering k-means e il clustering gerarchico.
  • Riduzione dimensionalità: Ridurre il numero di funzionalità in un set di dati preservando le informazioni più importanti. Gli esempi includono l'analisi delle componenti principali (PCA) e gli autoencoder.

5. Cos’è l’apprendimento non supervisionato?

L'apprendimento non supervisionato è un tipo di apprendimento automatico in cui l'algoritmo viene addestrato su un set di dati senza etichetta, in cui i punti dati non hanno etichette o valori di output corrispondenti. L'algoritmo impara a identificare modelli e strutture nei dati senza una guida esplicita.

6. Quando utilizzare l’apprendimento supervisionato rispetto all’apprendimento non supervisionato?

Utilizza l'apprendimento supervisionato quando disponi di un set di dati etichettato e desideri fare previsioni per nuovi dati. Utilizza l'apprendimento non supervisionato quando disponi di un set di dati senza etichetta e desideri identificare modelli o strutture nei dati.