La scienza dei dati ruota attorno all'elaborazione e all'analisi dei dati utilizzando una gamma di strumenti e tecniche. Nel mondo odierno basato sui dati, ci imbattiamo in tipi di dati che richiedono ciascuno gestione e interpretazione. È importante comprendere i diversi tipi di dati per una corretta analisi dei dati e un'interpretazione statistica. Il tipo di dati determina i metodi statistici e le operazioni corretti da utilizzare. Vari tipi di dati richiedono metodi di analisi e interpretazione diversi per trarre conclusioni significative. In questo articolo esploreremo il concetto di dati e il suo significato, forniremo esempi del mondo reale e ti guideremo attraverso i modi per lavorarci.
Livelli di misurazione
Prima di analizzare un set di dati, è fondamentale identificare il tipo di dati che contiene. Fortunatamente, tutti i dati possono essere raggruppati in una delle quattro categorie: dati nominali, ordinali, di intervallo o di rapporto. Sebbene questi siano spesso definiti tipi di dati, in realtà sono diversi livelli di misurazione. Il livello di misurazione riflette l'accuratezza con cui una variabile è stata quantificata e determina i metodi che possono essere utilizzati per estrarre informazioni dai dati.
Le quattro categorie di dati non sono sempre facili da distinguere e appartengono invece a una gerarchia, in cui ciascun livello si basa sul precedente.

Esistono quattro tipi di dati: categoriali, che possono essere ulteriormente suddivisi in nominali e ordinali, e numerici, che possono essere ulteriormente suddivisi in intervallo e rapporto. Le scale nominale e ordinale sono relativamente imprecise, il che le rende più facili da analizzare, ma offrono informazioni meno accurate. D’altro canto, le scale degli intervalli e dei rapporti sono più complesse e difficili da analizzare, ma hanno il potenziale per fornire informazioni molto più ricche.
- Dati Nominali – I dati nominali sono un tipo di dati di base che classifica i dati etichettando o nominando valori come sesso, colore dei capelli o tipi di animali. Non ha alcuna gerarchia.
- Dati ordinali – I dati ordinali implicano la classificazione dei dati in base al rango, come lo stato sociale, in categorie come “ricco”, “reddito medio” o “povero”. Tuttavia, non esistono intervalli fissi tra queste categorie.
- Dati sull'intervallo – I dati sugli intervalli sono un modo di organizzare e confrontare i dati che includono intervalli misurati. Le scale di temperatura, come Celsius o Fahrenheit, sono buoni esempi di dati a intervalli. Tuttavia, i dati dell'intervallo non hanno un vero zero, il che significa che una misurazione pari a zero può comunque rappresentare una misura quantificabile (come zero gradi Celsius, che è solo un altro punto sulla scala e non significa in realtà che non sia presente alcuna temperatura) .
- Dati sul rapporto – Il livello di misurazione più complesso riguarda i dati relativi ai rapporti. Simile ai dati sugli intervalli, classifica e organizza i dati, utilizzando intervalli misurati. Ma, a differenza dei dati sugli intervalli, i dati sui rapporti includono un vero zero. Quando una variabile è zero, non c'è presenza di quella variabile. Un esempio lampante dei dati rapporti è la misurazione dell'altezza, che non può essere negativa.
Cosa sono i dati nominali?
I dati categorici, noti anche come dati nominali, sono un tipo cruciale di informazioni utilizzate in diversi campi come la ricerca, la statistica e l'analisi dei dati. Comprende categorie o etichette che aiutano a classificare e organizzare i dati. La caratteristica essenziale dei dati categorici è che non possiedono alcun ordine o classificazione intrinseca tra le loro categorie. Invece, queste categorie sono separate, distinte e mutuamente esclusive.

Ad esempio, i dati nominali vengono utilizzati per classificare le informazioni in etichette o categorie distinte senza alcun ordine o classificazione naturale. Queste etichette o categorie sono rappresentate utilizzando nomi o termini e non esiste un ordine o una classificazione naturale tra di esse. I dati nominali sono utili per la classificazione qualitativa e l'organizzazione delle informazioni, consentendo a ricercatori e analisti di raggruppare punti dati in base a attributi o caratteristiche specifici senza implicare alcuna relazione numerica.
- Le categorie di colore degli occhi come blu o verde rappresentano dati nominali. Ogni categoria è distinta, senza ordine o classifica.
- I marchi di smartphone come iPhone o Samsung sono dati nominali. Non esiste una gerarchia tra i marchi.
- Le modalità di trasporto come l'auto o la bicicletta sono dati nominali. Sono categorie discrete senza ordine intrinseco.
Caratteristiche dei dati nominali
- I dati classificati come nominali sono costituiti da categorie completamente separate e distinte l'una dall'altra.
- I dati che rientrano nella categoria nominale sono contraddistinti da etichette descrittive anziché da qualsiasi valore numerico o quantitativo
- I dati nominali non possono essere classificati o ordinati gerarchicamente, poiché nessuna categoria è superiore o inferiore a un'altra.
Esempio
Ecco alcuni esempi di come i dati nominali vengono utilizzati per classificare e classificare le informazioni in categorie distinte e non ordinate:
1. Colori dell'auto: I colori delle auto sono dati nominali, con categorie chiare ma senza ordine o classifica intrinseci. Ogni vettura rientra in una categoria di colore, senza alcun collegamento logico o numerico tra i colori.
2. Tipi di frutta: Le categorie di frutta in un cestino sono nominali. Ogni frutto appartiene ad una categoria specifica senza gerarchia o ordine. Tutte le categorie sono distinte e discrete.
3. Generi di film: I generi cinematografici sono dati nominali poiché non esiste una classificazione tra categorie come azione o commedia. Ogni genere è unico, ma non possiamo dire se uno sia migliore di un altro basandosi solo su questi dati.
Cosa sono i dati ordinali?
I dati ordinali sono una forma di dati qualitativi che classificano le variabili in categorie descrittive. È caratterizzato dal fatto che le categorie che utilizza sono classificate su una sorta di scala gerarchica, ad esempio dall'alto al basso. I dati ordinali sono il secondo tipo di misurazione più complicato, dopo i dati nominali. Sebbene siano più complessi dei dati nominali, che non hanno alcun ordine intrinseco, sono ancora relativamente semplicistici.

Ad esempio, i dati ordinali sono un tipo di dati utilizzato per classificare gli elementi con una gerarchia o un ordine significativo. Queste categorie ci aiutano a confrontare e classificare diversi risultati, posizioni o prestazioni degli studenti, anche se gli intervalli tra loro non sono uguali. I dati ordinali sono utili per comprendere scelte o preferenze ordinate e per valutare le differenze relative.
- Voti scolastici: voti come A, B, C sono dati ordinali, classificati in base ai risultati, ma gli intervalli tra loro variano.
- Livello di istruzione: livelli come scuola superiore, laurea triennale e magistrale sono dati ordinali, ordinati per istruzione, ma i divari tra i livelli differiscono.
- Livello di anzianità: i livelli di lavoro come entry, mid, senior sono dati ordinali, che indicano la gerarchia, ma il divario varia in base al lavoro e al settore.
Caratteristiche dei dati ordinali
- I dati ordinali rientrano nella categoria dei dati non numerici e categoriali, ma possono comunque utilizzare valori numerici come etichette.
- I dati ordinali sono sempre classificati in una gerarchia (da qui il nome “ordinale”).
- I dati ordinali possono essere classificati, ma i loro valori non sono distribuiti uniformemente.
- Con i dati ordinali è possibile calcolare la distribuzione di frequenza, la moda, la mediana e l'intervallo di variabili.
Esempio
Ecco alcuni esempi di come vengono utilizzati i dati ordinali nei campi e nei domini:
1. Livelli di istruzione: I dati ordinali vengono comunemente utilizzati per rappresentare i livelli di istruzione, ad esempio scuola, laurea, master e dottorato. Questi livelli hanno un ordine.
2. Valutazioni della soddisfazione del cliente: Un'altra applicazione dei dati è nei sondaggi sulla soddisfazione dei clienti. Questi sondaggi spesso chiedono agli intervistati di valutare la propria esperienza su una scala, da scarsa a eccellente.
3. Classi Economiche: le classi, inclusa la classe media e la classe superiore, possono essere classificate come dati ordinali in base alla loro classificazione.
Questi esempi dimostrano i modi in cui i dati ordinali vengono utilizzati nei vari campi e domini.
Dati nominali e dati ordinari
| Caratteristiche | Dati nominali | Dati ordinali |
|---|---|---|
| Natura delle categorie | Distinto e discreto | Discreto e Distinto |
| Ordine/Classifica | Nessun ordine intrinseco | Ha un ordine o una classifica chiara |
| Valori numerici | Nessun valore numerico significativo | Nessun valore numerico significativo |
| Tecniche di analisi | Conteggi di frequenza, percentuali, grafici a barre | Classifica, mediana, test non parametrici, grafici a barre ordinate, regressione ordinale |
| Esempio | Colori, genere, tipologie di animali array di byte in stringa | Voti scolastici, livello di istruzione, livello di anzianità |
| Interpretazione | Utilizzato per la classificazione e il raggruppamento in base alla categoria | Utilizzato per valutare preferenze ordinate, gerarchia o classifiche |