logo

Punteggio Z in statistica

Punteggio Z in statistica è una misura di quante deviazioni standard un punto dati è dalla media di una distribuzione. Troviamo il punteggio z nelle statistiche. Un punteggio z pari a 0 indica che il punteggio del punto dati è uguale al punteggio medio. Un punteggio z positivo indica che il punto dati è superiore alla media, mentre un punteggio z negativo indica che il punto dati è inferiore alla media.

La formula per calcolare lo z-score è: z = (x –μ)/p



Dove:

  • X: è il valore di prova
  • M: è la media
  • A: è il valore standard

In questo articolo discuteremo i seguenti concetti:

Tabella dei contenuti



Cos'è il punteggio Z?

Il punteggio Z, noto anche come punteggio standard, ci indica la deviazione di un punto dati dalla media esprimendola in termini di deviazioni standard al di sopra o al di sotto della media. Ci dà un'idea di quanto un punto dati è lontano dalla media. Pertanto, il punteggio Z viene misurato in termini di deviazione standard dalla media. Ad esempio, un punteggio Z pari a 2 indica che il valore è a 2 deviazioni standard dalla media. Per utilizzare un punteggio z, dobbiamo conoscere la media della popolazione (μ) e anche la deviazione standard della popolazione (σ).

La formula per il punteggio Z

Un punteggio z può essere calcolato utilizzando la seguente formula.

z = (X – μ) / p

Dove,



  • z = punteggio Z
  • X = valore dell'elemento
  • μ = media della popolazione
  • σ = Deviazione standard della popolazione

Come calcolare il punteggio Z?

Ci viene data la media della popolazione (μ), la deviazione standard della popolazione (σ) e il valore osservato (x) nella dichiarazione del problema, sostituendo lo stesso nell'equazione del punteggio Z si ottiene il valore del punteggio Z. A seconda che il punteggio Z indicato sia positivo o negativo, possiamo utilizzare tabella Z positiva O Tabella Z negativa disponibile online o sul retro del tuo libro di testo di statistica in appendice.

Esempio 1:

Sostieni l'esame GATE e ottieni un punteggio di 500. Il punteggio medio per il GATE è 390 e la deviazione standard è 45. Quanto bene hai ottenuto il punteggio nel test rispetto alla media dei partecipanti al test?

Soluzione:

I seguenti dati sono facilmente disponibili nella dichiarazione della domanda di cui sopra

Punteggio grezzo/valore osservato = X = 500

unisci l'ordinamento Java

Punteggio medio = μ = 390

Deviazione standard = σ = 45

Applicando la formula dello z-score,

z = (X – μ) / p

z = (500 – 390) / 45

z = 110/45 = 2,44

Ciò significa che il tuo punteggio z è 2.44 .

Poiché il punteggio Z è positivo 2,44, utilizzeremo la tabella Z positiva.

Ora diamo un'occhiata a Tabella Z (CC-BY) per sapere quanto bene hai ottenuto rispetto agli altri partecipanti al test.

Segui le istruzioni seguenti per trovare la probabilità dalla tabella.

Qui, punteggio z = 2,44, Quale io indica che il punto dati è 2,44 deviazioni standard sopra la media.

metodo sottostringa java
  1. Innanzitutto, mappa le prime due cifre 2.4 sull'asse Y.
  2. Quindi lungo l'asse X, mappa 0.04
  3. Unisci entrambi gli assi. L'intersezione dei due ti fornirà la probabilità cumulativa associata al valore del punteggio Z che stai cercando

[Questa probabilità rappresenta l'area sotto la curva normale standard a sinistra del punteggio Z]

Tavola di distribuzione normale

Tavola di distribuzione normale

Di conseguenza, otterrai il valore finale che è 0,99266 .

Ora, dobbiamo confrontare il nostro punteggio originale di 500 all'esame GATE rispetto al punteggio medio del lotto. Per fare ciò dobbiamo convertire la probabilità cumulativa associata al punteggio Z in un valore percentuale.

0,99266 × 100 = 99,266%

Infine, puoi dire che ti sei comportato bene più di quasi 99% degli altri candidati al test.

Esempio 2 : Qual è la probabilità che uno studente ottenga un punteggio compreso tra 350 e 400 (con un punteggio medio μ di 390 e una deviazione standard σ di 45)?

Soluzione:

Punteggio minimo = X1= 350

pvr modulo completo

Punteggio massimo = X2= 400

Applicando la formula dello z-score,

Con1= (X1 – m) / p

Con1= (350 – 390) / 45

Con1= -40/45 = -0,88

Con2= (X2– m) / pag

z2 = (400 – 390) / 45

Con2= 10/45 = 0,22

Poiché z1 è negativo, dovremo considerare un negativo Tabella Z e scopri che la probabilità cumulativa p1, la prima probabilità, è 0,18943 .

Con2è positivo, quindi usiamo una tabella Z positiva che produce una probabilità cumulativa p2Di 0,58706 .

La probabilità finale viene calcolata sottraendo p1 da p2:

p = p2- P1

p = 0,58706 – 0,18943 = 0,39763

bash elif

La probabilità che uno studente ottenga un punteggio compreso tra 350 e 400 è 39,763% (0,39763 * 100).

Caratteristiche del punteggio Z

  • L'entità del punteggio Z riflette la distanza di un punto dati dalla media in termini di deviazioni standard.
  • Un elemento con un punteggio z inferiore a 0 indica che l'elemento è inferiore alla media.
  • I punteggi Z consentono il confronto di punti dati provenienti da diverse distribuzioni.
  • Un elemento con un punteggio z maggiore di 0 indica che l'elemento è maggiore della media.
  • Un elemento con un punteggio z pari a 0 indica che l'elemento è uguale alla media.
  • Un elemento con un punteggio z pari a 1 indica che l'elemento è maggiore di 1 deviazione standard rispetto alla media; un punteggio z pari a 2, 2 deviazioni standard superiori alla media e così via.
  • Un elemento con un punteggio z pari a -1 indica che l'elemento è 1 deviazione standard inferiore alla media; un punteggio z pari a -2, 2 deviazioni standard inferiori alla media e così via.
  • Se il numero di elementi in un dato insieme è elevato, circa il 68% degli elementi ha un punteggio z compreso tra -1 e 1; circa il 95% ha uno z-score compreso tra -2 e 2; circa il 99% ha un punteggio z compreso tra -3 e 3. Questa è nota come regola empirica e indica la percentuale di dati entro determinate deviazioni standard dalla media in una distribuzione normale, come dimostrato nell'immagine seguente

La regola empirica nella distribuzione normale

Calcola i valori anomali utilizzando il valore Z-Score

Possiamo calcolare valori anomali nei dati utilizzando il valore z-score dei punti dati. I passaggi per considerare un punto dati anomalo sono i seguenti:

  • Innanzitutto raccogliamo il set di dati in cui vogliamo vedere i valori anomali
  • Calcoleremo la media e la deviazione standard del set di dati. Questi valori verranno utilizzati per calcolare il valore z-score di ciascun punto dati.
  • Calcoleremo il valore z-score per ciascun punto dati. La formula per calcolare il valore z-score sarà la stessa di
    Z = frac{{X – mu}}{{sigma}}
    dove X sarà il punto dati, μ è la media dei dati e σ è la deviazione standard del set di dati.
  • Determineremo il valore limite per il punteggio z dopo il quale il punto dati potrebbe essere considerato un valore anomalo. Questo valore limite è un iperparametro che decidiamo in base al nostro progetto.
  • Un punto dati il ​​cui valore z-score è maggiore di 3 significa che il punto dati non appartiene al punto 99,73% del set di dati.
  • Qualsiasi punto dati il ​​cui punteggio z è maggiore del valore limite deciso sarà considerato un valore anomalo.

Controllo: Punteggio Z per il rilevamento dei valori anomali

Implementazione di Z-Score in Python

Possiamo usare Python per calcolare il valore z-score dei punti dati nel set di dati. Inoltre, utilizzeremo la libreria Numpy per calcolare la media e la deviazione standard del set di dati.

Python3 import numpy as np def calculate_z_score(data): # Mean of the dataset mean = np.mean(data) # Standard Deviation of tha dataset std_dev = np.std(data) # Z-score of tha data points z_scores = (data - mean) / std_dev return z_scores # Example dataset dataset = [3,9, 23, 43,53, 4, 5,30, 35, 50, 70, 150, 6, 7, 8, 9, 10] z_scores = calculate_z_score(dataset) print('Z-Score :',z_scores) # Data points which lies outside 3 standard deviatioms are outliers # i.e outside range of99.73% values outliers = [data_point for data_point, z_score in zip(dataset, z_scores) if z_score>3] print(f' I valori anomali nel set di dati sono {valori anomali}')>

Produzione:

Punteggio Z: [-0,7574907 -0,59097335 -0,20243286 0,35262498 0,6301539 -0,72973781
-0,70198492 -0,00816262 0,13060185 0,54689523 1,10195307 3,32218443
-0,67423202 -0,64647913 -0,61872624 -0,59097335 -0,56322046]
I valori anomali nel set di dati sono [150]

Applicazione del punteggio Z

  • I punteggi Z vengono spesso utilizzati per il ridimensionamento delle caratteristiche per portare caratteristiche diverse su una scala comune. Le funzionalità di normalizzazione garantiscono che abbiano media e varianza unitaria pari a zero, il che può essere utile per alcuni algoritmi di machine learning, in particolare quelli che si basano su misure di distanza.
  • I punteggi Z possono essere utilizzati per identificare valori anomali in un set di dati. I punti dati con punteggi Z oltre una certa soglia (solitamente 3 deviazioni standard dalla media) possono essere considerati valori anomali.
  • I punteggi Z possono essere utilizzati negli algoritmi di rilevamento delle anomalie per identificare le istanze che si discostano in modo significativo dal comportamento previsto.
  • I punteggi Z possono essere applicati per trasformare distribuzioni asimmetriche in distribuzioni più normali.
  • Quando si lavora con modelli di regressione, è possibile analizzare i punteggi Z dei residui per verificare l'omoschedasticità (varianza costante dei residui).
  • I punteggi Z possono essere utilizzati nel ridimensionamento delle caratteristiche osservando le loro deviazioni standard dalla media.

Punteggi Z rispetto alla deviazione standard

Punteggio Z

Deviazione standard

Trasformare i dati grezzi in una scala standardizzata.

Misura la quantità di variazione o dispersione in un insieme di valori.

Semplifica il confronto dei valori di diversi set di dati poiché eliminano le unità di misura originali.

La deviazione standard conserva le unità di misura originali, rendendola meno adatta per confronti diretti tra set di dati con unità diverse.

Indica la distanza di un punto dati dalla media in termini di deviazioni standard, fornendo una misura della posizione relativa del punto dati all'interno della distribuzione

Espresso nelle stesse unità dei dati originali, fornendo una misura assoluta di quanto i valori siano distribuiti attorno alla media

come uscire da un ciclo while java

Controllo: Tabella dei punteggi Z

Perché i punteggi Z sono chiamati punteggi standard?

I punteggi Z sono anche noti come punteggi standard perché standardizzano il valore di una variabile casuale. Ciò significa che l'elenco dei punteggi standardizzati ha una media pari a 0 e una deviazione standard pari a 1,0. I punteggi Z consentono anche il confronto dei punteggi su diversi tipi di variabili. Questo perché utilizzano la posizione relativa per equiparare i punteggi di diverse variabili o distribuzioni.

I punteggi Z vengono spesso utilizzati per confrontare una variabile con una distribuzione normale standard (con μ = 0 e σ = 1).

Z-Score in Statistica – Domande frequenti

Qual è il significato dei punteggi Z positivi e negativi?

I punteggi Z positivi indicano valori superiori alla media, mentre i punteggi Z negativi indicano valori inferiori alla media. Il segno riflette la direzione della deviazione dalla media.

Cosa significa un punteggio Z pari a 0?

Uno Z-Score pari a 0 indica che il valore del punto dati è esattamente la media del set di dati. Ciò suggerisce che il punto dati non è né sopra né sotto la media.

Qual è la regola 68-95-99.7 in relazione ai punteggi Z?

La Regola 68-95-99.7, conosciuta anche come Regola Empirica, afferma che:

  • Circa il 68% dei dati rientra in 1 deviazione standard dalla media.
  • Circa il 95% rientra entro 2 deviazioni standard.
  • Circa il 99,7% rientra nelle 3 deviazioni standard.

È possibile utilizzare i punteggi Z per distribuzioni non normali?

I punteggi Z si basano sul presupposto che i dati seguano una distribuzione normale. Tuttavia, in pratica, i punteggi Z sono utili per i dati che seguono una distribuzione normale. Sebbene i punteggi Z possano essere calcolati per qualsiasi distribuzione, la loro interpretazione diventa meno affidabile e semplice quando si tratta di dati distribuiti in modo non normale.

Come si possono applicare i punteggi Z nelle situazioni della vita reale?

Gli Z-Score hanno varie applicazioni, ad esempio nella finanza per l'analisi del portafoglio, nella formazione per test standardizzati, nella salute per valutazioni cliniche e altro ancora. Forniscono una misura standardizzata per confrontare e interpretare i dati.