logo

Grafici quantilici

Il grafico quantile-quantile (q-q plot) è un metodo grafico per determinare se un set di dati segue una certa distribuzione di probabilità o se due campioni di dati provengono dallo stesso popolazione o no. I grafici Q-Q sono particolarmente utili per valutare se un set di dati lo è normalmente distribuito o se segue qualche altra distribuzione conosciuta. Sono comunemente utilizzati nelle statistiche, nell'analisi dei dati e nel controllo di qualità per verificare le ipotesi e identificare le deviazioni dalle distribuzioni previste.

Quantili e percentili

I quantili sono punti in un set di dati che dividono i dati in intervalli contenenti uguali probabilità o proporzioni della distribuzione totale. Sono spesso usati per descrivere la diffusione o la distribuzione di un set di dati. I quantili più comuni sono:



  1. Mediano (50° percentile) : la mediana è il valore medio di un set di dati quando è ordinato dal più piccolo al più grande. Divide il set di dati in due metà uguali.
  2. Quartili (25°, 50° e 75° percentile) : i quartili dividono il set di dati in quattro parti uguali. Il primo quartile (Q1) è il valore sotto il quale cade il 25% dei dati, il secondo quartile (Q2) è la mediana e il terzo quartile (Q3) è il valore sotto il quale cade il 75% dei dati.
  3. Percentili : I percentili sono simili ai quartili ma dividono il set di dati in 100 parti uguali. Ad esempio, il 90° percentile è il valore al di sotto del quale cade il 90% dei dati.

Nota:

  • Un grafico qq è un grafico dei quantili del primo set di dati rispetto ai quantili del secondo set di dati.
  • A scopo di riferimento, viene tracciata anche una linea del 45%; Per se i campioni provengono dalla stessa popolazione i punti si trovano lungo questa linea.


Distribuzione normale:

La distribuzione normale (nota anche come curva di Bell della distribuzione gaussiana) è una distribuzione di probabilità continua che rappresenta la distribuzione ottenuta dai valori reali generati casualmente.

. {displaystyle f(x)={frac {1}{sigma {sqrt {2pi }}}}e^{-{frac {1}{2}}left({frac {x -mu }{sigma }}
ight)^{2}}}



f(x) = Probabilità , Distribuzione , Funzione  mu = media  sigma = standard , deviazione


Distribuzione normale con area sotto la curva




Come disegnare la trama Q-Q?

Per disegnare un grafico Quantile-Quantile (Q-Q), puoi seguire questi passaggi:

  1. Raccogli i dati : raccogli il set di dati per il quale desideri creare il grafico Q-Q. Assicurarsi che i dati siano numerici e rappresentino un campione casuale della popolazione di interesse.
  2. Ordina i dati : disporre i dati in ordine crescente o decrescente. Questo passaggio è essenziale per calcolare accuratamente i quantili.
  3. Scegli una distribuzione teorica : determina la distribuzione teorica con cui vuoi confrontare il tuo set di dati. Le scelte comuni includono la distribuzione normale, la distribuzione esponenziale o qualsiasi altra distribuzione che si adatti bene ai tuoi dati.
  4. Calcolare i quantili teorici : Calcola i quantili per la distribuzione teorica scelta. Ad esempio, se stai confrontando una distribuzione normale, utilizzeresti la funzione di distribuzione cumulativa inversa (CDF) della distribuzione normale per trovare i quantili attesi.
  5. Tracciare :
    • Traccia i valori del set di dati ordinati sull'asse x.
    • Traccia i quantili teorici corrispondenti sull'asse y.
    • Ogni punto dati (x, y) rappresenta una coppia di valori osservati e attesi.
    • Collegare i punti dati per ispezionare visivamente la relazione tra il set di dati e la distribuzione teorica.


Interpretazione del grafico Q-Q

  • Se i punti sul grafico cadono approssimativamente lungo una linea retta, ciò suggerisce che il set di dati segue la distribuzione presunta.
  • Le deviazioni dalla linea retta indicano deviazioni dalla distribuzione assunta, che richiedono ulteriori indagini.

Esplorare la somiglianza della distribuzione con i grafici Q-Q


Esplorare la somiglianza della distribuzione utilizzando i grafici Q-Q è un compito fondamentale in statistica. Confrontare due set di dati per determinare se provengono dalla stessa distribuzione è vitale per vari scopi analitici. Quando vale il presupposto di una distribuzione comune, l’unione di set di dati può migliorare l’accuratezza della stima dei parametri, ad esempio per posizione e scala. I grafici Q-Q, abbreviazione di grafici quantile-quantile, offrono un metodo visivo per valutare la somiglianza della distribuzione. In questi grafici, i quantili di un set di dati vengono tracciati rispetto ai quantili di un altro. Se i punti si allineano strettamente lungo una linea diagonale, ciò suggerisce una somiglianza tra le distribuzioni. Le deviazioni da questa linea diagonale indicano differenze nelle caratteristiche di distribuzione.

Mentre test come il chi-quadrato E Kolmogorov-Smirnov i test possono valutare le differenze di distribuzione complessive, i grafici Q-Q forniscono una prospettiva sfumata confrontando direttamente i quantili. Ciò consente agli analisti di discernere differenze specifiche, come spostamenti di posizione o cambiamenti di scala, che potrebbero non essere evidenti solo dai test statistici formali.

Implementazione Python del grafico Q-Q

Python3

import> numpy as np> import> matplotlib.pyplot as plt> import> scipy.stats as stats> # Generate example data> np.random.seed(>0>)> data>=> np.random.normal(loc>=>0>, scale>=>1>, size>=>1000>)> # Create Q-Q plot> stats.probplot(data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Normal Q-Q plot'>)> plt.xlabel(>'Theoretical quantiles'>)> plt.ylabel(>'Ordered Values'>)> plt.grid(>True>)> plt.show()>
>
>

Produzione:



Trama Q-Q


In questo caso, poiché i punti dati seguono approssimativamente una linea retta nel grafico Q-Q, ciò suggerisce che il set di dati è coerente con la distribuzione teorica presunta, che in questo caso abbiamo assunto essere la distribuzione normale.

Vantaggi del grafico Q-Q

  1. Confronto flessibile : i grafici Q-Q possono confrontare set di dati di dimensioni diverse senza richiedendo la stessa dimensione del campione.
  2. Analisi adimensionale : Sono adimensionali, il che li rende adatti al confronto di set di dati unità o scale diverse.
  3. Interpretazione visiva : Fornisce una rappresentazione visiva chiara della distribuzione dei dati rispetto a una distribuzione teorica.
  4. Sensibile alle deviazioni : rileva facilmente le deviazioni dalle distribuzioni presunte, aiutando a identificare le discrepanze nei dati.
  5. Strumento diagnostico : Aiuta a valutare le ipotesi distribuzionali, a identificare i valori anomali e a comprendere i modelli di dati.

Applicazioni del grafico quantile-quantile

Il grafico Quantile-Quantile viene utilizzato per il seguente scopo:

  1. Valutare le ipotesi distribuzionali : i grafici Q-Q vengono spesso utilizzati per verificare visivamente se un set di dati segue una distribuzione di probabilità specifica, come la distribuzione normale. Confrontando i quantili dei dati osservati con i quantili della distribuzione assunta, è possibile rilevare deviazioni dalla distribuzione assunta. Ciò è cruciale in molte analisi statistiche, dove la validità delle ipotesi distribuzionali influisce sull’accuratezza delle inferenze statistiche.
  2. Rilevamento di valori anomali : i valori anomali sono punti dati che si discostano in modo significativo dal resto del set di dati. I grafici Q-Q possono aiutare a identificare i valori anomali rivelando punti dati che si discostano dal modello previsto della distribuzione. I valori anomali possono apparire come punti che deviano dalla linea retta prevista nel grafico.
  3. Confronto delle distribuzioni : i grafici Q-Q possono essere utilizzati per confrontare due set di dati per vedere se provengono dalla stessa distribuzione. Ciò si ottiene tracciando i quantili di un set di dati rispetto ai quantili di un altro set di dati. Se i punti cadono approssimativamente lungo una linea retta, ciò suggerisce che i due set di dati provengono dalla stessa distribuzione.
  4. Valutare la normalità : I grafici Q-Q sono particolarmente utili per valutare la normalità di un set di dati. Se i punti dati nel grafico seguono da vicino una linea retta, indica che il set di dati è distribuito approssimativamente normalmente. Le deviazioni dalla linea suggeriscono deviazioni dalla normalità, che potrebbero richiedere ulteriori indagini o tecniche statistiche non parametriche.
  5. Convalida del modello : In campi come l'econometria e l'apprendimento automatico, i grafici Q-Q vengono utilizzati per convalidare modelli predittivi. Confrontando i quantili delle risposte osservate con i quantili previsti da un modello, è possibile valutare quanto bene il modello si adatta ai dati. Le deviazioni dal modello previsto possono indicare aree in cui il modello necessita di miglioramenti.
  6. Controllo di qualità : I grafici Q-Q vengono utilizzati nei processi di controllo qualità per monitorare la distribuzione dei valori misurati o osservati nel tempo o tra lotti diversi. Scostamenti dai modelli attesi nel grafico possono segnalare cambiamenti nei processi sottostanti, spingendo ulteriori indagini.

Tipi di grafici Q-Q

Esistono diversi tipi di grafici Q-Q comunemente utilizzati nelle statistiche e nell'analisi dei dati, ciascuno adatto a scenari o scopi diversi:

  1. Distribuzione normale : una distribuzione simmetrica in cui il grafico Q-Q mostrerebbe punti approssimativamente lungo una linea diagonale se i dati aderiscono a una distribuzione normale.
  2. Distribuzione sbilanciata a destra : Una distribuzione in cui il grafico Q-Q mostrerebbe uno schema in cui i quantili osservati deviano dalla linea retta verso l'estremità superiore, indicando una coda più lunga sul lato destro.
  3. Distribuzione sbilanciata a sinistra : Una distribuzione in cui il grafico Q-Q mostrerebbe uno schema in cui i quantili osservati deviano dalla linea retta verso l'estremità inferiore, indicando una coda più lunga sul lato sinistro.
  4. Distribuzione sottodispersa : Una distribuzione in cui il grafico Q-Q mostrerebbe i quantili osservati raggruppati più strettamente attorno alla linea diagonale rispetto ai quantili teorici, suggerendo una varianza inferiore.
  5. Distribuzione eccessivamente dispersa : Una distribuzione in cui il grafico Q-Q mostrerebbe i quantili osservati più sparsi o devianti dalla linea diagonale, indicando una varianza o dispersione più elevata rispetto alla distribuzione teorica.

Python3

import> numpy as np> import> matplotlib.pyplot as plt> import> scipy.stats as stats> # Generate a random sample from a normal distribution> normal_data>=> np.random.normal(loc>=>0>, scale>=>1>, size>=>1000>)> # Generate a random sample from a right-skewed distribution (exponential distribution)> right_skewed_data>=> np.random.exponential(scale>=>1>, size>=>1000>)> # Generate a random sample from a left-skewed distribution (negative exponential distribution)> left_skewed_data>=> ->np.random.exponential(scale>=>1>, size>=>1000>)> # Generate a random sample from an under-dispersed distribution (truncated normal distribution)> under_dispersed_data>=> np.random.normal(loc>=>0>, scale>=>0.5>, size>=>1000>)> under_dispersed_data>=> under_dispersed_data[(under_dispersed_data>>->1>) & (under_dispersed_data <>1>)]># Truncate> # Generate a random sample from an over-dispersed distribution (mixture of normals)> over_dispersed_data>=> np.concatenate((np.random.normal(loc>=>->2>, scale>=>1>, size>=>500>),> >np.random.normal(loc>=>2>, scale>=>1>, size>=>500>)))> # Create Q-Q plots> plt.figure(figsize>=>(>15>,>10>))> plt.subplot(>2>,>3>,>1>)> stats.probplot(normal_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Normal Distribution'>)> plt.subplot(>2>,>3>,>2>)> stats.probplot(right_skewed_data, dist>=>'expon'>, plot>=>plt)> plt.title(>'Q-Q Plot - Right-skewed Distribution'>)> plt.subplot(>2>,>3>,>3>)> stats.probplot(left_skewed_data, dist>=>'expon'>, plot>=>plt)> plt.title(>'Q-Q Plot - Left-skewed Distribution'>)> plt.subplot(>2>,>3>,>4>)> stats.probplot(under_dispersed_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Under-dispersed Distribution'>)> plt.subplot(>2>,>3>,>5>)> stats.probplot(over_dispersed_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Over-dispersed Distribution'>)> plt.tight_layout()> plt.show()>
>
>

Produzione:


Grafico Q-Q per diverse distribuzioni

come trovare app nascoste su Android