logo

Somiglianza del coseno

Prerequisito – Data Mining, la misura di somiglianza si riferisce alla distanza con dimensioni che rappresentano le caratteristiche dell'oggetto dati, in un set di dati. Se questa distanza è minore ci sarà un alto grado di somiglianza, ma quando la distanza è grande ci sarà un basso grado di somiglianza. Alcune delle misure di somiglianza popolari sono:

  1. Distanza euclidea.
  2. Distanza da Manhattan.
  3. Somiglianza con Jaccard.
  4. Distanza Minkowski.
  5. Somiglianza del coseno.

Somiglianza del coseno è una metrica, utile per determinare quanto simili sono gli oggetti dati indipendentemente dalla loro dimensione. Possiamo misurare la somiglianza tra due frasi in Python usando la somiglianza del coseno. Nella somiglianza del coseno, gli oggetti dati in un set di dati vengono trattati come un vettore. La formula per trovare la somiglianza del coseno tra due vettori è:



(x, y) = x . y / ||x||  ||y||>

Dove,

    X . y = prodotto (punto) dei vettori ‘x’ e ‘y’.||x|| E ||e|| = lunghezza (grandezza) dei due vettori ‘x’ e ‘y’.||x|| volte ||e|| = prodotto regolare dei due vettori “x” e “y”.

Esempio : Considera un esempio per trovare la somiglianza tra due vettori: 'X' E 'E' , utilizzando la somiglianza del coseno. Il vettore 'x' ha valori, x = { 3, 2, 0, 5 } Il vettore 'y' ha valori, y = {1, 0, 0, 0} La formula per calcolare la somiglianza del coseno è: (x, y) = x. y / ||x|| ||e||

x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3 ||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16 ||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1 ∴ (x, y) = 3 / (6.16 * 1) = 0.49>

La dissomiglianza tra i due vettori “x” e “y” è data da –



∴ (x, y) = 1 - (x, y) = 1 - 0.49 = 0.51>
  • La somiglianza del coseno tra due vettori è misurata in 'θ'.
  • Se θ = 0°, i vettori ‘x’ e ‘y’ si sovrappongono, dimostrando così che sono simili.
  • Se θ = 90°, i vettori “x” e “y” sono diversi.

Coseno Somiglianza tra due vettori


Vantaggi:

  • La somiglianza del coseno è vantaggiosa perché anche se i due oggetti di dati simili sono distanti della distanza euclidea a causa delle dimensioni, potrebbero comunque avere un angolo più piccolo tra loro. Più piccolo è l'angolo, maggiore è la somiglianza.
  • Quando tracciata su uno spazio multidimensionale, la somiglianza del coseno cattura l'orientamento (l'angolo) degli oggetti dati e non la grandezza.