1 Metrica di MahalaNobis e ricerca di outlier multivariati

Introduco in questa lezione la distanza di Mahalanobis , che ci dà anche uno strumento per definire degli outliers multivariati.

Preferisco in questo caso il termine anglosassone outlier ossia che sta lontano, invece della pessima traduzione italiana dato anomalo, invalsa qualche decina di anni fa, che etimologicamente identifica gli outlier con dei dati sbagliati. Semplicemente, per il mio modo di vedere la statistica, più che di dati anomali si tratta di dati che stanno lontano, forse sono lontani, o forse sono un po’ differenti, forse sono indizio di un’eterogeneità insita nei dati. Questo direi dunque che è uno dei pochi casi in cui è più prudente usare il termine anglosassone.

In effetti nell’epoca attuale di grande disponibilità di dati, se non si ha a che fare con indagini pianificate, molto spesso dal punto di vista esplorativo si cercano tecniche che possano dare una buona descrizione della maggior parte dei dati (non necessariamente tutti), essendo esperienza comune che in una massa di dati molto grande, ottenuta magari senza un piano campionario definito, sarà inevitabile avere a che fare con outlier, o occorrerà comunque saperli identificare.

1.1 Inizializzazione

Vengono caricati i packages necessari per realizzare questo documento

1.2 Variabili osservate.

Matrice di grafici per le sole variabili Altezza, Span, Torace rilevate su 1427 righe

round(      cor(dati),3   )
        Altezza  Span Torace
Altezza   1.000 0.892  0.587
Span      0.892 1.000  0.578
Torace    0.587 0.578  1.000
MLA.explor.pairs(dati)

1.3 Definizione di distanza Mahalanobis.

E’ una forma di distanza standardizzata, in cui si tiene conto non solo della diversa dispersione delle variabili, ma anche della loro correlazione.

1.4 Esempio con tre variabili:

        Altezza  Span Torace
Altezza   1.000 0.892  0.587
Span      0.892 1.000  0.578
Torace    0.587 0.578  1.000

You must enable Javascript to view this page properly.

1.5 La metrica euclidea è sempre adeguata?

La presenza di forti correlazioni fra le variabili può rendere inappropriato l’uso della distanza euclidea.

Osserviamo la nuvola di punti riportati nella figura.

Con una sfera rossa è indicato il centroide \(C\) dei punti, di coordinate \(C=\{0, 0, 0\}\) perchè si sono standardizzati i dati.

Poi vengono evidenziati due punti, ossia quelli di indice 894, 178, che approssimativamente sono equidistanti dal centroide. Le loro distanze euclidee dal centroide sono infatti, rispettivamente:

\[d(P_{894},C)=\sum_{j=1}^3 (x_{ij}-C_j)^2 = 2.517\] \[d(P_{178},C)=\sum_{j=1}^3 (x_{ij}-C_j)^2 =2.44\].

Eppure palesemente il punto \(P_{894}\) sembra più lontano dal centro, rispetto al punto \(P_{178}\), che invece sembra più interno rispetto alla massa dei dati. Il punto \(P_{894}\) invece sembra più esterno, sta in una zona più in cui non vi sono altri punti prossimi.

Questo accade perchè la distanza eucclidea non tiene conto delle correlazioni fra le variabili

You must enable Javascript to view this page properly.

D’altra parte, se ora rappresentiamo una sfera di raggio 2.45 centrata nel centroide, sulla sua superficie abbiamo i punti che distano 2.45 dal centro, secondo una metrica euclidea, vediamo che in effetti questa sfera ha una forma che non somiglia alla nostra nuvola di punti 3D.

1.6 Ellissi di concentrazione

Consideriamo la forma della nuvola di punti e costruiamo un ellissoide di concentrazione, ossia un ellissoide centarto sul centroide dei dati e che ha come assi gli assi principali della nuvola dei punti.

Sarebbe l’ellissoide di equiprobabilità di una normale multivariata con gli stessi primi due momenti multivariati dei nostri dati (vettore medie e matrice di varianze e covarianze).

(onestamente non è necessario ricorrrere alla normale multivariata per giustificare il nostro ragionamento: basta dire che prendiamo un ellisse centrato nel centroide dei dati e con gli stessi assi principali della nostra nuvola di punti)

glX 
  4 

You must enable Javascript to view this page properly.

Nella figura è rappresentato l’ellissoide ad un livello di probabilità di 0.95. E’ importante ruotare la figura interattivamente per rendersi conto dell’effetiva distanza del punto \(P_{894}\) dal centro

Rispetto a questa rappresentazione \(P_{178}\) è senz’altro interno a tale ellissoide, mentre \(P_{894}\) è palesemente esterno.

E’ come dire che in una distribuzione normale multivariata questo punto più esterno ha una densità molto bassa`

1.7 Definizione della distanza di Mahalanobis

Praticamente utilizziamo la formula: \[ d^2(P_i,C)=[\mathbf{x}_i-C]^T\Sigma^{-1}[\mathbf{x}_i-C] \] che sostanzialmente costituisce una sorta di standardizzazione della differenza fra \(\mathbf{x}_i\) e \(C\), che tiene conto non solo degli elementi diagonali di \(\Sigma\), ma anche delle correlazioni.

In effetti l’equazione del generico ellisse centrato nel centroide e con assi principali coincidenti con gli assi principali dei dati, è data da:

\[ [\mathbf{x}_i-C]^T\Sigma^{-1}[\mathbf{x}_i-C]=k^2; \ k\ge 0 \] Al variare di \(k\) variano le distanze dei punti. Fissato \(k\) l’equazione descrive il luogo dei punti equidistanti dal centroidi (equidistanti in questo nuovo senso, secondo la distanza di Mahalanobis)

Vediamo anche che è una quantità proporzionale all’esponente della normale multivariata di parametri \(C, \Sigma\).

x1=rid[ind[1],]
x2=rid[ind[2],]
d1=sqrt(crossprod((x1-med),solve(sigma))%*%(x1-med))
d2=sqrt(crossprod((x2-med),solve(sigma))%*%(x2-med))
print(c(d1,d2))
[1] 5.249053 1.774988

Adesso vediamo che la diversa distanza dal centro dei dati è ben rispecchiata, e che con la distanza di Mahalanobis il punto \(P_{894}\) risulta quasi tre volte più lontano dal centroide rispetto a \(P_{178}\)!

glX 
  6 
Importance of components:
                          Comp.1    Comp.2     Comp.3
Standard deviation     1.5430776 0.7134693 0.32828463
Proportion of Variance 0.7942527 0.1697985 0.03594879
Cumulative Proportion  0.7942527 0.9640512 1.00000000