In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook'sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.

Definition

Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:

y n × 1 = X n × p β p × 1 ε n × 1 {\displaystyle {\underset {n\times 1}{\mathbf {y} }}={\underset {n\times p}{\mathbf {X} }}\quad {\underset {p\times 1}{\boldsymbol {\beta }}}\quad \quad {\underset {n\times 1}{\boldsymbol {\varepsilon }}}} ,

wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt ε N ( 0 , σ 2 I ) {\displaystyle {\boldsymbol {\varepsilon }}\sim {\mathcal {N}}\left(\mathbf {0} ,\sigma ^{2}\mathbf {I} \right)} und β = ( β 0 β 1 , , β k ) {\displaystyle {\boldsymbol {\beta }}=\left(\beta _{0}\,\beta _{1},\dots ,\beta _{k}\right)^{\top }} der Vektor der Regressionskoeffizienten ist (hierbei ist p = k 1 {\displaystyle p=k 1} die Anzahl der zu schätzenden unbekannten Parameter und k {\displaystyle k} die Anzahl der erklärenden Variablen), und X {\displaystyle \mathbf {X} } die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann β ^ = ( X X ) 1 X y {\displaystyle {\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} } , woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:

y ^ = X β ^ = X ( X X ) 1 X = P y = P y {\displaystyle \mathbf {\hat {y}} =\mathbf {X} {\hat {\boldsymbol {\beta }}}=\underbrace {\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }} _{=\mathbf {P} }\mathbf {y} =\mathbf {P} \mathbf {y} } ,

wobei P X ( X X ) 1 X {\displaystyle \mathbf {P} \equiv \mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }} die Prädiktionsmatrix darstellt. Das i {\displaystyle i} te Diagonalelement von P {\displaystyle \mathbf {P} \,} ist gegeben durch p i i x i ( X X ) 1 x i {\displaystyle p_{ii}\equiv \mathbf {x} _{i}^{\top }\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {x} _{i}} , wobei x i {\displaystyle \mathbf {x} _{i}^{\top }} die i {\displaystyle i} -te Zeile der Datenmatrix X {\displaystyle \mathbf {X} } ist. Die Werte werden auch als „Hebelwerte“ der i {\displaystyle i} ten Beobachtung bezeichnet. Um den Einfluss eines Punktes ( y i , x i ) {\displaystyle (y_{i},\mathbf {x} _{i}^{\top })} zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf β {\displaystyle {\boldsymbol {\beta }}} und y ^ = X β ^ {\displaystyle \mathbf {\hat {y}} =\mathbf {X} {\hat {\boldsymbol {\beta }}}} . Der Schätzer von β {\displaystyle {\boldsymbol {\beta }}} , der dadurch gewonnen wird, dass die i {\displaystyle i} te Beobachtung ( y i , x i ) {\displaystyle (y_{i},\mathbf {x} _{i}^{\top })} ausgelassen wird, ist gegeben durch β ^ ( i ) = ( X ( i ) X ( i ) ) 1 X ( i ) y ( i ) {\displaystyle {\hat {\boldsymbol {\beta }}}_{(i)}=(\mathbf {X} _{(i)}^{\top }\mathbf {X} _{(i)})^{-1}\mathbf {X} _{(i)}^{\top }\mathbf {y} _{(i)}} . Man kann β ^ ( i ) {\displaystyle {\hat {\boldsymbol {\beta }}}_{(i)}} mit β ^ {\displaystyle {\hat {\boldsymbol {\beta }}}} mittels dem Cook-Abstand vergleichen, der definiert ist durch:

D i = ( β ^ ( i ) β ^ ) ( X X ) ( β ^ ( i ) β ^ ) ( k 1 ) s 2 = ( X β ^ ( i ) X β ^ ) ( X β ^ ( i ) X β ^ ) ( k 1 ) s 2 = ( y ^ ( i ) y ^ ) ( y ^ ( i ) y ^ ) ( k 1 ) s 2 {\displaystyle D_{i}={\frac {({\hat {\boldsymbol {\beta }}}_{(i)}-{\hat {\boldsymbol {\beta }}})^{\top }(\mathbf {X} ^{\top }\mathbf {X} )({\hat {\boldsymbol {\beta }}}_{(i)}-{\hat {\boldsymbol {\beta }}})}{(k 1)s^{2}}}={\frac {(\mathbf {X} {\hat {\boldsymbol {\beta }}}_{(i)}-\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\top }(\mathbf {X} {\hat {\boldsymbol {\beta }}}_{(i)}-\mathbf {X} {\hat {\boldsymbol {\beta }}})}{(k 1)s^{2}}}={\frac {({\hat {\mathbf {y} }}_{(i)}-{\hat {\mathbf {y} }})^{\top }({\hat {\mathbf {y} }}_{(i)}-{\hat {\mathbf {y} }})}{(k 1)s^{2}}}} ,

wobei s 2 {\displaystyle s^{2}} die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß D i {\displaystyle D_{i}} ist proportional zum gewöhnlichen euklidischen Abstand zwischen y ^ ( i ) {\displaystyle {\hat {\mathbf {y} }}_{(i)}} und y ^ {\displaystyle {\hat {\mathbf {y} }}} . Daher ist D i {\displaystyle D_{i}} groß, wenn die Beobachtung ( y i , x i ) {\displaystyle (y_{i},\mathbf {x} _{i}^{\top })} eine substantiellen Einfluss auf sowohl β ^ {\displaystyle {\hat {\boldsymbol {\beta }}}} , als auch y ^ {\displaystyle {\hat {\mathbf {y} }}} hat.

Eine numerisch einfachere Darstellung von D i {\displaystyle D_{i}} ist gegeben durch:

D i = t i 2 k 1 ( p i i 1 p i i ) {\displaystyle D_{i}={\frac {t_{i}^{2}}{k 1}}\left({\frac {p_{ii}}{1-p_{ii}}}\right)} ,

wobei t i {\displaystyle t_{i}} die studentisierten Residuen t i = ε ^ i s ( i ) 2 1 p i i   {\displaystyle t_{i}={{\widehat {\varepsilon }}_{i} \over s_{(i)}^{2}{\sqrt {1-p_{ii}\ }}}} darstellen.

Erkennen von stark einflussreichen Beobachtungen

Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel D i > 1 {\displaystyle D_{i}>1} vorgeschlagen. Andere Autoren haben D i > 4 / n {\displaystyle D_{i}>4/n} vorgeschlagen, wobei n {\displaystyle n} die Anzahl der Beobachtungen ist.

Siehe auch

  • Mahalanobis-Abstand

Literatur

  • Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008

Einzelnachweise


Cook Stand Der klappbare MiniKochStänder Reini Rossmann

Kochfeldabzug in der Küche planen Tipps für die Küchenplanung.

10 Abstand Kücheninsel Arbeitsplatte 10 Abstand Kücheninsel

Erfahren Sie, welche Maße und Abstände bei der Küchenplanung wichtig

Digital Antworten Makellos küche u form wieviel abstand Würstchen