wetchのブログ

他人に見られることを想定していない書き散らかし独習ノート.物理学とかVBAとか.

標本分散の行列形式

徒然に標本分散を変形する.
n 個のデータ \{x_i;\  i=1,...,n\} の標本分散 s^2

\displaystyle s^2=\frac{1}{n-1}\sum_i(x_i-\bar{x})^2= \frac{1}{n-1}\left(\sum_ix_i^2 - n\bar{x}^2\right)

である.ただし \bar{x}:=\frac{1}{n}\sum_i x_i.

これを変形し,\bar{x} を使わず x_i だけで表してみる.

\displaystyle s^2=\frac{1}{n-1}\left\{\sum_ix_i^2 - n\left(\frac{1}{n}\sum_ix_i\right)^2\right\}.

\Sigma をまとめるためにクロネッカー\delta を使って書き換える.
\begin{align}s^2
&=\frac{1}{n-1}\left\{\sum_{i,j}\delta_{i,j}x_ix_j - \frac{1}{n}\left(\sum_ix_i\right)\left(\sum_jx_j\right)\right\}\\
&=\frac{1}{n-1}\sum_{i,j}\left(\delta_{i,j}x_ix_j - \frac{1}{n}x_ix_j\right)\\
&=\frac{1}{n-1}\sum_{i,j}\left(\delta_{i,j} - \frac{1}{n}\right) x_ix_j.
\end{align}
2次形式になった.行列表現してみると
\displaystyle s^2=\boldsymbol{x}^\mathrm{T} S \boldsymbol{x}

と書ける.ここで
 \boldsymbol{x}:=[x_1,...,x_n]^\mathrm{T},

\displaystyle S:=\frac{1}{n-1}\begin{bmatrix}1-\frac{1}{n} & -\frac{1}{n} & \cdots & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} & \cdots & -\frac{1}{n} \\ \vdots & \vdots & \ddots & \vdots \\ -\frac{1}{n} & -\frac{1}{n} & \cdots & 1-\frac{1}{n} \end{bmatrix}

この行列 S について調べてみると,証明はしないが*1固有値1/(n-1)n-1 重根)と0で,0の固有ベクトル[1,...,1] であることが分かる.ここから推察するに,n 次元空間においてベクトル [1,...,1] を延長して直線を引き,データ点 [x_1,...,x_n] とその直線との距離を測ると標本分散になるということか.あるいは [1,...,1] 方向を潰した n-1 次元直交補空間内での距離と言ったらいいのか...

*1:エクセルで適当に n を選んで試しただけ.