Statistics


統計量の平均, 分散

Definition 1.0.1 (標本平均, 標本分散)

  • nn 個のサンプル (sample) X1,X2,,XnX_1,X_2,\dots,X_n を独立に取得したとする. サンプルはデーターの観測等の標本抽出するごとに異なる値を得るので確率変数とみなせる. これらの平均, 分散を各々次で定義する:

  • 標本平均

Xˉ=1ni=1nXi. \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i.
  • 標本分散

S2=1ni=1n(XiXˉ)2. S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2.

Proposition 1.0.2

  • 平均が μ\mu, 分散が σ2\sigma^2 である分布から独立に抽出したサンプルの {Xi}i=1n\{X_i\}_{i=1}^n から定まる標本平均 Xˉ\bar{X} の平均 E[Xˉ]E[\bar{X}], 分散 V(Xˉ)V(\bar{X})は各々次で与えられる:

E[Xˉ]=μ,V[Xˉ]=σ2n. \begin{aligned} E[\bar{X}] = \mu, && V[\bar{X}] = \frac{\sigma^2}{n}. \end{aligned}


  • E[Xˉ]E[\bar{X}] の計算をする. 期待値の線形性を利用することで容易に証明できる.

E[Xˉ]=1ni=1nE[Xi]=1ni=1nμ=nμn=μ. \begin{aligned} E[\bar{X}] &= \frac{1}{n}\sum_{i=1}^n E[X_i] \\ &= \frac{1}{n}\sum_{i=1}^n \mu \\ &= \frac{n\mu}{n} = \mu. \end{aligned}
  • V[Xˉ]V[\bar{X}] の計算をする. まず次のように式を変形できることに注意する.

Xˉμ=1n(i=1nXi)μ=1ni=1n(Xiμ) \bar{X} - \mu = \frac{1}{n}\left(\sum_{i=1}^n X_i \right) - \mu = \frac{1}{n}\sum_{i=1}^n\left(X_i - \mu\right)

このとき

V[Xˉ]=E[(Xˉμ)2]=1n2E[(i=1n(Xiμ))(j=1n(Xjμ))]=1n2i=1nE[(Xiμ)2]+2n2i<jE[(Xiμ)(Xjμ)]=1n2i=1nσ2+2n2i<jE[(Xiμ)]=0E[(Xjμ)]=0=nσ2n2=σ2n. \begin{aligned} V[\bar{X}] &= E[(\bar{X} - \mu)^2] \\ &= \frac{1}{n^2} E\left[ \left(\sum_{i=1}^n (X_i - \mu)\right) \left(\sum_{j=1}^n (X_j - \mu)\right) \right] \\ &= \frac{1}{n^2} \sum_{i=1}^n E\left[(X_i - \mu)^2 \right] + \frac{2}{n^2} \sum_{i < j } E\left[ (X_i - \mu)(X_j - \mu) \right] \\ & \underset{\star}{=} \frac{1}{n^2} \sum_{i=1}^n \sigma^2 + \frac{2}{n^2} \sum_{ i< j } \underbrace{E[(X_i-\mu)]}_{=0}\underbrace{E[(X_j-\mu)]}_{=0} \\ & = \frac{n\sigma^2}{n^2} \\ & = \frac{\sigma^2}{n}. \end{aligned}

ただし =\underset{\star}{=} の式変形で確率変数が互いに独立であることを用いている.


Proposition 1.0.3

  • 平均が μ\mu, 分散が σ2\sigma^2 である分布から独立に抽出したサンプルの {Xi}i=1n\{X_i\}_{i=1}^n から定まる標本分散の平均 E[S2]E[S^2] は次で与えられる:

E[S2]=n1nσ2 E[S^2] = \frac{n-1}{n}\sigma^2


まず, S2S^2 の定義式を変形する.

S2=1ni=1n(XiXˉ)2=1ni=1n((Xiμ)(Xˉμ))2=1ni=1n(Xiμ)2+1ni=1n(Xˉμ)22ni=1n(Xiμ)(Xˉμ)=1ni=1n(Xiμ)2(Xˉμ)2. \begin{aligned} S^2 &= \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 \\ &= \frac{1}{n}\sum_{i=1}^n ((X_i-\mu) - (\bar{X}- \mu))^2 \\ &\underset{\star}{=} \frac{1}{n}\sum_{i=1}^n (X_i - \mu)^2 + \frac{1}{n}\sum_{i=1}^n (\bar{X}-\mu)^2 - \frac{2}{n}\sum_{i=1}^n (X_i-\mu)(\bar{X} - \mu) \\ &= \frac{1}{n}\sum_{i=1}^n (X_i-\mu)^2 - (\bar{X} - \mu)^2. \end{aligned}

ただし =\underset{\star}{=} の計算では (5) を用いている. 以上の式変形と 1.0.2 の結果を使うことで

E[S2]=E[1ni=1n(Xiμ)2]E[(Xˉμ)2]=nσ2nσ2n=n1nσ2 \begin{aligned} E[S^2] &= E\left[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2\right] - E\left[(\bar{X}-\mu)^2\right] \\ &= \frac{n\sigma^2}{n} - \frac{\sigma^2}{n} \\ &= \frac{n-1}{n}\sigma^2 \end{aligned}

となる.以上で示したいことが示された.


Central Limit Theorem

Theorem 2.0.1 (CLT)
Mathematically, if X1,X2,,XnX_{1},X_{2},\dots,X_{n} is a random sample of size nn taken from a population with mean μ\mu and finite variance σ2\sigma ^{2} and if Xˉ\bar{X} is the sample mean, the limiting form of the distribution of

Z=Xˉμσ/n Z={\frac{\bar{X}-\mu }{\sigma /\surd n}}

is the standard normal distribution.

Example 2.0.2 (Throwing Dices)

using Statistics
using Plots
pyplot()
using LaTeXStrings
using Distributions

dice = [1, 2, 3, 4, 5, 6]
μ_dice = mean(dice)
σ_dice = std(dice, corrected = false)

n_sample = 500
n_trial = 3000

X̄ = Float64[]
for t = 1:n_trial
    sample = rand(dice, n_sample)
    push!(X̄, mean(sample))
end

Z = (X̄ .- μ_dice) ./ (σ_dice / √(n_sample))
p = histogram(Z, normalize = :pdf, label="sample mean")
d = Normal(0., 1.)
plot!(p, x -> pdf(d, x), label=L"\mathcal{N}(μ,σ^2)")
p = plot!(p, xlim = [-3, 3])