平均と平均の関係は個々の関係とは異なる

 Excelでシミュレーションを行っている時に、平均値同士の関係がそれぞれの生データの関係とは異なっていることに気付いたので、平均値と平均値の関係を考察してはいけないのではないかと思い、Geminiに質問したら、「生態学的誤謬」という言葉を教わった。Googleで検索して次のサイトを見つけた。

 Geminiの回答も残しておく。

任意のxに対してシミュレーションの結果、yとzが得られました。200件のシミュレーションだったので、yの平均とzの平均を算出しました。xとyの関係はxと「yの平均」の関係と同じになりますか?また、yとzの関係は「yの平均」と「zの平均」の関係と同じになりますか?

ご質問いただいた内容について、統計学および数学的な観点から論理的に回答します。

ここでは、200件のシミュレーションが「様々な $x$ の値に対して行われ、それぞれの $x$ における $y$ と $z$ の平均値(条件付き平均)を算出した」という前提で解説します。全体を単に一つの平均値に丸めてしまった場合、比較対象が「点」になってしまい関係性を議論できないためです。

それぞれの平均値を $\bar{y}$ および $\bar{z}$ と置いた場合、結論は以下のようになります。

1. $x$ と $y$ の関係は、$x$ と $\bar{y}$ の関係と同じか?

結論:「大まかな傾向(トレンド)は同じですが、同一のデータ分布にはなりません(ノイズの有無が異なります)。」

シミュレーションにおける $x$ と $y$ の関係は、真の関数(トレンド)を $f(x)$、シミュレーションごとのランダムな誤差(ノイズ)を $\varepsilon$ とすると、次のように表されます。

$$y = f(x) + \varepsilon$$

200件の試行から $y$ の平均 $\bar{y}$ を取ると、ランダムな誤差 $\varepsilon$ が相殺されて 0 に近づくため、以下のようになります。

$$\bar{y} \approx f(x)$$

つまり、$x$ と $y$ の関係にはデータのばらつき(ノイズ)が含まれますが、$x$ と $\bar{y}$ の関係はノイズが削ぎ落とされた純粋なトレンドのみの関係になります。傾向自体は一致しますが、ばらつきの幅が全く異なります。

2. $y$ と $z$ の関係は、$\bar{y}$ と $\bar{z}$ の関係と同じか?

結論:「必ずしも同じにはなりません。全く異なる関係性(逆相関など)を示す可能性すらあります。」

この現象は統計学において非常に重要であり、「個別の関係」と「平均同士の関係」は分けて考える必要があります(生態学的誤謬などの原因となります)。

それぞれのシミュレーション結果が、$x$ に依存する部分と、ノイズの部分で構成されているとします。

$$y = f(x) + \varepsilon_y$$

$$z = g(x) + \varepsilon_z$$

個々のシミュレーション結果である $y$ と $z$ の関係(共分散)は、以下の2つの要素の足し算になります。

$$\mathrm{Cov}(y, z) = \mathrm{Cov}(f(x), g(x)) + \mathrm{Cov}(\varepsilon_y, \varepsilon_z)$$

  1. $x$ の変化に引きずられて連動する部分:$\mathrm{Cov}(f(x), g(x))$
  2. 各シミュレーションのノイズ同士の相関:$\mathrm{Cov}(\varepsilon_y, \varepsilon_z)$

一方で、$\bar{y}$ と $\bar{z}$ の関係は、平均化によってノイズ(第2項)が消滅するため、純粋に「$x$ によってどう変化するか」という第1項の要素だけが残ります。

$$\mathrm{Cov}(\bar{y}, \bar{z}) \approx \mathrm{Cov}(f(x), g(x))$$

具体的に関係がズレるケース

もしシミュレーションの性質上、「$y$ が上振れした($\varepsilon_y$ がプラス)ときは、必ず $z$ が下振れする($\varepsilon_z$ がマイナス)」といったノイズ間の強い逆相関があったとします。

この場合、生のデータである $y$ と $z$ を散布図にすると「右肩下がり(逆相関)」に見えるかもしれませんが、平均値である $\bar{y}$ と $\bar{z}$ をプロットすると、「$x$ の変化に伴ってどちらも増加する(正の相関)」という、全く逆の結論になることがあります。

したがって、平均値同士の関係性をもって、個々の $y$ と $z$ の関係性を説明することは論理的にできません。

日記
シェアする
いしい@長文をフォローする

コメント

タイトルとURLをコピーしました