CalcTune
📐
数学 · 統計

相関係数計算ツール

任意の対データ(x, y)からピアソンの相関係数rと決定係数R²を計算します。相関の強さと方向が即座にわかります。

1行に x, y の1ペアを入力してください(カンマまたはスペース区切り)。例: 1, 3

ピアソンの r
+0.9972強い正の相関
−10+1
決定係数 (R²)
0.9944
データ数 (n)
5
X の平均 (x̄)
6.0000
Y の平均 (ȳ)
72.0000
強さ
強い正の相関

r は −1(完全な負の相関)から +1(完全な正の相関)の範囲をとります。0 に近い値は線形関係が弱いことを示します。

結果をシェア

ピアソン相関係数を徹底解説:定義・公式・解釈方法

相関係数は、2つの変数間の線形関係を記述するために統計学で最も広く使われているツールのひとつです。19世紀末にこれを定式化したイギリスの数学者カール・ピアソンにちなんで名づけられたピアソンのrは、線形的な関連の強さと方向の両方を定量化します。−1から+1の間の1つの数値で2つの変数がどの程度一緒に動くかを要約できるため、心理学、経済学から生物学、工学まで幅広い分野で不可欠な指標となっています。

共分散が測定単位に依存するのに対し、ピアソンのrは無次元でスケールに依存しません。身長(cm)と体重(kg)の比較であっても、試験の点数と学習時間の比較であっても、rは直接解釈可能で比較可能な指標を提供します。

公式

ピアソンのrは次のように計算されます:r = Σ((xi − x̄)(yi − ȳ)) / √(Σ(xi − x̄)² × Σ(yi − ȳ)²)。ここで、xi と yi は個々のデータ値、x̄ と ȳ は標本平均、総和はすべてのn個のデータ対について行います。分子はxとyがどの程度共変動するか(それぞれの平均からの偏差の積)を捉え、分母は個々のばらつきの積で正規化します。

同等の表現として、r はxとyの共分散をそれぞれの標準偏差の積で割ったものと書くこともできます:r = Cov(x, y) / (σx × σy)。この形式により、rのスケール独立性が明示的になります。標準偏差で割ることで単位の影響が取り除かれ、相関構造のみが残ります。

決定係数 R² = r² は、一方の変数の分散のうち、他方との線形関係によって統計的に説明される割合を示します。たとえば r = 0.8 の場合、R² = 0.64 となり、このモデルにおいてyの変動の64%がxとの線形関係に起因することを意味します。

rの値の解釈

r = +1 は完全な正の線形関係を示します。xが増加するとyも正確に比例して増加し、すべてのデータ点が正の傾きの直線上に並びます。r = −1 は完全な負の線形関係を示し、xが増加するとyが比例して減少し、すべての点が負の傾きの直線上に並びます。r = 0 は2つの変数間に線形関係がないことを意味しますが、非線形な関係が存在する可能性はあります。

実際のデータでは、値が正確に0や±1になることは稀です。一般的な分類の目安として、|r| ≥ 0.7 を強い相関、0.4 ≤ |r| < 0.7 を中程度の相関、0 < |r| < 0.4 を弱い相関とすることが多く見られます。ただしこれらの閾値はあくまで目安であり、適切な解釈は文脈によって異なります。社会科学では r = 0.3 でも意味のある結果とされることがありますが、物理学や工学では±1に近い値のみが実用上有意とされることがあります。

注意すべき点として、rは線形的な関連のみを測定します。r = 0 であっても、2つのデータセット間に強い非線形関係(たとえば完全な二次関数や正弦波のパターン)が存在する可能性があります。rの数値とともに散布図でデータを可視化することが常に推奨されます。

前提条件と限界

ピアソンのrは、2つの変数間の関係が線形であること、データが間隔尺度または比率尺度で測定されていること、そして結果に過度な影響を与える極端な外れ値がないことを前提としています。外れ値はrを劇的に膨張させたり縮小させたりする可能性があり、関係性について誤った印象を与えることがあります。rを解釈する前に散布図で外れ値を確認することが推奨されています。

もうひとつの重要な注意点として、相関は因果関係を意味しないということがあります。強いr値があっても、一方の変数の変化が他方の変化を引き起こしていることを示すものではありません。交絡変数(両方に影響する第三の要因)が、直接的な因果関係がなくても高い相関を生み出すことがあります。典型的な例として、アイスクリームの売上と溺水事故の件数の間の正の相関がありますが、これは両方とも夏の暑さによって引き起こされているのであり、互いに原因となっているわけではありません。

正規性の仮定が満たされない場合や、データが順序尺度の変数を含む場合には、ピアソンのrよりもスピアマンの順位相関係数が好まれることがあります。スピアマンのρ(ロー)は単調関係を測定し、外れ値や非正規分布に対してより頑健です。

計算例

5人の学生の学習時間(x)と試験の点数(y)が次のとおりだとします:(2, 50), (4, 60), (6, 70), (8, 85), (10, 95)。平均は x̄ = 6、ȳ = 72 です。xの平均からの偏差は −4, −2, 0, 2, 4、yの偏差は −22, −12, −2, 13, 23 です。交差積の合計は 88 + 24 + 0 + 26 + 92 = 230 です。xの偏差の二乗和は40、yの偏差の二乗和は1330です。

ピアソンのr = 230 / √(40 × 1330) = 230 / √53200 ≈ 0.997。この非常に高い正のrは、この標本において学習時間と試験の点数がほぼ完全に線形的に関連していることを示しています。R² ≈ 0.994 であり、このデータセットにおいて試験の点数の分散の約99.4%が学習時間によって線形的に説明されることを示唆しています。

この結果は、rが明確な上昇傾向をどのように捉えるかを示しています。実際のデータセットでは、測定誤差、交絡要因、自然なばらつきにより、これほどきれいな結果になることは稀であり、rの絶対値は通常1よりかなり小さくなります。

さまざまな分野での応用

心理学や社会科学では、ピアソンのrは至るところで使われています。研究者はテスト得点間の関係を調べたり、心理測定ツールの妥当性を検証したり、人口統計的要因とアウトカムの関係を探索したりするために使用します。臨床研究では、バイオマーカーと疾患重症度指標の関連性を記述するためにrが使われます。

金融・経済学では、資産リターンの連動性の記述、ポートフォリオにおける分散投資効果の測定、経済指標の分析に相関が用いられます。2つの資産間の高い正の相関は、それらが一緒に上昇・下落する傾向があることを意味し、分散投資効果が低いことを示します。リスク管理においては、低い相関や負の相関が重視されます。

自然科学では、rは検量線、遺伝的な形質間の関連性の評価、環境モニタリングに日常的に適用されています。機械学習では、相関分析は一般的な特徴量選択のステップであり、高い相関を持つ特徴量は冗長である可能性があるため、除去の候補となります。

rの統計的有意性

標本におけるゼロでないrは、母集団に真の線形関係が存在することを必ずしも意味しません。標本抽出の偶然によって生じた可能性もあります。観測されたrが統計的に有意かどうかを評価するために、研究者はt検定を使用します:t = r × √(n − 2) / √(1 − r²)。これは帰無仮説(母相関がゼロ)のもとで自由度 n − 2 のt分布に従います。

小さな標本では、かなり大きな |r| でも統計的に有意とならないことがあります。逆に非常に大きな標本(n = 10,000)では、r = 0.03 のような微小な値でも統計的に有意になり得ますが、説明される分散はわずか0.09%であり、実用的にはほとんど意味がありません。統計的有意性と効果量(rまたはR²)の両方を報告し、合わせて解釈することが重要です。

よくある質問

ピアソンの相関係数とは何ですか?

ピアソンのrは、2つの連続変数間の線形関係の強さと方向を測定する−1から+1の間の数値です。+1は完全な正の線形関係、−1は完全な負の線形関係、0は線形関係がないことを示します。

相関の強い・中程度・弱いの基準は?

広く使われている目安として、|r| ≥ 0.7 を強い相関、0.4 ≤ |r| < 0.7 を中程度の相関、0 < |r| < 0.4 を弱い相関と分類します。ただしこれらはあくまで慣例であり、何が意味のある値かは研究分野や文脈によって異なります。

R²とは何ですか?rとどう違いますか?

R²(決定係数)はrの二乗です。rが線形関係の方向と強さを示すのに対し、R²は一方の変数の分散のうち他方との線形関係で説明できる割合を表します。たとえば r = 0.8 の場合、R² = 0.64 となり、yの分散の64%がxとの線形関係で説明されることを意味します。

ピアソンのrで非線形の関係を検出できますか?

いいえ。ピアソンのrは線形的な関連のみを測定します。2つの変数間に強い非線形関係(二次関数や指数関数など)があっても、rは0に近い値のままとなることがあります。非線形パターンを確認するため、rの数値とあわせて散布図でデータを可視化することが常に推奨されます。

相関が高ければ因果関係があると言えますか?

いいえ。高いr値は2つの変数が線形的に一緒に動く傾向があることを示しますが、一方が他方の原因であることを証明するものではありません。交絡変数(両方に影響する第三の要因)が、直接的な因果関係なしに高い相関を生み出すことがあります。因果関係を確立するには、対照実験や厳密な因果推論の手法が必要です。

意味のある相関を得るにはデータが何組必要ですか?

厳密な最低限はありませんが、データ対が非常に少ない場合(5〜10組未満)、rの推定値は非常に不安定であり、真の母相関を反映していない可能性があります。統計的有意性検定が参考になります。小さなnでは、観測された大きなrでも有意とならないことがあります。実用的な目安として、合理的に安定した推定値を得るには少なくとも20〜30組が推奨されます。