CalcTune
📐
数学 · 統計

線形回帰計算

(x, y) データを入力して最小二乗法による回帰直線を求めます。回帰式 y = mx + b とともに、R²、ピアソンr、傾き、y切片を表示します。

1行に1つのx,yペアを入力(カンマまたはスペース区切り)

計算例を表示中 — 上に値を入力してください
最適直線の方程式
y = 0.6x + 2.2
傾き (m)
0.6000
y切片 (b)
2.2000

回帰統計

R²(決定係数)
0.6000
ピアソンr(相関係数)
0.7746
データ数
5
X平均
3.0000
Y平均
4.0000

線形回帰の解説:傾き、R²、回帰直線の求め方

線形回帰は、科学、工学、経済学、日常のデータ分析で最も広く使われている統計手法のひとつです。(x, y) のデータ対が与えられたとき、2つの変数間の関係を最もよく表す直線を求めます。具体的には、各データ点から直線までの距離の二乗の合計を最小化します。この計算ツールは、最小二乗法(OLS)による回帰を行い、回帰式、適合度の統計量、相関指標を即座に算出します。

線形回帰とは?

線形回帰は、従属変数yと独立変数xの関係を y = mx + b という式でモデル化します。パラメータmは傾きで、xが1単位増加したときにyが平均的にどれだけ変化するかを表します。パラメータbはy切片で、xが0のときに予測されるyの値です。

最小二乗法では、残差の二乗和(観測値yと回帰直線による予測値の差の二乗の合計)を最小化するようにmとbを決定します。この基準は、標準的な仮定(線形性、等分散性、誤差の独立性)が満たされるとき、ガウス=マルコフの定理によりOLS推定量が最良線形不偏推定量(BLUE)となることを保証します。

線形回帰は、既存のデータに適用する場合は記述的(関係の要約)であり、新しいx値に対してyを予測する場合は予測的です。いずれの場合も、R²とピアソンrを通じて適合度を理解することが、結果を適切に解釈するために不可欠です。

線形回帰の計算式

n個のデータ対 (x₁, y₁), (x₂, y₂), …, (xₙ, yₙ) に対して、最小二乗法による傾きは m = (nΣxy − ΣxΣy) ÷ (nΣx² − (Σx)²) で計算されます(Σはn個すべての点にわたる総和を表します)。y切片は b = (Σy − mΣx) ÷ n、あるいは b = ȳ − mx̄(x̄ とȳは標本平均)で求められます。

mとbが求まると、任意のxに対する予測値は ŷ = mx + b となります。各観測値の残差は eᵢ = yᵢ − ŷᵢ です。残差の二乗和(SSR)が最小二乗法で最小化される量です。関連する量として、yの平均値まわりの総変動を測る全変動(SST)があります:SST = Σ(yᵢ − ȳ)²。

これら2つの量からR²が算出されます:R² = 1 − SSR/SST。回帰直線が完全にデータに適合する場合、SSR = 0 でR² = 1 となります。回帰直線がすべてのxに対して単にȳを予測するのと同程度の場合、SSR = SST でR² = 0 となります。

R²(決定係数)の理解

R²は、yの分散のうち、xとの線形関係によって統計的に説明される割合を定量化します。R² = 0.85 は、yの変動の85%が回帰モデルに帰属でき、残りの15%はその他の要因やランダムな変動によるものであることを意味します。切片を含む単回帰では、R²は常に0から1の間にあります。

R²の「良い」値に普遍的な基準はありません。制御された実験室条件の分野ではR² > 0.99が期待されることがあります。行動科学や社会科学では0.3から0.5でも意味があるとされる場合があります。適切な基準は、分野、データに内在するノイズの水準、分析の目的に完全に依存します。

重要な点として、高いR²は因果関係を証明するものではなく、線形モデルが正しい関数形であることを保証するものでもありません。残差プロット(eᵢをxやŷに対してプロットしたグラフ)は、線形性の仮定が成り立っているかどうかを評価するための有用な診断ツールです。

ピアソンr:相関係数

ピアソン相関係数rは、xとyの間の線形関係の強さと方向を測定します。値は−1から+1の範囲をとります。+1は完全な正の線形関係(xが増加するとyも比例して増加)を示し、−1は完全な負の線形関係を示します。0は線形関係がないことを示しますが、非線形の関係が存在する可能性はあります。

rとR²の関係は単純明快です。単回帰では R² = r² が成り立ちます。つまり、rは関係の符号(方向)を捉え、R²は適合度の大きさを表します。r = 0.9 の場合、傾きは正で R² = 0.81 となり、yの分散の81%が説明されます。r = −0.9 の場合、傾きは負ですがR²は同じ0.81です。

ここで使用するピアソンrの公式は r = (nΣxy − ΣxΣy) ÷ √[(nΣx² − (Σx)²)(nΣy² − (Σy)²)] です。これは標本共分散をxとyの標本標準偏差の積で割ったものと等価です。

線形回帰の実用的な応用

経済学では、線形回帰は需要と供給の弾力性の推定から広告費と売上高の関係のモデル化まで、幅広い分析の基盤となっています。アナリストは月次売上をマーケティング支出に対して回帰させ、投資1ドルあたりのリターンを推定することがあります。

自然科学では、線形回帰は検量線に日常的に適用されます。たとえば、化学溶液の既知の濃度と吸光度の関係(ベール=ランベルトの法則)を表す際に使用されます。物理学者は実験データを理論予測に適合させるために使用し、R²が理論と観測の一致度を示します。

健康研究では、疫学者が年齢と血圧の関係や、体重と薬剤投与量の関係といった関連性を定量化するために回帰を使用します。これらの分析は公衆衛生指針に情報を提供しますが、データの観察的な性質上、相関は因果関係を意味しません。

機械学習では、単回帰はより複雑なモデルの概念的な基盤です。リッジ回帰、LASSO、多項式回帰はすべて同じ最小二乗目的関数をベースにしています。したがって、単回帰を理解することは、より高度な手法を解釈するための確かな基盤となります。

仮定と限界

最小二乗回帰はいくつかの仮定に依存しています。第一に、xとyの関係はおおよそ線形であるべきです。真の関係が曲線的であれば、線形モデルは体系的にデータを適合し損ねます。第二に、残差はxの範囲全体にわたって概ね正規分布し、等分散(同質の分散)であるべきです。第三に、観測値は互いに独立であるべきです。

外れ値はOLS回帰の傾きと切片に不釣り合いな影響を与える可能性があります。1つの極端なデータ点が回帰直線を大きく変え、R²を誤った方向に膨張させたり縮小させたりすることがあります。外れ値が存在する可能性がある場合は、ロバスト回帰やクックの距離・てこ比統計量などの外れ値診断が推奨されます。

外挿(観測データの範囲をはるかに超えるx値に対してyを予測すること)には追加のリスクがあります。データ範囲内で観察された線形関係は、その範囲外では成り立たない可能性があります。xがデータの範囲を超える場合、予測は慎重に解釈すべきです。

最後に、線形回帰は関連性を記述するものであり、因果関係を示すものではありません。交絡変数、選択バイアス、逆因果はすべて、直接的な因果メカニズムが存在しなくても、xとyの間に強い線形相関を生み出すことがあります。因果関係の結論には、統計的な適合だけでなく、慎重な研究デザインが必要です。

この計算ツールの使い方

テキストエリアに (x, y) データを1行に1ペアずつ入力してください。xとyの値はカンマ、スペース、タブで区切ることができます。たとえば、1行目に「1, 2」、2行目に「2, 4」と入力すると、2つの点 (1, 2) と (2, 4) を表します。#で始まる行はコメントとして無視されます。

有効な回帰直線を計算するには、少なくとも2つの異なるx値が必要です。すべてのx値が同じ場合、傾きは未定義(垂直線は y = mx + b の形式で表せない)となり、計算ツールはエラーメッセージを表示します。

結果が表示されると、回帰式 y = mx + b が目立つ位置に表示されます。符号の表記は明示的で、切片が負の場合は y = mx − |b| と表示され、二重マイナスの混乱を避けます。傾き、切片、R²、ピアソンrは統計パネルに表示されます。共有ボタンを使って回帰分析の結果を保存・共有できます。

よくある質問

傾きmは線形回帰で何を意味しますか?

傾きmは、xが1単位増加したときのyの平均的な変化量を表します。m = 2.5 の場合、xが1増えるとyは平均2.5単位増加します。傾きが負の場合、xの増加に伴いyは減少します。傾きは線形関係の方向と変化率を解釈する上で中心的な指標です。

R²とは何ですか?どう解釈すればよいですか?

R²(決定係数)は、yの分散のうち線形モデルで説明される割合を測定します。0から1の範囲をとり、R² = 0.80 はyの変動の80%が回帰直線で捉えられ、残り20%はその他の要因やランダムな変動によるものです。R²の適切な水準はデータの分野やノイズの程度に大きく依存し、「良い」適合を定義する単一の閾値はありません。

R²とピアソンrの違いは何ですか?

ピアソンrは線形相関の強さと方向を測定し、−1から+1の範囲をとります。R²はr²(rの二乗)であり、0から1の範囲で説明される分散の割合を測定します。ピアソンrは方向の情報(正または負)を含みますが、R²は含みません。単回帰では、両者は同じ基礎的な計算から算出され、R² = r² が成り立ちます。

なぜ計算ツールは最低2つのデータ点を必要としますか?

直線は2つの異なる点で一意に定まります。1つのデータ点では無限の直線がその点を通るため、一意の回帰直線は存在しません。2点の場合は直線が両方を正確に通り、定義上R² = 1 となります。R²やピアソンrなどの回帰統計量が意味を持つのは、データ点がより多い場合であり、完全な補間ではなく真の適合度を反映するようになります。

データが完全に線形でなくても線形回帰を使えますか?

はい。おおよそ線形なデータには線形回帰を適用できます。R²の値が線形モデルの適合度を反映し、R²が低い場合は非線形モデルの方がデータをよりよく記述する可能性を示唆します。変数を変換する(たとえばxやyの対数をとる)ことで、特定の曲線関係を線形化してから回帰を適用することもできます。

R²が高ければxがyの原因であると証明できますか?

いいえ。R²は統計的な適合度を測定するものであり、因果関係を示すものではありません。2つの変数が高い相関を示し、回帰直線がよく適合しても、一方が他方の原因であるとは限りません。交絡変数、偶然の傾向、逆因果はすべて高いR²を生み出す可能性があります。因果関係の確立には、回帰分析の適合を超えて、実験デザイン、ランダム化、または厳密な因果推論の方法が必要です。