⚠️ このツールは参考情報です。医療に関する判断は医療専門家にご相談ください。

❤️

健康 · 健康管理

感度・特異度計算

2×2混同行列の値（TP、FP、FN、TN）を入力して、主要な診断性能指標をすべて計算します。感度、特異度、陽性的中率・陰性的中率、正確度、F1スコア、尤度比を一括で算出します。

真陽性（TP）

偽陽性（FP）

偽陰性（FN）

真陰性（TN）

計算例を表示中 — 上に値を入力してください

診断性能指標

81.8%

感度

88.9%

特異度

90.0%

陽性的中率

80.0%

陰性的中率

85.0%

正確度

85.7%

F1スコア

55.0%

有病率

7.36

陽性尤度比

0.20

陰性尤度比

200

合計サンプル数

結果は入力された混同行列に基づく推定値です。これらの数値は臨床的判断や専門的な医療アドバイスの代替ではありません。

感度・特異度と診断検査の性能評価を理解する

診断検査を評価する際——医療スクリーニングツール、機械学習の分類器、品質管理システムのいずれであっても——陽性と陰性をどれだけ正確に区別できるかを把握することが不可欠です。感度と特異度はその基盤となる2つの指標ですが、全体像を理解するには同じ2×2混同行列から導かれるいくつかの追加統計量が必要になります。

2×2混同行列とは

二値分類の検査には4つの結果が生じます。真陽性（TP）は検査結果と実際の状態がともに陽性の場合で、検査が症例を正しく検出したことを意味します。真陰性（TN）はともに陰性の場合で、検査が非症例を正しく除外したことを示します。偽陽性（FP）は検査が陽性だが実際には疾患がない場合で、健常者を誤って陽性と判定しています。偽陰性（FN）は検査が陰性だが実際には疾患がある場合で、患者を誤って陰性と判定しています。

これら4つの値が、すべての診断性能指標の原材料となります。2×2の表に体系的に配置することで、研究者や臨床家は検査の長所と短所を特徴づける包括的な統計量セットを算出できます。

感度（再現率・真陽性率）

感度は、検査が真の症例をどれだけ確実に検出するかを測定します。計算式は TP ÷ (TP + FN) で、実際の陽性例のうち検査が正しく検出した割合です。感度95%とは、100人の真の陽性者のうち95人を検出し、見逃しは5人のみであることを意味します。

高い感度が求められるのは、症例を見逃すコストが深刻な場合です。がんスクリーニングや感染症サーベイランスでは、真の症例を検出できない（偽陰性）ことが重大な結果を招く可能性があるため、初期スクリーニングに用いる検査は通常、感度を優先します。感度が高い検査は疾患の「除外」に有効です。高感度検査で陰性が出た場合、その疾患がないことについて強い安心材料となります。

特異度（真陰性率）

特異度は、検査が真の非症例をどれだけ確実に除外するかを測定します。計算式は TN ÷ (TN + FP) で、実際の陰性例のうち検査が正しく陰性と判定した割合です。特異度90%とは、100人の健常者のうち90人を正しく陰性と判定し、誤って陽性としたのは10人のみであることを意味します。

高い特異度が求められるのは、偽陽性のコストが高い場合——例えば侵襲的な処置を行う前の確認検査などです。特異度が高い検査は疾患の「確定」に有効です。高特異度検査で陽性が出た場合、その疾患が実際に存在することの強い根拠となります。

陽性的中率（PPV）と陰性的中率（NPV）

感度と特異度が検査自体の特性であるのに対し、陽性的中率（PPV）と陰性的中率（NPV）は特定の集団における検査性能を表します。PPVは TP ÷ (TP + FP) で、陽性と判定された結果のうち真の陽性の割合です。NPVは TN ÷ (TN + FN) で、陰性と判定された結果のうち真の陰性の割合です。

重要な点は、PPVとNPVが有病率に大きく依存することです。有病率が低い集団では、特異度が高い検査であっても真陽性に対する偽陽性の割合が増加し、PPVは低下します。逆に有病率が高い集団では、感度が中程度の検査でもNPVが許容範囲内に収まる場合があります。この関係を理解することは、臨床でスクリーニング結果を解釈する上で極めて重要です。

正確度とF1スコア

正確度は正しく分類された全体の割合で、(TP + TN) ÷ 合計で計算されます。直感的にわかりやすい指標ですが、クラスが不均衡な場合には誤解を招く可能性があります。データセットの95%が陰性であれば、常に「陰性」と予測する検査でも正確度は95%に達しますが、陽性の検出には全く役に立ちません。

F1スコアはこの限界に対処する指標です。PPV（適合率）と感度（再現率）の調和平均として計算され、式は 2 × (PPV × 感度) ÷ (PPV + 感度) です。両方の指標を組み合わせることで、症例の見逃しと偽陽性のトレードオフのバランスを取ります。クラス不均衡により正確度が信頼できない場合に特に有用で、臨床研究と機械学習の両方のベンチマークで広く使用されています。

尤度比

尤度比は、検査結果が患者の疾患保有確率をどの程度変化させるかを表します。陽性尤度比（LR+）は感度 ÷ (1 − 特異度) で計算されます。これは、疾患を有する人で陽性結果が出る確率が、有しない人に比べてどれだけ高いかを示します。LR+が10を超える場合、一般に疾患の強い根拠と見なされます。

陰性尤度比（LR−）は (1 − 感度) ÷ 特異度で計算されます。これは、疾患を有する人で陰性結果が出る確率が、有しない人に比べてどの程度かを示します。LR−が0.1未満の場合、疾患がないことの強い根拠と見なされます。尤度比はベイズの定理を用いて検査前確率に直接適用できるため、集団の有病率に依存せずに疾患確率の推定値を更新でき、臨床的に非常に有用です。

有病率と予測値への影響

有病率——検査対象集団における真の陽性例の割合——は、感度と特異度（検査固有の特性）をPPVとNPV（集団依存の値）に結び付けます。有病率が低いと偽陽性が真陽性に対して蓄積し、PPVが低下します。有病率が高いと偽陰性が真陰性に対して蓄積し、NPVが低下します。

これは集団スクリーニングプログラムに実際的な影響を及ぼします。感度99%、特異度99%の血清検査は優秀に見えますが、疾患の有病率がわずか0.1%の場合、100,000人の検査で真陽性は約100人、偽陽性は約999人となり、PPVはわずか約9%です。したがって、有病率を理解することは、検査自体の特性を理解することと同様に重要です。

応用分野：医学、機械学習、品質管理

混同行列のフレームワークは医療の診断検査に端を発しますが、現在では二値分類を伴うあらゆる分野で普遍的に使用されています。機械学習では感度は再現率（recall）、PPVは適合率（precision）と呼ばれます。F1スコアは分類モデルの標準的なベンチマーク指標です。品質管理や産業検査では、感度と特異度が検出閾値や許容される誤報率の判断に役立てられています。

これらの分野で数学的な計算は同一ですが、解釈が異なります。医療スクリーニングにおける「偽陽性」は不要なフォローアップ検査を意味しますが、不正検出における偽陽性は正当な取引のブロックを意味する場合があります。偽陽性と偽陰性の相対コスト——および検出対象の有病率——は、検査の選択や判定閾値の設定において常に考慮すべき要素です。

結果の解釈：文脈の重要性

単一の指標だけで診断性能の全体像を捉えることはできません。感度のみを最適化した検査は特異度が低下し、その逆も同様です。適切なバランスは臨床的または実務的な文脈——真の症例を見逃す深刻さ、偽陽性を調査する負担、対象集団における有病率——に依存します。

これらの計算は、入力された混同行列に基づく定量的な推定値です。検査性能について体系的に考えるためのツールであり、最終的な判定ではありません。すべての結果は、臨床的判断、研究デザインへの配慮、および検査が使用される集団への理解とともに解釈すべきです。

よくある質問

感度と特異度の違いは何ですか？

感度（真陽性率）は、検査が疾患を有する人をどれだけ正しく検出するかを測る指標で、TP ÷ (TP + FN) で計算されます。特異度（真陰性率）は、検査が疾患を有しない人をどれだけ正しく除外するかを測る指標で、TN ÷ (TN + FP) で計算されます。高い感度は見逃しを減らし、高い特異度は偽陽性を減らします。実際にはこの2つはトレードオフの関係にあることが多いです。

PPV（陽性的中率）とは何ですか？感度との違いは？

陽性的中率（PPV）は、陽性の検査結果が真の陽性である確率で、TP ÷ (TP + FP) で計算されます。感度が検査自体の特性であるのに対し、PPVは検査対象集団の有病率に依存します。有病率が低い集団では、特異度が高い検査でも偽陽性が真陽性に対して蓄積するため、PPVが低くなる場合があります。

尤度比は何を教えてくれますか？

尤度比は、検査結果が疾患の確率をどの程度変化させるかを表します。LR+ = 感度 ÷ (1 − 特異度) で、10を超えると疾患の強い根拠となります。LR− = (1 − 感度) ÷ 特異度で、0.1未満は疾患がないことの強い根拠です。ベイズの定理を使って任意の検査前確率に適用できるため、PPVやNPVよりも集団をまたいで柔軟に活用できます。

F1スコアと正確度はいつ使い分けるべきですか？

正確度は正しい結果の全体の割合で、両クラスがほぼ均等な場合にうまく機能します。F1スコアはPPVと感度の調和平均で、一方のクラスが他方よりもはるかに少ない場合（クラス不均衡）に有用です。例えば稀少疾患のスクリーニングでは、常に「陰性」と予測する検査は高い正確度を達成しますが、F1スコアはほぼゼロとなり、その無用さを即座に明らかにします。

この計算ツールは機械学習モデルの評価にも使えますか？

はい。混同行列とここで計算される指標——適合率（PPV）、再現率（感度）、F1スコア、正確度——は、機械学習の分類タスクにおける標準的な評価ツールです。テストセットから得られたモデルのTP、FP、FN、TNの値を入力するだけで、性能の包括的なサマリーを取得できます。