ロジスティック回帰

提供: miniwiki
2018/8/19/ (日) 17:28時点におけるAdmin (トーク | 投稿記録)による版 (1版 をインポートしました)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先:案内検索

テンプレート:回帰分析 ロジスティック回帰(ロジスティックかいき、: Logistic regression)は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。1958年David Cox が発表した[1]。確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる。

モデルは同じく1958年に発表された単純パーセプトロンと等価であるが、scikit-learn などでは、パラメータを決める最適化問題確率的勾配降下法を使用する物をパーセプトロンと呼び、座標降下法準ニュートン法などを使用する物をロジスティック回帰と呼んでいる。

概要

ロジスティック回帰モデルは以下のような形式である。x が入力で、pが確率(出力)、αとβがパラメータ。

[math]\operatorname{logit}(p_i)=\ln\left(\frac{p_i}{1-p_i}\right) = \alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i},[/math]
[math]i = 1, \dots, n,\,\![/math]

ここで、n 個のユニットと共変動 X があり、以下のような関係にある。

[math]p_i = E(Y|X_i) = \Pr(Y_i = 1).\,\![/math]

結果のオッズ(1から確率を引いたもので確率を割った値)の対数は、説明変数 Xi の線形関数としてモデル化される。これを次のようにも表せる。

[math]p_i = \Pr(Y_i = 1|X) = \frac{1}{1+e^{-(\alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i})}}[/math]

単純パーセプトロンの記法を使うと上記の式は以下のようにも表現できる。[math]\varsigma_1[/math] は標準シグモイド関数

[math]p_i = \varsigma_1 (\alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i})[/math]

パラメータの推定はオッズ比に重大な影響がある。性別のような2値の説明変数の場合、[math]e^\beta[/math] は例えば男性と女性の結果のオッズ比の推定である。推定には最尤法を使うことが多い。

このモデルの拡張として多分割(polytomous)ロジスティック回帰がある。複数カテゴリの従属変数や順序のある従属変数を扱う。ロジスティック回帰による階層分けを多項ロジットモデルと呼ぶ。

応用

社会科学分野での典型的な応用として、企業の過去のデータをもとに信用リスクを推定するという用法がある。

2値ロジスティック回帰はダイレクトマーケティングでよく使われ、ある提案に反応する人々を特定するのに使われる(従属変数は「反応する=1」と「反応しない=0」である)。ダイレクトマーケティングの2値ロジスティック回帰モデルは「リフトチャート」を使って評価される。これは、過去のメールへの反応のデータとモデルによる予測結果を比較する。

ロジスティック回帰モデルは一般化線形モデルの一種である。p(x) が、予測値変数 x について成功の確率を表すとすると、次のように表される。

[math]p(x) = \frac{e^{B_0 + B_1x}}{1+e^{B_0+B_1x}}.[/math]

代数的操作を施すと次のようになる。

[math]\frac{p(x)}{1-p(x)} = e^{B_0+B_1x},[/math]

ここで、[math]\frac{p(x)}{1-p(x)}[/math] は成功のオッズである。ここで、例えば p(50) = 2/3 の場合を計算してみると

[math]\frac{p(50)}{1-p(50)} = \frac{\frac{2}{3}}{1-\frac{2}{3}} = 2.[/math]

したがって、x = 50 のとき、成功の可能性は失敗の2倍(オッズが 2 対 1 )である。

参考文献

  • Agresti, Alan, Categorical Data Analysis, 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
  • Amemiya, T., Advanced Econometrics, Harvard University Press, 1985, ISBN 0-674-00560-0.
  • Balakrishnan, N., Handbook of the Logistic Distribution, Marcel Dekker Inc., 1991, ISBN 0824785878.
  • Green, William H., Econometric Analysis, fifth edition, Prentice Hall, 2003, ISBN 0-13-066189-9.
  • Hosmer, David W. and Stanley Lemeshow, Applied Logistic Regression, 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.

関連項目

参照

  1. Cox, DR (1958). “The regression analysis of binary sequences (with discussion)”. J Roy Stat Soc B 20: 215–242. 

外部リンク