統計学

提供: miniwiki
統計学者から転送)
移動先:案内検索

統計学(とうけいがく、: statistics: Statistik)とは、統計に関する研究を行う学問である。

統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供する学問であり、幅広い分野で応用されている[1]

現在では、医学疫学EBM)、薬学経済学社会学心理学言語学など、自然科学社会科学人文科学の実証分析を伴う分野について、必須の学問となっている。また、統計学は哲学の一分科である科学哲学においても重要な一つのトピックになっている。[2]

語源

英語で統計または統計学を「statistics (スタティスティクス)」と言うが、語源はラテン語で「状態」を意味する「statisticum (スタティスティークム)」であり、この言葉がイタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問を意味するようになった。[3]

統計的手法

実験計画
データ収集の規模や対象、割付方法をコントロールし、より公正で評価可能なデータが収集できるよう検討すること。統計の世界には「ゴミのようなデータを使っていくら解析しても出てくる結果はゴミばかりだ」[4]という格言がある。これはデータ収集の前にその方法を十分に検討する必要があることを強調したものである。
記述統計
記述統計とは、収集したデータの要約統計量平均分散など)を計算して分布を明らかにする事により、データの示す傾向や性質を知ること。
推計統計
データからその元となっている諸性質を確率論的に推測する分野。推計統計学の項に詳述。
尺度水準
データ(あるいは変数測定)の尺度はふつう次のような種類(水準)に分類される。尺度水準によって、統計に用いるべき要約統計量や統計検定法が異なる。
  • 質的データ、カテゴリデータ
    • 名義尺度:単なる番号で順番の意味はない。電話番号、背番号など。
    • 順序尺度順序が意味を持つ番号。階級や階層など。
  • 量的データ、数値データ

また、事象をモデル化し、数学のモデルとして解析するオペレーションズリサーチ(OR)の分野も統計学の一分野である。

これらは、意思決定に応用されている。

ベイズ統計学

18世紀にベイズによって考案された手法。

統計学の用語

歴史

統計学の源流は国家または社会全体における人口あるいは経済に関する調査(東西を問わず古代から行われている)にある。

学問としては、17世紀にはイギリスウィリアム・ペティの『政治算術』などが著述され、その後の社会統計学に繋がる流れが始まった。また、ゴットフリート・ライプニッツエドモンド・ハレーによる死亡統計の研究も行われた。これらの影響の基、18世紀にはドイツのヨハン・ペーター・ジュースミルヒが『神の秩序』(1741年)で人口動態にみられる規則性を明らかにしたが、これには文字通り「神の秩序」を数学的に記述する意図があった。

ドイツでは17世紀からヨーロッパ各国の国状の比較研究が盛んになったが、1749年にアッヘンヴァルがこれにドイツ語で「Statistik (シュタティシュティーク)」(「国家学」の意味)の名をつけている。19世紀初頭になるとこれに関して政治算術的なデータの収集と分析が重視されて、「Statistik」の語は特に「統計学」の意味に用いられ、さらにイギリスやフランスなどでも用いられるようになった。この頃アメリカ、イギリス、フランスなどで国勢調査も行われるようになる。

一方ブレーズ・パスカルピエール・ド・フェルマーに始まった確率論の研究がフランスを中心にして進み、19世紀初頭にはピエール=シモン・ラプラスによって一応の完成を見ていた。また、カール・フリードリヒ・ガウスによる誤差正規分布についての研究も統計学発展の基礎となった。ラプラスも確率論の社会的な応用を考えたが、この考えを本格的に広めたのが「近代統計学の父」と呼ばれるアドルフ・ケトレーであった。彼は『人間について』(1835年)、『社会物理学』(1869年)などを著し、自由意志によってばらばらに動くように見える人間の行動も社会全体で平均すれば法則に従っている(「平均人」を中心に正規分布に従う)と考えた。ケトレーの仕事を契機として、19世紀半ば以降、社会統計学がドイツを中心に、特に経済学と密接な関係を持って発展する。代表的な人物にはアドルフ・ワグナーエルンスト・エンゲルエンゲル係数で有名)、ゲオルク・フォン・マイヤーがいる。またフローレンス・ナイチンゲールも、社会医学に統計学を応用した最初期の人物として知られる。

同じく19世紀半ばにチャールズ・ダーウィン進化論が発表され、彼の従弟に当たるフランシス・ゴルトンは数量的側面から生物進化の研究に着手した。これは当時「biometrics (バイオメトリクス)」(生物測定学)と呼ばれ、多数の生物(ヒトも含めて)を対象として扱う統計学的側面を含んでいる。ゴルトンは回帰の発見で有名であるが、当初生物学的と思われたこの現象は一般の統計学的対象の解析でも重要であることが明らかとなる。ゴルトンの後継者となった数学者カール・ピアソンはこのような生物統計学をさらに数学的に発展させ(数理統計学)、19世紀終わりから20世紀にかけ記述統計学を大成する[5]

20世紀に入ると、ウィリアム・ゴセット、続いてロナルド・フィッシャー農学実験計画法研究をきっかけとして数々の統計学的仮説検定法を編み出し、記述統計学から推計統計学の時代に移る。ここでは母集団から抽出された標本を基に、確率論を利用して逆に母集団を推定するという考え方がとられる。続いてイェジ・ネイマンエゴン・ピアソンらによって現代の推計統計学の理論体系が構築され、これは社会科学医学工学オペレーションズ・リサーチなどの様々な分野へ応用されることとなった。

こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。

これに呼応して、在来の客観確率を前提に置く統計学に対し主観確率を中心に据えたベイズ統計学が1950年代に提唱された。ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語るなど、およそ在来統計学とは正反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。しかし主観確率には、新たに取得した情報によって確率を更新する機能が内包され、この点が大きな応用の道を開いた。今や統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。

計量経済学統計物理学バイオテクノロジー疫学機械学習データマイニング制御理論インターネットなど、あらゆる分野でベイズ統計学は実学として活用されている。スパムメールフィルタ日本語入力予測変換など身近な応用も数多い。20世紀末にはマルコフ連鎖モンテカルロ法など理論面で様々な革新的考案もなされ、旧来の統計学では不可能であったような各分野で多くの応用がなされるようになっている。これらベイズ統計学についての展開は、いずれも計算環境の進歩と不可分である。

統計の困難さ

一度信頼できる統計データが取れさえすれば統計学的分析は数学的に行えるが、信頼できる統計データの収集はとても難しい。実際、統計を取る人の主義主張によって統計値が大きく異なる事も多々あり、レーガン政権は当時アメリカにホームレスが30万人しかいないと主張したが、活動家達はその10倍の300万人いると主張した[6]

例えば、質問の仕方一つで結果がガラリと変わってしまう。強姦に関するある調査で、女子大生に「男性からアルコール薬物を飲まされて、望まない性交をした事がありますか」と質問する事で「女子大生の1/4が強姦された事がある」という結論を出したが、批判者達はこの調査で強姦体験者と認定された女子大生達を集めて再調査したところ、その3/4がその体験を強姦だと考えていないことが分かった[6]

また、暗数の考慮にも主観がつきまとってしまう。暗数とは「統計に出ない値」のことで、例えば強姦のような犯罪はそれがタブーであるが故に警察に届けないことも多く、したがって統計に表れない。それには統計を正しく読み解くには暗数を考慮する必要があるが、統計値を多く見積もりたい人は意識的・無意識的に暗数を多く見積もってしまう可能性があり、逆に統計値を少なく見積もりたい人は暗数を少なく見積もってしまう可能性がある。

正しい統計データから正しい統計操作を行ってもなお騙すことが可能である。ここ四十数年で少年犯罪は1/4になっているが、「少年犯罪は急激に犯罪が増加している」ことを主張したければ、最近10年分のデータだけを提示すれば、最近10年分では微増しているため、その主張は成立することになる[7]。グラフの縦軸(=犯罪数の軸)をわざと縦長に書く事で犯罪数が急上昇しているように見せかけることも可能である。

統計それ自体の困難さに加え、統計によって得られた知見を一般社会に普及することの困難さも指摘されるべきであろう。本来、ヒトを始めとした大脳新皮質を持つ生物は、死や病気の危険を極力避ける(ヒューリスティック)よう行動するように進化した。しかし統計学が示したのは、どのような食物も環境も行動も文明の利器も一定の確率で癌その他の死のリスクを0に出来ないという非情な現実である。その結果、文明の利器の中でも最も死をもたらすものである自動車を活用する一方で原子力発電を忌避したり、リスク対効果を無視して各種ワクチンを忌避したりなどの行為が挙げられる。

教育

統計学は「実学」に端を発しており、近代社会以降世界に普及した「市場経済社会」を牽引した原動力とも言える学問である。そのため、自然科学社会科学人文科学の各分野の垣根を越えて分化かつ拡大を続ける中、基礎において汎用性が高い学問の構造を有している。

社会生活の至る所で統計技術の適用が貢献できる場面がある以上、統計学とその適用方法を学習する上では社会の実態に即して頻繁に技法を適用してみることが重要であり、そのように出来るためには何よりまず統計処理を身近で制限無く実施できるような「統計処理環境」の備えが必要である。PCソフトウェアインターネット環境などのIT環境が急速に進化低廉化して普及したことで身近に統計処理環境を持ちうるようになり、なおかつ莫大な統計情報がインターネットを通じて公開されているため、研究・調査・学習の処理材料にも不自由しない。

実際21世紀に入って以降は、それまでの確率論と数理統計学を重点に置いたカリキュラムに加え、データを処理して求める答えに近づく「データ解析」のスキルが教育されるようになっている。

元来コンピュータを使った数値計算に際してはまず、IEEE 754規格にあるように丸め誤差が暗黙のうちに生じることや、有効数字の概念の認識が重要で、子供のころ算数で学んだような計算結果にはならないことがあることを知っておかねばならない。さらに、統計計算では殊に重要な乱数についても、コンピュータ上で用いるのは疑似乱数であることや、良質な疑似乱数生成方式「メルセンヌ・ツイスタ」を計算ソフトウェアや開発用言語の全てが必ず備えているわけではないこと、暗号論的乱数はさらにまた別の乱数概念であること、なども実は大切な基礎知識である。

人が得意とするパターン認識の力を積極的に用いるため、統計データの「グラフ化」が古来常套手段として用いられているが、ITの支援を得ることで大量のデータを様々な形に、しかも瞬時にグラフ化(あるいは『見える化』)することが可能となった。そのためのグラフ作成ソフトも多数存在するが、その他の数値解析ソフトウェア数式処理システム、そして殊に下記のような統計アプリケーションではグラフ化するための機能が充実している。一方、近年オフィスソフト機能等で極端なグラフ装飾を施すことが横行している。この結果として、例えば3Dグラフなどを安易に用いると遠近感や区間面積などから表示すべき真の数量とは異なった認識を受け手に与える事がある。本来3Dグラフ表示は人の空間認識力を活かし得る優れた表現手法であるが、意味なく勢い付け等で用いるのは本来的な視覚化からは退行するばかりか、意図して受け手の誤認識を誘導する事も可能となる。「グラフは直感的に分かるから全て善である」と一般に認識されていることや、前出「統計の困難さ」にある内容をふまえると、統計の視覚化とその解釈に関するリテラシ教育は初等段階から特に注意を要する。

上記のように、用いる統計処理環境ごとに適用分野・目的・方法論・使用者との相性などは異なる。そういった統計処理環境固有の特性なども含めて、いかなる道具もそうであるように、数多く体験の機会を作るほかに理解の早道は無い。

広く普及した表計算ソフトウェアが統計処理・グラフ表現機能を持っているので、誰でも手軽に統計処理入門体験は出来る。しかしあくまでビジネスソフトであり、科学技術ソフトではないExcelの計算の信頼性については常に批判が絶えない[8][9][10][11](Excelに限らず普及している表計算ソフトウェアはどれも信頼に足る統計計算はできないとの報告もある[12])。近年では研究・教育機関が公開するオープンソースフリーソフトの中からきわめて優秀な計算ソフトウェアが育っており、プロプライエタリソフトの問題点顕在化により関心の高まった統計技術資産の持続可能性という観点からも、統計教育にあたってはこれらオープンソースソフトウェアの積極的な活用が推奨される。

統計の研究・教育に適した代表的なフリーソフトウェア

統計計算に関連するソフトウェアのカテゴリ

日本

日本においては統計学がそれぞれの分野へ分化された形で組み込まれているため「統計学科」を置く大学がなかったが、2017年度に滋賀大学が日本で初めて統計学を研究の核とするデータサイエンス学部を新設。

国立の統計学研究・教育機関としては、1944年に設立された統計数理研究所があり、AIC数量化理論確率微分方程式などの顕著な成果を生み出し、統計学研究を牽引している[13]

平成21年(2009年)11月に公示された[14]新学習指導要領によって高校数学Iに「データの分析」が、また数学Bに「確率分布と統計的な推測」が挙げられ、平成24年(2012年)度入学生から適用されることとなった。これは約30年ぶりの統計学習の拡充である。「データの分析」はデータの散らばりと相関について教え、その目的は「統計の基本的な考えを理解するとともに,それを用いてデータを整理・分析し傾向を把握できるようにする。」である。総務省統計局では「学校における統計教育の位置づけ」[15]を解説し、指導者の支援にあたっている。

脚注

  1. グリコ遊びギャンブル等にも活用可能。「統計学が最強」の西内啓氏「パチンコには二度と行かない」”. NEWSポストセブン (2013年5月3日). . 2017閲覧.
  2. 「、その意味や在り方が帰納の正当性の問題などと絡めて真剣に議論されている。」
  3. ラテン語で「statisticum (collegium) (スタティスティークム・コレーギウム)」という表現があるが、この意味は「社会状態の科学」である。
  4. : Garbage in, garbage out.
  5. 現在では生物統計学「biostatistics (バイオスタティスティクス)」とも呼ばれる、この単語は現在では生体認証という別の意味で使われている。
  6. 6.0 6.1 ジョエル・ベスト 『統計はこうしてウソをつく : だまされないための統計学入門』 林大訳、白揚社、2002年。ISBN 4-8269-0111-9。
  7. パオロ・マッツァリーノ 『反社会学講座』 イースト・プレス、2004年。ISBN 4-87257-460-5。
  8. Excel使うな Okumura's Blog 三重大学高等教育創造開発センター教授・教育情報システム部門長 奥村晴彦のブログ
  9. 52, Issue 10, Pages 4567-4878 (15 June 2008)  Special Section on Microsoft Excel 2007, Edited by B.D. McCullough
  10. Excel は,コンピュータ・ソフトウェアの三種の神器のようになっていますが,とんでもないこともあるというお話。 群馬大学社会情報学部教授 青木繁伸のサイト
  11. 間違いだらけのExcel関数ヘルプ「財務・統計関数編」市販解説本で孫引きしている点も警告
  12. On the Numerical Accuracy of Spreadsheets : the Journal of Statistical Software Vol.34, Issue4, Apr2010
  13. 現在は情報・システム研究機構を構成する一機関。
  14. 高等学校学習指導要領解説・数学編 - 文部科学省
  15. 統計学習の指導のために(先生向け) - 総務省統計局

関連項目

参考文献

  • 『統計学入門』 東京大学教養学部統計学教室(編)、東京大学出版会、1991年。
  • J. R. Taylor 『計測における誤差解析入門』 林 茂雄,馬場 凉(訳)、東京化学同人、2000年。
  • 蓑谷 千凰彦 『推定と検定のはなし』 東京図書、1988年。
  • 竹之内 脩 『ルベーグ積分』 培風館〈現代数学レクチャーズ〉、1980年。
  • R. A. フィッシャー 『統計的方法と科学的推論』 渋谷 政昭, 竹内 啓(訳)、1962年。

外部リンク