toptoppage
                         2016年度公開講座案内はこちら
統計講座 統計セミナー 統計講座 統計セミナー 統計公開講座 統計セミナー 統計講座 統計セミナー
統計データ分析 U
2日コース
 統計データ分析Tの内容を踏まえて、講義を進めます。数学の知識としては、パイ π=3.14、e = 2.718、また対数 log が数回出てきます(簡単な復習を適宜、入れます)。統計データ分析Tは、特に 統計データ分析T‐T は、公開講座の中で一番難しい科目と言われていますが、統計データ分析Uは、分析T‐Tほどは新しい概念が入ってきません。 統計分析に関する知識・経験を豊富に持っている方は、この科目「統計データ分析U」を履修してから、統計データ分析1‐1を履修するのも「あり」だと思います。教科書を1冊、お渡しいたします。
 始めに、統計学で出てくるいろいろな確率分布について簡単な復習をし、その期待値と分散を調べます。
 現実には、確率分布を規定する未知母数を、観測等で得られたデータから推定することになります。
データから未知母数の良い推定量をどのようにして求めるか(最尤法等)良い推定量はどのような性質を持っていることが望ましいか等を、重要な概念なのでより詳しく学びます。また、ベイズ推定の考え方を話します。
 データから計算される平均、分散は重要な統計量です。真の平均の95%信頼幅などを求める際に、平均の分布を知ることが必要になってきます。分散についても同様です。また、例えば「成功の確率pは 0.8 である」という仮説を検証する統計的検定があります。
仮説検定に対する良い検定統計量の求め方としては、ネイマン・ピアソンの定理、尤度検定法等が知られていますが、その基本的な考え方を説明します 統計学の入門書には、観測データを得たときに、未知母数(平均、分散、比率、・・・など)の良い推定量と、仮設検定に使う検定統計量は同じ式を用いる場合が多いのですが、その式を導き出す考え方は全く異なります。そのことを一度は理解しておくことは、プラスであると考えています。
 さらに、近年の統計データ分析で重要な位置を占めている「
モデル選択法」の基本的な考え方を学びます。AIC基準は1970年代に、赤池弘次氏が統計モデルの良さを評価するための指標、「モデルの複雑さと、データとの適合度とのバランスを取る」指標として提案し、その後非常に有名な統計指標として世界中で活用されるようになりました。赤池氏は1973年のAICに関する論文が評価されて、2006年に京都賞(副賞5,000万円)をいただきました。その論文の謝辞に、この科目を担当する講師「杉山高一」の名前が記載されていることは誰も知りません(どうでも良いことでした).また、モデル選択の基準としてよく用いられるマローズのCp 基準等についても学びます。
 データの確率分布が未知母数に依存する場合は、棄却点あるいはパーセント点を数値的に求めることは、複雑で厄介な問題になります。ほとんどの場合に解けません。1979年にエフロンが提案した
ブートストラップ法は、与えられたデータから繰り返しリサンプリングを行うことに置き換えて対応する考え方で、複雑で厄介な問題を解決する手法として、近年よく使われています。パソコンの性能が良くなり、簡単に結果を出せるようになりました。その基本的な考え方を学び、パソコンで実際に行います。理論的な対応が不可能なときに、パソコンに頼ったこの方法の研究は、千人を超える統計の教授を輩出したのではと思っています。「R」で実際のデータで、その再現性などを確認します。「R」をパソコンに入れている方は、プログラムを差し上げますので、実際に試みていただきます。
最後にデータ分析で度々遭遇する欠測値への対応「(11) 欠測値の統計的補間について」学びます。補間の仕方によっては、欠測値が20%あっても、30%あっても推測の精度はあまり落ちません。それを計算機シミュレーションの結果をお見せしながら、説明致します。
 出来るだけ具体的なデータ分析例を示しながら、上記の統計データ分析の本質的な考え方を分かりやすく説明したいと思います。
 教室は8時半に開きます。講座は土曜日は10時から18時迄です。昼食の1時間は部屋を閉めさせていただきます。日曜日の開講は 9時から17時迄です。
 今年度の担当は杉山高一先生です。 下記講義要項の「
(6) 分布型によらない検定」は、この分野の第一人者である東京理科大学・情報数理学科の村上秀俊先生(http://www3.kitanet.ne.jp/~kcn42673/index.html)に、土曜日2時間話していただきます。村上先生は、最近「ノンパラメトリック法」という名著を、朝倉書店から出版しています。日曜日の午後2時間は、筑波大学大学院の教員から諏訪東京理科大学の教員になり教育・研究に活躍している若い櫻井哲郎先生に下記講義要項の (9)、(10) をお願いしています。先生の書かれた本の内容に、例題などをさらに追加して話していただきます。
内容:下記内容に、必要に応じて一部追加等を行いますのでご了承下さい。
(1) 統計学で出てくるいろいろな確率分布:その期待値と分散
  例) 二項分布:コイン投げ、サイコロの目の分布
   ポアソン分布:まれに起こる事象の分布(工場の不良品数、交通事故)
   幾何分布:製造ラインで次の欠陥品が出るまでの平均時間間隔など
   正規分布:身長、医学データ、測定誤差などの分布
   対数正規分布:血液のデータ、寿命分布(ワイブル分布等との関連)
   指数分布:大型システムの故障発生、放射性物質の寿命、待ち時間
   ワイブル分布:機器の故障分布など
   2次元正規分布:生産量の分類、磁器ヘッドのバイアスなど
(2) いろいろな標本分布と大標本分布による法則:
  例) 正規分布の平均と分散の分布、二項分布の比率の分布、
    年間平均収入の平均値、B型の人の割合、不良品の割合
  
 大数の法則(生命保険、損害保険で)、中心極限定理(近似の妥当性)
(3) 良い推定量の求め方−尤度関数と最尤推定量、その具体的な計算
  例) 正規分布の最尤推定量、指数分布の最尤推定量、
    二項分布の最尤推定量、幾何分布の最尤推定量、
ベイズ推定
(4) 良い推定量の望ましい性質
統計講座 統計セミナー 統計講座 統計セミナー
   不偏推定量、一致推定量、十分推定量、漸近正規性等
(5) 良い検定統計量の求め方:尤度比統計法など。検定統計量の例
  例) p 値、t統計量(平均の検定)、カイ2乗統計量(分散の検定)、
    母比率の検定、非劣性検定(新薬の有効性などの検定)
(6) 分布型によらない検定
   母集団分布として、正規分布を前提にできない場合、明らかに正規分布で
  ない場合における母集団代表値の中央値の差の検定(ウイルコクソン検定)、
  分布の同等性検定(ラページ検定)等はノンパラメトリック検定と言います
  が、それらの検定法について
  例)経常利益率に関する検定.免疫グロブリンのデータ、GPTのデータ
(7) 多重比較法:3標本以上の平均を纏めて検定したい場合の検定法の構成
  3群の平均の比較をするときに、3群から2群を選び「2標本の平均の
  検定」を3回行い、結論を出すことは正しくありません。その理由は.
  ダネット検定法、テュ―キー検定法、ノンパラメトリック法の場合は.
  例題での説明
(8) 相関係数の統計的意味と仮説検定、相関係数の精密分布
  
Fisherのz変換と仮説検定、
   相関行列とそれに関連したいろいろな分析法について
(9) モデル選択法の基本的考え方 統計講座 統計セミナー 統計
  例) モデル選択基準(AIC基準、Cp 基準)、重回帰分析と変数選択など
(10) ブートストラップ法の基本的な考え方
  例) 正常分娩と早産の出生児の体重増加の違いの検定など
(11) 欠測値の統計的補間について
  幾つかのよく知られている方法について、計算機プログラムソフト等の
  紹介.その精度についての研究結果の紹介.
  外ずれ値の簡単な判定法とその根拠.
(12) 分析結果の信頼性と現実問題での対応
質疑応答を随時入れながら進めます.
--------------------------------------------------------------------
受講生からの質問の一部 統計講座 統計セミナー 統計講座 統計セミ
1.何故、確率分布は統計データ分析で重要なのですか
2.多くの統計の本に「身長xは正規分布に従う」と書いてあ
  ります。正規分布はx軸のマイナスからプラスの全範囲で
  定義されていて、身長xはある幅(区間)でプラスの値だけ
  をとるので、間違いであると思いますとの質問があった。
  確かにこの方の言う通りなのですが・・・。
等々の質問から、高度の質問まで、少人数なのでいろいろな疑問
にお答え出来ます。 統計講座 統計セミナー 統計講座 統計セミナー 公開統計講座
Copyright c Toukei Kagaku Kenkyujo, Co., Ltd. All right reserved