統 計学における重要な概念である統計的推定、統計的検定の基本的な考え方を学ぶ。標本数と推定値の信頼性(望ましい精度の推定値を得るに必要なデータ数)、
統計データ分析の検定結果を信頼して使えるデータ数、等々の知見を得る。ロジスティック回帰分析、近年よく使われる計算機によるブーツストラップ分析、適合度検定、テキストマイニングなどを学ぶ。いろいろなデータ分析の適用例を通して、統計データ分析の考え方の基本を学ぶ。
内容:
導入:●Business Intelligence(BI)とは ●BIにおける統計データ分析の役割.
●正規分布に従う現象とその確率計算:身長の分布、誤差の分布、所得の分布.
(1) 平均について.正規分布による平均の分布、正規分布によらない平均の分布.
例)平均と中央値の使い分け.身長の平均の分布、企業の利益率の平均の分布.
(2) 相関係数とその大きさの意味および相関係数の安定性.
例) 新生児の体重と身長、姉妹の身長、科目関の相関.
(3) 回帰分析:最小二乗法の考え方と回帰直線.
例) 年齢と血圧、葉の窒素含有率と葉色、家計消費関数のデータ.
(4) 重回帰分析の基本的な考え方.回帰の残差に要求される前提条件.
残差に正規性が仮定できると.どのような利点があるか.
(5) 良い分析モデルの決め方、どの説明変数が重要か.
モデル選択とは.モデル選択の考え方の具体例による説明.
(6) 分散:回帰による予測値の散らばりの大きさ、データの散らばりの尺度.
平均偏差と分散 例)血圧値のデータ、血色素量のデータ.
(7) 回帰係数の信頼幅(95%信頼区間)、母平均の区間による推定、t分布.
例) 支出額のデータ.あやめの花びらのデータ、第1大臼歯の長さ.
(8) ロジスティック回帰分析.
例) スペースシャトル事故の予測 .
(9)自己回帰モデル:時間と共に変わるデータにもとづく自己回帰.
例) 非鉄金属卸売物価指数の予測.
(10) 統計的仮説検定の考え方と検出力.検定結果が信頼できるデータ数とは.
第1種の過誤の確率(有意水準)と第2種の過誤の確率、検出力.
(11) 平均の検定、対になったデータの平均の検定:t検定.
例) .新生児の身長、血圧降下剤のデータ.
(12) 二標本の平均の検定.平均値は異なると言えるか.
例) ある特殊鋼の強度データ.尿酸量のデータ、テストによる学力の差の検定.
(13) 分布型によらない検定:中央値.中央値の差の検定、分布の差の検定.
例) 免疫グロブリンのデータ、GPTのデータ、伊予かんとリンゴの価格.
(14) 二項分布(2値データ)の推定と検定、ポアソン分布(稀に起こる事象の分布).
(16)データのリサンプリングによるブーツストラップ法.
例) 薬効評価のデータへのブーツストラップ法の適用.
(15)質的データのクロス集計.適合度の検定.独立性の検定.
(16)言葉を集計する-テキストマイニング.
(17) 総合討論:分析結果の信頼性と現実問題での対応.
●ご自分の関心あるデータでの分析:申し出による希望者のみ.
10分の説明と、それに対する講師の解釈とコメント(説明の際に使うデータは、他の方もいるので実際のデータでなくてよい。多少の変更を加えたデータでよい).