● 講義概要
この講座は入門Tと入門Uが対になっている。講座の導入として、ここ20年、社会で広く活用されているBusiness Intelligenceについて、またビッグデータの活用と分析の現状について話す。統計データの分析においては、重要な概念である統計的推定、統計的検定の基本的な考え方を学ぶ。その際に、重要な役割を果たす正規分布について学び、その話のあとで、上記の標本数と推定値の信頼性(望ましい精度の推定値を得るに必要なデータ数)、
統計データ分析の検定結果を信頼して使えるデータ数等々の知見を得る。自己回帰モデル、ロジスティック回帰分析、近年よく使われる計算機によるブーツストラップ分析、適合度検定などを学ぶ。いろいろなデータ分析の適用例を通して、統計データ分析の考え方の基本を学ぶ。
●入門T(1日コース)
内容:
導入:●Business Intelligenceにおける統計データ分析法の重要性について
(1) 相関係数とその大きさの意味および相関係数の安定性.
例) 新生児の体重と身長、姉妹の身長、科目関の相関.
(2) 回帰分析:最小二乗法の考え方と回帰直線.
例) 年齢と血圧、葉の窒素含有率と葉色、家計消費関数のデータ.
(3) 重回帰分析の基本的な考え方.回帰の残差に要求される前提条件.
残差に正規性が仮定できると.どのような利点があるか.
(4) 良い分析モデルの決め方、どの説明変数が重要か.
モデル選択とは.モデル選択の考え方の具体例による説明.
(5) 正規分布に従う現象とその確率計算:身長の分布、誤差の分布、所得の分布.
(6) 平均について.正規分布による平均の分布、正規分布によらない平均の分布.
例)平均と中央値の使い分け.身長の平均の分布、企業の利益率の平均の分布.
(7) 分散:回帰による予測値の散らばりの大きさ、データの散らばりの尺度.
平均偏差と分散 例)血圧値のデータ、血色素量のデータ.
(8) 回帰係数の信頼幅(95%信頼区間)、母平均の区間による推定、t分布.
例) 支出額のデータ.あやめの花びらのデータ、第1大臼歯の長さ.
(9) 自己回帰モデル:時間と共に変わるデータにもとづく自己回帰.
例) 非鉄金属卸売物価指数の予測.
(10) 言葉を集計する-テキストマイニング.
●入門U(1日コース)
内容:
導入:○ビッグデータの活用についての簡単な紹介
(1) 情報の要約ための主成分分析法の基本的考え方
(2) 統計的仮説検定の考え方と検出力.検定結果が信頼できるデータ数とは.
第1種の過誤の確率(有意水準)と第2種の過誤の確率、検出力.
(3) 平均の検定、対になったデータの平均の検定:t検定.
例) .新生児の身長、血圧降下剤のデータ.
(4) 二標本の平均の検定.平均値は異なると言えるか.
例) ある特殊鋼の強度データ.尿酸量のデータ、テストによる学力の差の検定.
(5) 分布型によらない検定:中央値.中央値の差の検定、分布の差の検定.
例) 免疫グロブリンのデータ、GPTのデータ、伊予かんとリンゴの価格.
(6) 二項分布(2値データ)の推定と検定、ポアソン分布(稀に起こる事象の分布).
(7) データのリサンプリングによるブーツストラップ法.
例) 薬効評価のデータへのブーツストラップ法の適用.
(8) 質的データのクロス集計.適合度の検定.独立性の検定.
(9) 言葉を集計する-テキストマイニング.
(10) ロジスティック回帰分析.
例) スペースシャトル事故の予測 .
総合討論:分析結果の信頼性と現実問題での対応.
●ご自分の関心あるデータでの分析:申し出による希望者のみ.
10分の説明と、それに対する講師の解釈とコメント(説明の際に使うデータは、他の方もいるので実際のデータでなくてよい。多少の変更を加えたデータでよい).
学習支援のため、講義のパワーポイントと関連資料をUSBを通して提供しています。当日パソコンを持参しない方はUSBをご持参下さい。