toptoppage
2017年度公開講座案内・申込締切日・授業料など詳細はこちら

よく分かるデータ解析入門
講義概要
 この講座は入門Tと入門Uが対になっている。講座の導入として、ここ20年、社会で広く活用されているBusiness Intelligenceについて、またビッグデータの活用と分析の現状について話す。統計データの分析においては、重要な概念である統計的推定、統計的検定の基本的な考え方を学ぶ。その際に、重要な役割を果たす正規分布について学び、その話のあとで、上記の標本数と推定値の信頼性(望ましい精度の推定値を得るに必要なデータ数)、 統計データ分析の検定結果を信頼して使えるデータ数等々の知見を得る。自己回帰モデル、ロジスティック回帰分析、近年よく使われる計算機によるブーツストラップ分析、適合度検定などを学ぶ。いろいろなデータ分析の適用例を通して、統計データ分析の考え方の基本を学ぶ。

入門T(1日コース)
内容:
導入:●Business Intelligenceにおける統計データ分析法の重要性について
(1) 相関係数とその大きさの意味および相関係数の安定性.
  例) 新生児の体重と身長、姉妹の身長、科目関の相関.
(2) 回帰分析:最小二乗法の考え方と回帰直線.
  例) 年齢と血圧、葉の窒素含有率と葉色、家計消費関数のデータ.
(3) 重回帰分析の基本的な考え方.回帰の残差に要求される前提条件.
  残差に正規性が仮定できると.どのような利点があるか.
(4) 良い分析モデルの決め方、どの説明変数が重要か.
  モデル選択とは.モデル選択の考え方の具体例による説明.
(5) 正規分布に従う現象とその確率計算:身長の分布、誤差の分布、所得の分布.
(6) 平均について.正規分布による平均の分布、正規分布によらない平均の分布.
  例)平均と中央値の使い分け.身長の平均の分布、企業の利益率の平均の分布.
(7) 分散:回帰による予測値の散らばりの大きさ、データの散らばりの尺度.
  平均偏差と分散  例)血圧値のデータ、血色素量のデータ.
(8) 回帰係数の信頼幅(95%信頼区間)、母平均の区間による推定、t分布.
  例) 支出額のデータ.あやめの花びらのデータ、第1大臼歯の長さ.
(9) 自己回帰モデル:時間と共に変わるデータにもとづく自己回帰.
  例) 非鉄金属卸売物価指数の予測.
(10) 言葉を集計する-テキストマイニング.

入門U(1日コース)
内容:
導入:○ビッグデータの活用についての簡単な紹介
(1) 情報の要約ための主成分分析法の基本的考え方
(2) 統計的仮説検定の考え方と検出力.検定結果が信頼できるデータ数とは.
  第1種の過誤の確率(有意水準)と第2種の過誤の確率、検出力.
(3) 平均の検定、対になったデータの平均の検定:t検定.
  例) .新生児の身長、血圧降下剤のデータ.
(4) 二標本の平均の検定.平均値は異なると言えるか.
  例) ある特殊鋼の強度データ.尿酸量のデータ、テストによる学力の差の検定.
(5) 分布型によらない検定:中央値.中央値の差の検定、分布の差の検定.
  例) 免疫グロブリンのデータ、GPTのデータ、伊予かんとリンゴの価格.
(6) 二項分布(2値データ)の推定と検定、ポアソン分布(稀に起こる事象の分布).
(7) データのリサンプリングによるブーツストラップ法.
  例) 薬効評価のデータへのブーツストラップ法の適用.
(8) 質的データのクロス集計.適合度の検定.独立性の検定.
(9) 言葉を集計する-テキストマイニング.
(10) ロジスティック回帰分析.
  例) スペースシャトル事故の予測 .
総合討論:分析結果の信頼性と現実問題での対応.

ご自分の関心あるデータでの分析:申し出による希望者のみ.
 10分の説明と、それに対する講師の解釈とコメント(説明の際に使うデータは、他の方もいるので実際のデータでなくてよい。多少の変更を加えたデータでよい).

 学習支援のため、講義のパワーポイントと関連資料をUSBを通して提供しています。当日パソコンを持参しない方はUSBをご持参下さい。
Copyright c Toukei Kagaku Kenkyujo, Co., Ltd. All right reserved