トップページに戻るtoppage

2019年度公開講座案内・申込締切日・授業料など詳細はこちら

よく分かるデータ解析入門

● 講義概要
　この講座は入門Ⅰと入門Ⅱが対になっている。講座の導入として、ここ20年、社会で広く活用されているBusiness Intelligenceについて、またビッグデータの活用と分析の現状について話す。統計データの分析においては、重要な概念である統計的推定、統計的検定の基本的な考え方を学ぶ。その際に、重要な役割を果たす正規分布について学び、その話のあとで、上記の標本数と推定値の信頼性（望ましい精度の推定値を得るに必要なデータ数）、統計データ分析の検定結果を信頼して使えるデータ数等々の知見を得る。自己回帰モデル、ロジスティック回帰分析、近年よく使われる計算機によるブーツストラップ分析、適合度検定などを学ぶ。いろいろなデータ分析の適用例を通して、統計データ分析の考え方の基本を学ぶ。

●入門Ⅰ（１日コース）
内容：
導入：●Business Intelligenceにおける統計データ分析法の重要性について
(1) 相関係数とその大きさの意味および相関係数の安定性.
　　例) 新生児の体重と身長、姉妹の身長、科目関の相関.
(2) 回帰分析：最小二乗法の考え方と回帰直線.
　　例) 年齢と血圧、葉の窒素含有率と葉色、家計消費関数のデータ.
(3) 重回帰分析の基本的な考え方．回帰の残差に要求される前提条件.
　　残差に正規性が仮定できると．どのような利点があるか.
(4) 良い分析モデルの決め方、どの説明変数が重要か.
　　モデル選択とは．モデル選択の考え方の具体例による説明.
(5) 正規分布に従う現象とその確率計算：身長の分布、誤差の分布、所得の分布.
(6) 平均について．正規分布による平均の分布、正規分布によらない平均の分布.
　　例)平均と中央値の使い分け．身長の平均の分布、企業の利益率の平均の分布.
(7) 分散：回帰による予測値の散らばりの大きさ、データの散らばりの尺度.
　　平均偏差と分散　　例)血圧値のデータ、血色素量のデータ．
(8) 回帰係数の信頼幅（95％信頼区間）、母平均の区間による推定、t分布．
　　例) 支出額のデータ．あやめの花びらのデータ、第1大臼歯の長さ．
(9) 自己回帰モデル：時間と共に変わるデータにもとづく自己回帰．
　　例) 非鉄金属卸売物価指数の予測．
(10) 言葉を集計する-テキストマイニング.

●入門Ⅱ（１日コース）
内容：
導入：○ビッグデータの活用についての簡単な紹介
(1) 情報の要約ための主成分分析法の基本的考え方
(2) 統計的仮説検定の考え方と検出力．検定結果が信頼できるデータ数とは.
　　第1種の過誤の確率（有意水準）と第2種の過誤の確率、検出力.
(3) 平均の検定、対になったデータの平均の検定：t検定.
　　例) ．新生児の身長、血圧降下剤のデータ.
(4) 二標本の平均の検定．平均値は異なると言えるか.
　　例) ある特殊鋼の強度データ．尿酸量のデータ、テストによる学力の差の検定.
(5) 分布型によらない検定：中央値．中央値の差の検定、分布の差の検定.
　　例) 免疫グロブリンのデータ、GPTのデータ、伊予かんとリンゴの価格.
(6) 二項分布(2値データ)の推定と検定、ポアソン分布(稀に起こる事象の分布).
(7) データのリサンプリングによるブーツストラップ法.
　　例) 薬効評価のデータへのブーツストラップ法の適用.
(8) 質的データのクロス集計．適合度の検定．独立性の検定.
(9) 言葉を集計する-テキストマイニング.
(10) ロジスティック回帰分析．
　　例) スペースシャトル事故の予測．
総合討論：分析結果の信頼性と現実問題での対応.

●ご自分の関心あるデータでの分析：申し出による希望者のみ.
　10分の説明と、それに対する講師の解釈とコメント（説明の際に使うデータは、他の方もいるので実際のデータでなくてよい。多少の変更を加えたデータでよい）.

　学習支援のため、講義のパワーポイントと関連資料をUSBを通して提供しています。当日パソコンを持参しない方はUSBをご持参下さい。