toptoppage
2017年度公開講座案内はこちら

統計データ分析 I-T
1日コース
 統計データ分析では、結果の信頼性が問題になることがあります。データ分析で出てきた数値(結果)は、同じ条件でデータをとったときに、同様の数値(結論)になるのか、このような結果の再現性・信頼性を調べたりする際に、統計的推定、統計的検定の考え方を知っていることが重要になります。本講座では、いろいろなデータ分析の適用例を通して、統計的推定、統計的検定の基本概念を習得できるように説明します。
 
この講座は、現代統計学で学ぶ最初の科目で、考え方の把握が難しいところで、講義は統計的な考え方を把握出来るように、そこに重点をおいて進めます。大学で統計学を専門とする先生に教えていただいても、8,9割の方は本質を理解できないで終わります。ここでの理解が、統計データ分析U、多変量データ解析T・U等の科目内容を的確に理解することに繋がります。
秋は参加者の都合を考慮して9月16日(土)と9月24日(日) の2回、開催予定です。
 
統計データ分析Tは易しそうでなかなか難しく、一度その道の専門家の話を聞いてから、本などで勉強をすると良く分かると思いますので、履修を薦めています。最後のところに補足を書いてあります。
 また、学習支援のため、講義のパワーポイントと関連資料をUSBを通して提供しています。当日パソコンを持参しない方はUSBをご持参下さい。
 教室は8時半に開きます。講座は土曜日は10時から18時迄です。日曜日の開講は 9時から17時迄です。
 今年度の担当は杉山高一先生です。この講座の午後 2時間は牛澤賢二先生です。
内容:統計講座 統計講座 統計講座 統計講座 統計講座 統計講座 統計講座 統計講座
(1) 正規分布に従う現象とその確率計算
  正規分布はなぜ統計学では重要なのか.統計データ分析で果たす正規分
  布の役割と位置付け.正規分布が自然科学、社会科学の様々な場面にお
  いて複雑な現象を簡単に表す統計モデルとして用いられている理由につ
  いて(その背後にある有名な定理).
 例) 身長の分布、誤差の分布、筆跡のデータなど正規分布に従うと考えら
  れる事象.企業の金利負担率.標準正規分布の両側5%点(1.96)、片
  側5%点(1.64)等、また標準正規分布表を用いた正規分布の確率計算.
  パソコンによる確率の計算とp値.
(2) 調査・観察の対象である母集団と無作為標本
  無作為抽出の大切な2つの性質、無作為抽出が統計調査、統計データ分析
  で重要なのはなぜか.一様乱数等の活用.
 例) 標本の抽出法、確率比例抽出,メルセンヌ・ツイスター法による一様乱
  数表の生成、正規乱数等の発生法とシミュレーション実験.
(3) よく用いる平均値はどのような分布に従うのか.
  正規分布からのデータ(無作為標本)の平均値の分布は正規分布に従う.
  正規分布によらないデータの場合、その平均値はどのような場合に正規分
  布に従うとしてよいのか.本には大標本の平均と書いてあるが、ときには
  標本数が12、ときには標本数が2のときの平均値が正規分布に従うとし
  てよい場合もある.またかなりの数の標本数を必要とする場合もあるが、
  その見分け方について.
 例)利益率の平均値の分布、ある種のプランクトン数の平均値の分布、大数
  の法則の適用例.
(4) 分散と標準偏差 統計講座 統計セミナー 統計講座
  データの散らばりの尺度としての分散の重要性と活用、真の分散の推定
  値である標本分散のばらつきを表すカイ二乗分布.分散以外の散らばり
  の尺度.
 例) 3シグマ、血色素量のデータ、売上高の分散.推定値の安定性の条件.
(5) 母平均(真の平均)の信頼幅
  分散が既知の場合の母平均の区間による推定(95%信頼区間).分散が未
  知の場合の分布と母平均の区間による推定(95%信頼区間).
 例) 出生時体重の平均の95%信頼区間、第1大臼歯の長さ.信頼幅と標本
  数.
(6) 統計的仮説検定の考え方と検出力
  信頼できる標本数の大きさの決め方.帰無仮説と対立仮説.第1種の過
  誤の確率(有意水準)と第2種の過誤の確率、検出力の意味.信頼でき
  る分析結果を得るために標本数をどのように決めるか.
(7) 平均の検定、対になったデータの平均の検定
  検定の適用例、t検定が頑健性ロバストネスであることの意味.
 
例)自己資本比率、 新生児の身長、血圧降下剤のデータ.
(8) 正規分布の対極としての2値データとその分布
  二項分布(2値データ)の推定(比率の推定)と母比率の信頼区間、母比率に
  関する仮説検定、官能検査で行われる美味しさの比較の検定.
例えば、あ
  る意識調査(回答は、1.賛成、2.反対)で、600人を抽出して調べたとき、
  賛成者の真の比率pの95%信頼区間が、0.35〜0.45であったとします。
  調査対象の人口が、10万人であっても、100万人であっても、1000万人
  であっても、信頼区間の幅は僅かしか変わりません。その理由は.
 例) 血液型のデータ、植物の種子の発芽率、テレビ番組の視聴率の信頼幅.
  アイスクリームの美味しさの比較検定と有意水準点の

(9) 測定項目が複数個ある場合の測定項目間の関連性をみる尺度
  相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数.相
  関係数とその大きさの意味および安定性.相関係数に関する仮説検定.
 例)経常利益率と金利負担率の相関、 新生児の体重と身長、姉妹の身長、
  中学校における科目間の相関.

(10) 回帰直線
  最小二乗法の考え方と回帰直線.相関係数と回帰直線の関係.
 例) 経常利益率を説明する指標、年齢と血圧、葉の窒素含有率と葉色、家
  計消費関数のデータ.

(11) 分析結果の信頼性と現実問題での対応

質疑応答.


【補足】4,000年、5,000年続いた統計の歴史が、1908年にスチューデント(ペンネーム)がt-分布に関する論文を発表して、現代統計学が始まり、以後、大きな発展を遂げてきました。統計データ分析Tでは、t-分布に始まる現代統計学の考え方を学び、さらにこの30年間のパソコンの飛躍的な発展による統計計算ソフトの活用の一部も組み合わせたいと思っています。
 現代統計学にもとずく統計データ分析の基本を、共に学びたいと思います。講師の話を一方的に聞くだけでなく、遠慮なく質問等をして下さい。
ほとんど全ての講座で、教室は少し贅沢なのですが、32人から40人が使える部屋を用意してあります。ゆったり座って居心地良く授業を受けていただければと思っています。
 統計フリーソフト「R」はお勧めです。優れた統計フリーソフト「R」の使い方、「R」での統計データ分析を講義の流れの中で、短時間ですが学びます。その使い方、「R」を用いたデータ分析を、この講座で十分にお教えする時間はありませんが、簡単な計算等はしていただこうと思っています。ただ、ご自分の使い慣れた「統計データ分析ソフト」をお持ちの方は、そのソフトを用いるのが良いと思います。
 数学の知識を必要としない講義をします。ただ、3の二乗(3×3=32)とルート(√3などの平方根)は使います。高校の数学1までの内容が入ることがありますが、その際は必要に応じて簡単な復習をします。
 「統計データ分析T」は「統計データ分析士3級」の試験範囲の上位に位置する科目になります。この科目から、「統計データ分析士3級」より上の「統計データ分析士2級」の試験範囲になります。
 統計データ分析T-Tと統計データ分析T-Uの順序での履修が望ましいのですが、ある程度の知識をお持ちの方は、別個にとれます。統計データ分析T-Uを学んでから、統計データ分析T-Tの履修を考えることも可能です。

Copyright c Toukei Kagaku Kenkyujo, Co., Ltd. All right reserved