トップページに戻るtoppage
2024年度公開講座案内・申込締切日・授業料など詳細はこちら

統計データサイエンス I
講義時間 10時〜17時
 統計データサイエンスT〜Wがありますが、統計データサイエンスTとUは前期の科目、統計データサイエンスVとWは後期の科目とお考え下さい。前期の1科目を履修の方には著書「統計科学入門」を教科書として希望者に進呈します。後期の科目を履修の方には新書「R・Pythonによる 統計データ科学」を教科書として希望者に進呈します。希望者は受講申込の際に申し出てください。理解を深めるには復習が大切であるという考えから、受講者の復習のために、講義のパワーポイントと その講義科目に関連した多くの資料をUSBを通して提供します。
 統計データサイエンスでは、結果の信頼性が問題になることがあります。データ分析で出てきた数値(分析結果)は、同じ条件でデータをとったときに、同様の数値(結論)になるのか、このような結果の再現性・信頼性を調べたりするさいに、統計的推定、統計的検定の考え方を知っていることが重要になります。統計データ分析Tでは、いろいろなデータ分析の適用例を通して、統計的推定の基本概念を習得できるように説明します。
この講座は、現代統計学で学ぶ最初の科目で、考え方の把握が非常に難しいところで、講義は統計的な考え方を把握出来るように、そこに重点をおいて進めます。大学で統計学を専門とする先生に教えていただいても、8,9割の方は本質を理解できないで終わります。ここでの理解が、統計データサイエンスU以降の科目、多変量データ解析T・U等の先の科目内容を的確に理解することに繋がります。
最後のところに補足を書いてあります。
 数学の知識を必要としない講義を致します。ただ、3の二乗(3×3=9)とルート(√3などの平方根)は使います。高校の数学1までの内容が入ることがありますが、その際は必要に応じて簡単な復習をします。
 今年度の担当は杉山高一先生です。


内容:
(1)正規分布に従う現象とその確率計算

  正規分布はなぜ統計学では重要なのか.統計データ分析で果たす正規
 分布 の役割と位置付け.正規分布が自然科学、社会科学の様々な場面
 において複雑な現象を簡単に表す統計モデルとして用いられている理
 由について(その背後にある有名な定理).
  例) 身長の分布、誤差の分布、筆跡のデータなど正規分布に従うと考
  えられる事象.企業の金利負担率.標準正規分布の両側5%点(1.96)、
  片側5%点(1.64)等、また標準正規分布表を用いた正規分布の確率
  計算.パソコンによる確率の計算とp値.

(2)調査・観察の対象である母集団と無作為標本:

 無作為抽出の大切な2つの性質、無作為抽出が統計調査、統計デ
 ータ分析で重要なのはなぜか.一様乱数等の活用.
  
例) 標本の抽出法、確率比例抽出,メルセンヌ・ツイスター法によ
   る一様乱数の生成、正規乱数等の発生法とシミュレーション実験.

(3)よく用いる平均値はどのような分布にしたがうのか.
 正規分布からのデータ(無作為標本)の平均値の分布は正規分布に
 従う.正規分布によらないデータの場合、その平均値はどのよう
 な場合に正規分布に従うとしてよいのか(本には大標本の平均と
 書いてあるが、ときには標本数が12、ときには標本数が2のとき
 の平均値が正規分布に従うとしてよい場合もある.またかなりの
 数の標本数を必要とする場合もあるが、その見分け方について.
  
例)利益率の平均値の分布、ある種のプランクトン数の平均値の
  分布、大数の法則の適用例.

(4) 分散と標準偏差
 データの散らばりの尺度としての分散の重要性と活用、真の
 分散の推定値である標本分散のばらつきを表すカイ二乗分布.
 分散以外の散らばりの尺度.
  
例) 3シグマ、血色素量のデータ、売上高の分散.推定値の安定性の条件.
(5) 母平均(真の平均)の信頼幅:
 分散が既知の場合の母平均の区間による推定(95%信頼区間).
 分散が未知の場合のt分布と母平均の区間による推定(95%信頼
 区間).
  
例) 出生時体重の平均の95%信頼区間、第1大臼歯の長さ.
  信頼幅と標本数.

(6) 正規分布の対極としての2値データとその分布:
 二項分布(2値データ)の推定(比率の推定)と母比率の信頼区間.
(7) Data Science と DX
 DX(デジタルトランスフォーメイション)とは
 DXと統計データ分析・Data Science

(8) 測定項目が複数個ある場合の測定項目間の関連性をみる尺度.
 相関係数、スピアマンの順位相関係数、ケンドールの順位相関
 係数.相関係数とその大きさの意味および安定性.相関係数に
 関する仮説検定.
  
例)経常利益率と金利負担率の相関、新生児の体重と身長、
  姉妹の身長、中学校における科目間の相関.

(9) 回帰直線:
 最小二乗法の考え方と回帰直線.相関係数と回帰直線の関係.
  
例) 経常利益率を説明する指標、年齢と血圧、葉の窒素含有率と
   葉色、家計消費関数のデータ.
(10) 分析結果の信頼性と現実問題での対応.

質疑応答.

 また、優れた統計フリーソフト「R」での統計データ分析を少し話します。
「R」は世界中で使われている優れた統計データ分析のフリーソフトで、通常の講
座では時間がありませんので、「R」の講座『「R」での統計データ分析実習』を
新規に用意しました。これは公開講座科目の補講講座の位置づけです。また、人工
知能AIから統計データ分析を学ばれる方は、Pythonを使われていてPythonでも統
計データ分析ソフトがあります。Pythonによる統計データ分析実習も必要に応じ
て開催しています。SPSSやSASなど、ご自分の使い慣れた「統計データ分析ソフ
ト」をお持ちの方は、そのソフトを用いることで十分です。
補足:4,000年、5,000年続いた統計の歴史が、1908年に"スチューデント"
(ペンネーム)がt-分布に関する論文を発表して、現代統計学が始まり、
以後、大きな発展を遂げてきました。統計データサイエンスTでは、t-分布に
始まる現代統計学の考え方を学び、さらにこの30年間のパソコンの飛躍的
な発展による統計計算ソフトの活用も組み合わせたいと思っています。
現代統計学にもとずく統計データ分析の基本を、共に学びたいと思います。
講師の話を一方的に聞くだけでなく、遠慮なく質問等をして下さい。

Copyright c Toukei Kagaku Kenkyujo, Co., Ltd. All right reserved