はしがき ※各章のパワーポイントはこちら。パスワードは「tttt」です。 この本は、2009年に出版された「統計データ解析入門」(杉山高一、藤越康祝編著、みみずく舎)をベースにしています。評価の高い書籍でしたが、出版社の方針変更により、絶版になりました。是非再販してほしいという要望がいろいろな方からあり、杉山高一、藤越康祝が検討しました。前書の刊行から10年の年月が経っていますので、題名を「R・Pythonによる・・・統計データ科学」として、我々が監修者になり大幅に改定して勉誠出版から出版していただくことになりました。各章の執筆とPower Pointの作成は新進気鋭の若い統計学者にお願いしました。監修者の原稿およびPower Pointの修正要請などに、気持ちよく応じてくれた執筆者の方々に感謝いたします。「R・Pythonによる」という副題をつけましたが、プログラムは日々更新されて、進歩いたします。より良いプログラムに、部分的にいつでも更新できるように、それらはネット上に置きました。プログラムHP担当の伊谷陽祐氏を中心にして、また執筆者と読者有志により、今後とも日々より良い使いやすいものに更新していければと考えています。 書籍の本文は、分かりやすく書くことを心がけました。Power Pointは、レベルは気にしないで、より詳しく、限られたページ数で本文では書けなかった証明なども書くようにお願いしました。執筆者の若い先生方の研究成果も入れました。例えば、回帰分析のパワーポイントは161枚あり詳しく書いていますが、多重共線性のときに適用する共線性解決の問題、lassoによる重回帰分析、多変数によるロジスティック回帰分析などは、Power Pointでも記載していません。あるレベルに限定していることはご了承下さい。他の章も、同様な方針です。 統計学の活用分野は、統計調査、マーケティング、経済予測、計量ファイナンス、品質管理、企業経営システム、保険・年金、情報処理システム、環境問題、生命科学、医薬品開発、人口問題、選挙予測等と多岐にわたっています。また、AIの活用が話題に上がりますが、その元のところで統計データ分析法が使われています。企業でAIの活用をされている方々が、我々が行っている統計科学研究所の講座を学びに来ますが、その教育に使うことも考えて編集しました。統計科学研究所で13年間、社会人教育をしてきましたが、その方々の大学の卒業学部は、工学部、理学部だけでなく、文学部、経済学部、商学部、医学部、看護学部、・・・等、多岐にわたります。その方々の活躍している分野も広く、統計データ分析の裾の広さを感じます。講座が終わった後、参加者とゆっくり話したりするのですが、実にいろいろな場面で統計データ分析が活用されているのを実感します。その方々が実際にデータ分析を行う際には、幾つかある分析法の中から、適切な方法論を選ぶことになります。どの分析法が適切であるかは、統計学の深い知識と、データ分析の経験が必要になります。また、コンピューターから出てきた数値結果はどのような意味を持っているのか、高い信頼をおいて良いか否かの判断が求められます。時間がなくあるいは遠方で講座に参加できない方にとっても、この本が役に立つことを願って作りました。 統計データ分析では、結果の信頼性が問題になります。データ分析で出てきた数値(結果)は、同じ条件でデータをとったときに、同様の数値(結論)になるのか、このような結果の再現性・信頼性を調べたりする際に、統計的推定、統計的検定の考え方を知っていることが重要になります。統計学では、実際にデータが出てくる対象(母集団)に、確率分布を想定します。確率分布としては、二項分布、ポアソン分布、幾何分布、正規分布、対数正規分布、指数分布、ガンマ分布、ベータ分布、ワイブル分布、多変量正規分布、・・・などがあり、それぞれで未知母数(パラメータ)が設定されます。現実の現象の近似ですが、それによって問題をシンプルにできます。これは2章の「確率変数と確率分布」で簡潔にまとめています。ベイズ推定は、ベイズの定理がもとになりますが、確率の概念まで含めて1章の「確率」で記述しましています。さらにデータを得たときに、データから母数のよい推定量を求める考え方、良い検定統計量の求め方、具体的な推定統計量、検定統計量について記述します。そのもとになるのが、データの関数として表示された統計量ですが、詳しくは3章の「標本分布」に記載します。統計学で最も重要な推定は4章で、検定は5章で記述しました。4章、5章は、統計学のどの書籍でも強調されて書かれている章ですが、ページ数に制限があるので、ポワーポイントも参照ください。 6章では、知りたい目的変数 yを、幾つかの調査項目、あるいは複数個の観察した項目を用いて、推測する式を求める回帰分析について記述します。また目的変数yの計測は難しく、計測あるいは観察の容易な複数個の項目から推測したいときにも回帰分析は用いられます。7章では、分割表などの検定で用いられる適合度検定について、また適合度検定のDNAデータへの適用について記載します。DNAデータの次元は、50万次元で、その一部を使ったとしても高次元です。この分野独特な分析法が求められ、その一部分を記述します。 近年の統計データ分析で重要な位置を占めている「モデル選択法」の基本的な考え方を8章で記載します。1973年に赤池弘次氏が統計モデルの良さを評価するための指標、「モデルの複雑さと、データとの適合度とのバランスを取る」、あるいは「予測に用いたときのモデルの良さ」の指標として提案したのがAIC基準です。その後非常に有名な統計指標、モデル選択基準として世界中で活用されるようになりました。AICは統計データ分析のパッケージにも記載されていますので、よく目にされることと思います。 これまでの章では,母集団分布が正規分布や特定の分布に従う検定問題を扱ってきましたが.母集団分布に特定の分布を仮定する根拠が見いだせない場合も多く存在します.正規分布や特定な分布を仮定できないような状況の下での仮説検定法としてよく知られている「ノンパラメトリック検定」を9章であつかいます。ここではよく知られている順位に基づく方法に限定して記述しています。 多群の平均をまとめて比較して結論を出したり、多くの信頼区間をまとめて構成したいことがあります. このとき, 全体としての有意水準や信頼係数が指定された値になるようにするために、
個々の有意水準や信頼係数を調整する必要があります. このための方法として「多重比較法」があり, 10章で説明します。この本では、シングルステップ法とステップダウン法の代表的手法と,
同時信頼区間の構成法について記述します. 11章の「計算機指向型法」では、1979年にエフロンが提案したブートストラップ法と、ベイズ統計学の中のベイズ推定法について記述します。ブートストラップ法は、与えられたデータから繰り返し2,000回、3,000回とリサンプリングを行うことにより、データを置き換えて対応する考え方で、複雑で厄介な問題を解決する手法として、近年よく使われています。パソコンの性能が良くなり、簡単に結果を出せるようになりました。ベイズ推定は, 推定したいパラメータθに対し事前分布を仮定し, 与えられたデータから導かれる事後分布によってθを推定する方法です. ベイズ統計学では、母数θを確率変数として扱い、11章ではその事後分布の平均などを数値的に求めるためのアルゴリズムを説明しています。 この本で扱うデータは一変量ですが、実際のデータは多変量であることが多いものです。多変量データ解析の考え方の入門として、「2次元の統計入門」を12章におきました。2次元でのデータのばらつきが平行四辺形の面積の2乗の和で表せること、要因分析の一方法として最もよく使われている主成分分析について、判別分析、クラスター分析についての考え方を記載しました。 人の成長、家計による所得変動、企業の総投資の予測問題など、観測対象が時間と共にどう変化するか、変化を特徴づけて予測するときに用いられる「経時データ解析」を13章におきました。近年、研究が進んでいる分野で、高度な分析法ですが、一つの例を挙げて記述しました。読者は、自分の関心あるデータに置き換えながら読まれるとよいと思います。 記述統計学については、書籍のページ数の関係で14章として、Power Pointのスライドだけを収録しました。これに目を通してから、勉強を始められるとよいと思います。記述統計学は、紀元前3,000年から19世紀まで、また20世紀に入っても顔型グラフ、星座図表などによる多次元データの表し方が工夫されたりして、進化しています。この章は塚田真一氏が担当しましたが、塚田氏には「標本分布」「検定」のPower Point作成でも頑張っていただきました。 R・Pythonのプログラム掲載のホームページ作成は、政策研究大学院大学の伊谷陽祐氏が担当しました。RもPythonも、プログラムは日々より良いものが開発されていきます。そこで改定や追加の容易な形で、読者に提供することにしました。ホームページのアドレスは、伊谷氏を中心に、当該書籍の執筆者と読者の有志により、より活用しやすいものに、今後も改定を随時続けて参ります。R・Pythonのプログラム掲載のホームページは、統計科学研究所から https://nbviewer.jupyter.org/github/R・Python を開いて下さい。 この本の作成に当たり、和泉浩二郎氏はじめ勉誠出版の方々にたいへんお世話になりました。著者を代表して心から御礼を申し上げます。 2019年12月 杉山高一、藤越康祝 |