2024年度公開講座案内・申込締切日・授業料など詳細はこちら
多変量データ解析T
講義時間 10時〜17時
多変量データ解析T、多変量データ解析U、多変量データ解析V の違いは、難易度ではなく「分野:学ぶ内容」の違いです(補足参照)。実務でよく活用される多変量データ解析 を履修してから、統計データ分析T・U・V・Wを履修する方もいます。この履修の仕方をしても支障ないように、講座で配慮されています。多変量データ解析T・U・Vを履修した方には、名著として30刷まで増し刷りされた担当講師の書いた本の改定版(4,000円)を進呈しています。
多変量データ解析U のテーマは、多変量データ解析の中で要因分析の方法として最もよく活用される主成分分析と、判別分析です。
中学校の9教科(国語、数学、…、英語)の成績に基いて、生徒を成績順に並べたい場合に、合計点が用いられます。合計点は9教科の成績の要約ですが、これが9教科の成績情報の7割を抽出しています。これは主成分分析という方法で確認できます。さまざまな角度から計測された布地の計測値を要約している主成分を求めて、布地の特性を比較分析できます。企業の経営状態を表している(多くの)財務指標の情報を要約した主成分を求めて、東洋経済は企業力ランキングを評価しています。日経の多角的企業評価システムでも、企業ランキングを決める際に、いろいろな経営に関する指標を要約した主成分を求めて活用しています。財務データでみた企業の株主志向度と経済的貢献度の関係分析でも主成分分析が使われています。これらの例のように多変量で観察されたデータのもつ情報を、意味のある少ない合成変数(主成分)によって表したいことが多々あります。これが主成分分析で、要因分析法の中で最もよく用いられる分析法です。
企業の財務指標から、ある企業の倒産・非倒産を判別する式、何人かの人の書いた筆跡から書いた人を判定する方法、妊婦の出産予定日10日前の検査データから正常分娩かどうかを判定する式、優良企業と非優良企業を判別するモデル式を求めること、…など、ある個体の複数個の観測値あるいは計測値にもとづいて、その個体が、いずれの群に属するかを判定する分析法が判別分析です。また、紳士服地と男物着尺地を識別する計測項目を探索したり、優良企業と非優良企業を見分ける複数個の指標を探しだしたり、…など、それぞれの群の間の差異(特徴的な違い)を識別している変数(測定項目)を見出すときにも判別分析を使います。
本講座では企業のマーケティング分析、財務分析等で、また社会科学・人文科学等の研究で最もよく活用されている中学校の9教科(国語、数学、…、英語)の成績に基いて、生徒を成績順に並べたい場合に、合計点が用いられます。合計点は9教科の成績の要約ですが、これが9教科の成績情報の7割を抽出しています。これは主成分分析という方法で確認できます。さまざまな角度から計測された布地の計測値を要約している主成分を求めて、布地の特性を比較分析できます。企業の経営状態を表している(多くの)財務指標の情報を要約した主成分を求めて、東洋経済は企業力ランキングを評価しています。日経の多角的企業評価システムでも、企業ランキングを決める際に、いろいろな経営に関する指標を要約した主成分を求めて活用しています。財務データでみた企業の株主志向度と経済的貢献度の関係分析でも主成分分析が使われています。これらの例のように多変量で観察されたデータのもつ情報を、意味のある少ない合成変数(主成分)によって表したいことが多々あります。これが主成分分析で、要因分析法の中で最もよく用いられる分析法です。
企業の財務指標から、ある企業の倒産・非倒産を判別する式、何人かの人の書いた筆跡から書いた人を判定する方法、妊婦の出産予定日10日前の検査データから正常分娩かどうかを判定する式、優良企業と非優良企業を判別するモデル式を求めること、…など、ある個体の複数個の観測値あるいは計測値にもとづいて、その個体が、いずれの群に属するかを判定する分析法が判別分析です。また、紳士服地と男物着尺地を識別する計測項目を探索したり、優良企業と非優良企業を見分ける複数個の指標を探しだしたり、…など、それぞれの群の間の差異(特徴的な違い)を識別している変数(測定項目)を見出すときにも判別分析を使います。
本講座では企業のマーケティング分析、財務分析等で、また社会科学・人文科学等の研究で最もよく活用されている主成分分析、判別分析を主に学びます。いろいろなデータ分析の適用例を通して講義を進めます。数学を使わないで、分析例を示しながら、多変量データ分析の本質的な考え方、数値結果の解釈、結果の信頼性等を分かりやすく説明いたします。
また、学習支援のため、講義のパワーポイントと関連資料をUSBを通して提供しています。当日パソコンを持参しない方はUSBをご持参下さい。
内容: 統計講座 統計セミナー 統計講座 統計セミナー 統計公開講座 統計セミナー 統計講座
(1) 共分散行列による主成分分析:多変量の計測項目が持っている情報を、互いに関連している複数の項目が計測されたデータが有している情報を、コンパクトに要約して情報を抽出する要因分析.2つあるいは3つの互いに無相関な主成分に、複雑に関連している多変量の情報を要約して分析する要因分析法.
例.手のデータの分析、成績データの分析、土壌の成分分析.
(2) 相関行列による主成分分析:互いに複雑に関連している多変量の各要素の情報量を、それぞれ等しく変換してから、データが有する情報をコンパクトに要約して、出来る限り多くの情報を小数個の合成変量で抽出する要因分析.
例.男物着尺地のデータ分析、成績データの分析、洋服の規格の設定.
(3) 2変量による主成分分析:上記(1),(2)の考え方を2変量(測定項目が2つ)に絞って説明する.また分析結果がどのような状況で安定し再現性を持つかについて具体的に考察する 統計講座 統計セミナー 統計講座
(4) 因子負荷量の意味について:主成分分析で抽出した因子(主成分)yjに注目して、yjを良く説明している元の計測項目xiはどれかを、yjとxiの相関係数(因子負荷量)から調べる.
例:漢字テストデータによる分析、学生の支出データによる分析.
(5) 主成分の係数による主成分の意味付け:データの持っている情報の70%、80%を抽出している主成分が、それぞれどのような意味を有するかを、主成分の係数の大きさから推測する.
例:歯の咬耗度データの分析. 統計講座 統
(6) 主成分軸の回転:主成分の意味付けをはっきりさせるために、主成分の回転を行うことがある.各方法の考え方と特徴について.
例.地方銀行の決算報告書 統計講座 統計セミナー
(7) 主成分の分散の信頼幅:各主成分が、全体の情報量の中のどの程度の割合の情報量を有するかは、各主成分の固有値の大きさで分かる.その固有値の信頼幅(95%信頼区間等)について考察する 統計講座 統
(8) 判別分析とは:互いに関連している多くの計測項目(多変量データ)から、新たに得られたデータがどの群に属するかを判定する判別式を作る.また、群を判別(識別)している測定項目はどれであるかを探る要因分析としても用いられる.その活用例について.
例.筆跡の判定、有価証券報告書、妊婦は正常分娩か否かを判定する、頭骸骨の判別、着尺地と服地の識別分析.
(9) マハラノビスの距離:判別分析で最もよく使われるデータとデータの距離を測る物差しとして、データと平均を測る物差しとして、マハラノビスの距離が何故よく使われるのか、また、これはごく自然な距離であること、また判別分析ではマハラノビスの距離が判別する際の確率と結びついていることを説明する.
例.第2大臼歯と第3大臼歯の判別
(10) 2変量の判別分析:変量(計測項目)を2つに絞って判別分析の方法を説明.
例.企業の倒産・非倒産を判別.
(11) 多変量の判別分析:多変量の判別について説明する
例.筆跡鑑定のデータ分析 統計講座 統計セミナー 統計講
(12) 変数選択による判別分析:多変量の計測項目の中で、どの計測項目の組み合わせが最も判別力が高いかを見出すよく活用されている方法を示す.これは判別分析で安定した信頼性の高い判別式を求めるために重要な考え方であることの説明.
例.紳士服地と男物着尺地を識別する計測項目の探索
(13) 判別分析の頑健性:ここでの判別分析法は、データがどのような条件を満たしているときに安定し、信頼できるかを調べる(共分散行列の同等性と正規性のロバストネス)
(14) 変数選択の基準:多変量の計測項目の中で、どの計測項目の組み合わせが最も判別力が高いかを見出す論理的な基準(変数増減法と変数減増法での情報量基準値の設定について) 統計講座 統計セミ
(15) 分析結果の信頼性と現実問題での対応
質疑応答 統計講座 統計セミナー 統計講座 統計セミナー 統計公開講座 統計セミナー 統計講座
補足:多変量データ解析でも、優れた統計フリーソフト「R」はお勧めです。その使い方、「R」を用いたデータ分析を、この講座でお教えする十分な時間はありません。勉強したい方は、2015年度公開講座の参加者のために用意した「R」での統計データ分析実習 にご参加下さい。ご自分の使い慣れた「統計データ分析ソフト」をお持ちの方は、そのソフトを用いるのが良いと思います。
「多変量データ解析T」は主成分分析、判別分析を中心に、「多変量データ解析U」は因子分析、クラスター分析を中心に、「多変量データ解析V」は重回帰分析をを中心に据えた講座です。
|