datasite

 

 

わかりやすい統計学 データサイエンス基礎
序章 データを読もう データリスト

<データ登載準備中>

  名前 目的
$0 データA 長引く日本の「デフレ」
$1_1 データB 日頃の生活からIー3か月間で最もよく利用したファンデーション
$1_2 データC 日頃の生活からII-3か月間で最もよく食べたアイスクリーム
$1_3 データD 日頃の生活からIIIー3か月間で最もよく使用した解熱・鎮痛剤
$1_4 データE 首都圏の鉄道交通の中心山手線に見る変化
$1_5 データF ワイン有名銘柄の成分データがわかる
$1_6 データG 大気中二酸化炭素濃度の変動と地球温暖化
$1_7 データH 社会調査の質問票の実例(定型2通り)
$1_8 データI 適切なデータを意思決定支援のエビデンスとして利活用
$1_9 データJ テストで能力がわかるか
$1_10 データK 日本における自動車関連産業の業績の重さ
$1_11 データL 安倍内閣支持vs共産党投票の決定要因重視度(比較)
$1_12 データM 粉飾決算データを統計的に検討する(大手電機メーカー)

 

 

統計学入門』基礎学習用重要データリスト

基礎練習用データ(一部構成中)

  名前 目的
1-0a

エクセルの基本計算

和(行、列)、命令複写、絶対参照、並替え、順位、累積和、
グラフ(折れ線、散布図)、分析ツール数学の基本に不安

1-0b

県別経済成長率(1985-1993)

時系列データは折れ線グラフ、横断面(クロス・セクション)
データはヒストグラム、散布図(相関図)などいろいろ。

1-0c 時系列の初歩

デパート、チェーンストア売上高、自動車生産台 数推移から
何を読む? 解説:「わかりやすい統計学」

1-0d 相関関係

樹高・樹幅、身体計測(ゴルトン)、兄弟姉 妹の身長、
年齢と血圧、持家率と自民得票率[新規]

1-0e

平均、平均偏差、分散、
標準偏差

電卓でも簡単に計算でき、理解はOK
1-1a ますデータ 平均、分散、標準偏差、分布の形【旧1-1】
†1-1b 血糖値データ 平均、分散、標準偏差、最大・最小、度数分布、ヒストグラム
1-1c

経済の基礎統計 

ローレンツ曲線、ジニ係数、パレート分布、
時系列・横断面統合 etc.(制作進行中)

1-2a 私鉄データ 散布図、相関係数
1-2b 体力運動能力データ 相関係数行列の作成、標準得点、偏差値、レーダー・チャート
†1-2c

収縮期・拡張期血圧

平均、分散、標準偏差、共分散、相関係数
1-2d 目で見る相関関係 相関係数 r=0.9, 0.7, 0.5, 0.3 の 4 ケース
1-3a 広告費の効果 通常の線形回帰【旧1-3】
1-3b 回帰分析演習 解説目的の数値例
1-4 売り上げ予測 片対数変換をしてから、線形回帰
1-5 需要の所得弾力性 両対数変換をしてから、線形回帰
1-6

地域別売り上げ
(グループ化データ)

層別された相関関係(規模別、全体)、人口
1-7a 場所別温度 回帰直線(方程式)、予測・推定【旧1-7】
1-7b

米ソ軍事支出の回帰分析

時系列データ(2 系列)の表示、回帰分析、散布図
1-8a 年齢&血圧・肺活量 重回帰、重相関係数、予測・推定【旧1-8】
†1-8b

催眠剤の効果/年齢血液関連
データ

散布図、相関係数、偏相関係数、重回帰、決定係数
1-9a CO2 データ(温暖化)

時系列データ表示、月次の周期変動、

超長期の傾向線(トレンド)の検出【旧1-9】

1-9b 気象データ  都市別平均気温(月毎) 、明治以来年別平均気温etc
1-10a

度数のクロス表の
分析(計算機能付き)

独立性(無関連性)をカイ 2 乗分布で検定。
エクセルには関数ないが本サイトに掲載のプログラムでOK。
【旧1-10】

†1-10b 医学分野でのクロス表 血液型とがん
1-10c

クロス表の分析(計算機能)

マンション評価/刑事裁判と人種
1-11 アンケート入力例

ケース×変数で入力、分析スタート。
アンケートは 正式には「質問票(紙)」

1-12

スタートアップ調査データ

松原・松本共著 『Excelではじめる社会調査データ分析』
(丸善)の教材。

 

 

応用統計分析データ

  名前 目的
2-0 演算用数値例 エクセルによる基本行列計算の操作
 数学の基本に不安 New !
2-1 食品衛生データ データ図示、標準得点(偏差値)、3 シグマ基準での管理、
順序統計量、ヒストグラム
2-2a 株式データ 平均、分散(リスク)、ポートフォリオ計算【旧1-7】
2-2b 温泉データ New ! 各都道府県別の温泉関連データ。記述統計、相関、
回帰を含む総合演習
2-3a アイリス分類データ 平均、分散、相関係数(種別、全)
2-3b 大気汚染データ 判別分析(多変量解析)によるデータ判定
2-3c 水質データ 主成分分析でデータ集約(データの背後をつかむ)、
主成分の解釈の仕方も
2-3d セールスマンデータ 因子分析(q 個の因子を仮定しそれの影響の具合を算出、発見・確認)、因子の解釈の仕方。因子得点も入れ、個人評価も(新)
2-3e マーケティング(顧客の分析) 共分散構造分析(構造方程式モデル)
2-3f アルトマンの倒産予測
(制作中)
多変量解析(判別分析)による倒産予測の始まり。
ただいま制作中。
2-4 銅消費と経済成長 経済データ(時系列)と弾力性
2-5a 心臓病件数(時系列) [旧2-5] データのグラフ表示、季節性
2-5b 上級時系列分析 時系列分析の基礎的方法概説。データ例豊富。
2-6a 対照群との比較 2 サンプル比較の 2 例 ―― スチューデントの t 検定
2-6b 実験の計画とデータ 処理条件を「分散分析」で比較する。最終結果つき。
3元配置も可能。
†2-6c 同、演習問題 生物統計方面の分散分析(シェッフェ)
†2-6d  同、 共変量のある因子比較 共分散分析(スネデカー、シェッフェ)
2-7a ノンパラメトリック法 順位の相関と重なり、ランダム性、変化方向
(練習用に円周率(π)を登載)【旧2-7】
2-7b  同、総合練習 <制作中>
2-8 量・反応関係 量から 0-1 反応を予測。ロジット、プロビット分析
2-9a 回帰式による予測1 資本金から従業員数を予測する。 「t 値」の
有意性の見方の実際 。単回帰の場合。
2-9b 回帰式による予測2 英国の輸入データのマクロ分析(輸入関数同定)。
ジョンストンの教科書にある重回帰の実際。読み方を解説。
2-9c 回帰式による予測3 回帰診断(回帰分析の結果解釈を詳しくおこなう)
2-9d

回帰式による予測4
(多重共線)

多重共線を数値例と「セメント・データ」
「ロングレーの実例」(未)で学ぶ
2-9e 回帰式による予測5 系列相関の検出とダービン・ワトソン比
2-9f

回帰式による予測6
(制作中)

誤差の分散が均一でないケース
2-9g

回帰式による予測7
(制作中)

エコノメトリックスの方法をクラインのテキスト上の
データで実習
2-9h

回帰式による予測8
(制作中)

モデル推定法のいくつか(GLS, 2SLS, SUR)
2-9i 回帰式による予測(制作中) 直交多項式によ る計算効率化 <制作中>
2-10a ベイズ統計学入門(制作中) 本格解説
2-12

コンピュータ統計学(制作中)

ブートストラップ法、交差検証法 etc.
2-13

サンプリング(制作中)

社会調査のためのサンプル抽出
†2-15c 多重比較 医学、薬学などの実例
2-16 正規性のテスト サンプルは正規分布からとられたと認められるか?
†2-17 生存時間の分析 <制作中>
 2-18

建物利用用途(面積割合)

 クラスター分析入門

 

 

分析力・総合力を付けよう(社会系)

  分野 名前 内容 出典・作成者など備考
7-1a 国際政治 COW 国力データ 国別人口・生産力・
軍備量etc. 時系列
Correlates of War(英)
7-1b 国際政治 国際システム・データ 国際システムとしての諸国家の
指標値、2000年値増補
1988年値訂正(2006.3.20)
7-2a 国際経済 国際金融統計(IFS)抜粋 国際通貨基金(IMF)  
7-2b 国際経済 世界開発報告 世界銀行(The World Bank)に
よる開発指標データ
 
7-3a 日本経済 為替・株式・債券時系列データ(週足) 毎週更新。2007.5月グラフ化
開始(およそ4半期毎に更新)
 
7-3b 日本経済 日銀金融経済指標 随時更新  
7-3c 日本経済 国民経済計算(SNA)紹介 国民経済計算年報(平17)より 総務庁
7-3d 日本経済 景気動向指数 先行系列、一致系列、
遅行系列の3系列
内閣府
7-4a 地方財政 各都道府県財政力データ 自治体データシリーズ 市町村合併中につき
当面休止中
7-5a 日本社会 犯罪統計の概要(制作中) 自治体統計シリーズ
(時系列を含む)
警察庁刑事局
7-5b 日本社会 交通統計の概要(制作中) 自治体統計シリーズ
(時系列を含む)
警察庁交通局
7-5c 日本社会 各都道府県別人口 (1)    同CSV 年齢3区分別(2001年) 総務省『人口推計年報』
7-5d 日本社会 人口再生産率関係統計  同CSV 合計(年齢別)特殊出生率
TFR など
厚労省人口問題研
7-5e   県の民力(埼玉県の場合)  多目的型地域データベース 朝日新聞社

 

 

統計関数

 

統計量からの検索

統計量 Excel 関数名 定義式(『統計学入門』)など
SUM  
平均 AVERAGE p.28 (2.1)
分散(不偏分散) VAR 偏差の平方和 ÷ (n - 1) => p.184 (9.5)
分散 VARP 同上 ÷ n => p.37 (2.10)
標準偏差 STDEV 分散(不偏分散)VAR の平方根
標準偏差 STDEVP 分散 VARP の平方根 => p.37 (2.10)
平均偏差 AVEDEV 偏差の絶対値の平均 => p.36 (2.9)
相関係数 CORREL p.49 (3.1)
共分散 COVAR 偏差の積和 ÷ n => p.49 (3.1) 第 2 式
データの正規偏差%点 ZTEST データ各値の正規分布対応の%点。名称は不適切。
t 検定 TTEST 2 標本 t 統計量の値に対する片側・両側確率。
5%(等)と比較。
カイ 2 乗検定 CHITEST ピアソンのカイ 2 乗の上側確率。
独立性の検定のため。
標準得点 STANDARDIZE  
歪度 SKEW 歪み方の向き・程度。EXCEL 定義に問題*。
尖度 KURT 尖り方の方向・程度。EXCEL 定義に問題*。
順位 RANK xi のデータ範囲(絶対参照)での順位。
タイ分割せず。
部分集計 SUBTOTAL 累積和は引数(9, A$1:A1)etc. から複写。9 が重要。

 

関数名からの検索

Excel 関数名 統計量 備考
AVEDEV 平均偏差 Mean Dev. が正しい
AVERAGE 平均 Mean が正しい
CHITEST カイ2 乗検定 観測度数と理論(期待)度数の(不)一致。
理論度数は自ら計算。
CORREL 相関係数 単回帰には重相関係数を使わない
COVAR 共分散 「分散の積」は「偏差積」の誤
KURT 尖度 正規分布に対し正なら尖り負なら鈍い(kurtosis)。
RANK 順位 順序 = 0 で最大から、1 で最小から。後者が正統。
SKEW 歪度 正なら右側が長く、負なら逆(skewness)。
STANDARDIZE 標準得点 平均、標準偏差を指定
STDEV 標準偏差 分散(不偏分散)VAR に対応。
STDEVP 標準偏差 分散 VARP に対応。
SUBTOTAL 部分集計 累積和(1, 2, 3, ・・・番目まで)は引数 = 9、
絶対参照。
TTEST t 検定 尾部は片側(1)、両側(2)。形式は対標本(1)、
等分散(2)か否(3)か。
VAR 分散(不偏分散) サンプル値からの母集団分散の推定値
VARP 分散 記述統計。また有限母集団の分散としても。
ZTEST データの正規偏差%点 標準得点に対する片側確率。シグマ(標準偏差)は
指定 or サンプル値。