datasite

 

 

『わかりやすい統計学 データサイエンス基礎』
序章 データを読もう データリスト

  名前 目的
$0 データA 長引く日本の「デフレ」
$1_1 データB 日頃の生活からIー3か月間で最もよく利用したファンデーション
$1_2 データC 日頃の生活からII-3か月間で最もよく食べたアイスクリーム
$1_3 データD 日頃の生活からIIIー3か月間で最もよく使用した解熱・鎮痛剤
$1_4 データE 首都圏の鉄道交通の中心山手線に見る変化
$1_5 データF ワイン有名銘柄の成分データがわかる
$1_6 データG 大気中二酸化炭素濃度の変動と地球温暖化
$1_7 データH 社会調査の質問票の実例(定型2通り)
$1_8 データI 適切なデータを意思決定支援のエビデンスとして利活用
$1_9 データJ テストで能力がわかるか
$1_10 データK 日本における自動車関連産業の業績の重さ
$1_11 データL 安倍内閣支持vs共産党投票の決定要因重視度(比較)
$1_12 データM 粉飾決算データを統計的に検討する(大手電機メーカー)

 

 

統計学入門』基礎学習用重要データリスト

基礎練習用データ(一部構成中)

  名前 目的
1-0a エクセルの基本計算 和(行、列)、命令複写、絶対参照、並替え、順位、累積和、グラフ(折れ線、散布図)、分析ツール
 数学の基本に不安 New !
1-0b 県別経済成長率(1985-1993) 時系列データは折れ線グラフ、横断面(クロス・セクション)データはヒストグラム、散布図(相関図)などいろいろ。
1-0c 時系列の初歩 デパート、チェーンストア売上高、自動車生産台 数推移から何を読む?
解説:「わかりやすい統計学」
1-0d 相関関係 樹高・樹幅、身体計測(ゴルトン)、兄弟姉 妹の身長、年齢と血圧、持家率と自民得票率[新規]
1-0e 平均、平均偏差、分散、標準偏差 電卓でも簡単に計算でき、理解はOK
1-1a ますデータ 平均、分散、標準偏差、分布の形【旧1-1】
†1-1b 血糖値データ 平均、分散、標準偏差、最大・最小、度数分布、ヒストグラム
1-1c 経済の計量の基礎統計的方法  ローレンツ曲線、ジニ係数、パレート分布、時系列・横断面統合 etc.(制作進行中)
1-2a 私鉄データ 散布図、相関係数
1-2b 体力運動能力データ 相関係数行列の作成、標準得点、偏差値、レーダー・チャート
†1-2c 収縮期および拡張期血圧データ 平均、分散、標準偏差、共分散、相関係数
1-2d 目で見る相関関係 相関係数 r=0.9, 0.7, 0.5, 0.3 の 4 ケース
1-3a 広告費の効果 通常の線形回帰【旧1-3】
1-3b 回帰分析演習 解説目的の数値例
1-4 売り上げ予測 片対数変換をしてから、線形回帰
1-5 需要の所得弾力性 両対数変換をしてから、線形回帰
1-6 地域別売り上げ(グループ化データ) 層別された相関関係(規模別、全体)、人口
1-7a 場所別温度 回帰直線(方程式)、予測・推定【旧1-7】
1-7b 米ソ軍事支出の回帰分析 時系列データ(2 系列)の表示、回帰分析、散布図
1-8a 年齢&血圧・肺活量 重回帰、重相関係数、予測・推定【旧1-8】
†1-8b 催眠剤の効果/年齢・血液関連データ 散布図、相関係数、偏相関係数、重回帰、決定係数
1-9a CO2 データ(温暖化) 時系列データ表示、月次の周期変動、超長期の傾向線(トレンド)の検出【旧1-9】
1-9b 気象データ New ! 都市別平均気温(月毎) 、明治以来年別平均気温etc
1-10a 度数のクロス表の分析(計算機能付き) 独立性(無関連性)をカイ 2 乗分布で検定。エクセルには関数ないが本サイトに掲載のプログラムでOK。【旧1-10】
†1-10b 医学分野でのクロス表 血液型とがん
1-10c 人文・社会分野でのクロス表 マンション評価/刑事裁判と人種
1-11 アンケート入力例 ケース×変数で入力、分析スタート。アンケートは 正式には「質問票(紙)」
1-12 スタートアップ調査データ 松原・松本共著 『Excelではじめる社会調査データ分析』(丸善)の教材。

 

 

応用統計分析データ

  名前 目的
2-0 演算用数値例 エクセルによる基本行列計算の操作
 数学の基本に不安 New !
2-1 食品衛生データ データ図示、標準得点(偏差値)、3 シグマ基準での管理、順序統計量、ヒストグラム
2-2a 株式データ 平均、分散(リスク)、ポートフォリオ計算【旧1-7】
2-2b 温泉データ New ! 各都道府県別の温泉関連データ。記述統計、相関、回帰を含む総合演習
2-3a アイリス分類データ 平均、分散、相関係数(種別、全)
2-3b 大気汚染データ 判別分析(多変量解析)によるデータ判定
2-3c 水質データ 主成分分析でデータ集約(データの背後をつかむ)、主成分の解釈の仕方も
2-3d 因子分析実例《セールスマンデータ) 因子分析(q 個の因子を仮定しそれの影響の具合を算出、発見・確認)、因子の解釈の仕方。因子得点も入れ、個人評価も(新)
2-3e マーケティング・データ(顧客の分析) 共分散構造分析(構造方程式モデル)
2-3f SPSS:アルトマンの倒産予測分析(制作中) 多変量解析(判別分析)による倒産予測の始まり。
ただいま制作中。
2-4 銅消費と経済成長 経済データ(時系列)と弾力性
2-5a 心臓病件数(時系列) [旧2-5] データのグラフ表示、季節性
2-5b 上級時系列分析 時系列分析の基礎的方法概説。データ例豊富。
2-6a 対照群との比較 2 サンプル比較の 2 例 ―― スチューデントの t 検定
2-6b 実験の計画とデータ 処理条件を「分散分析」で比較する。最終結果つき。3元配置も可能。
†2-6c 同、演習問題 生物統計方面の分散分析(シェッフェ)
†2-6d  同、 共変量のある因子比較 共分散分析(スネデカー、シェッフェ)
2-7a ノンパラメトリック法 順位の相関と重なり、ランダム性、変化方向
(練習用に円周率(π)を登載)【旧2-7】
2-7b  同、総合練習 <制作中>
2-8 量・反応関係 量から 0-1 反応を予測。ロジット、プロビット分析
2-9a 回帰式による予測1 資本金から従業員数を予測する。 「t 値」の有意性の見方の実際 。単回帰の場合。
2-9b 回帰式による予測2 英国の輸入データのマクロ分析(輸入関数同定)。ジョンストンの教科書にある重回帰の実際。読み方を解説。
2-9c 回帰式による予測3 回帰診断(回帰分析の結果解釈を詳しくおこなう)
2-9d 回帰式による予測4(多重共線) 多重共線を数値例と「セメント・データ」「ロングレーの実例」(未)で学ぶ
2-9e 回帰式による予測5 系列相関の検出とダービン・ワトソン比
2-9f 回帰式による予測6(制作中) 誤差の分散が均一でないケース
2-9g 回帰式による予測7(制作中) エコノメトリックスの方法をクラインのテキスト上のデータで実習
2-9h 回帰式による予測8(制作中) モデル推定法のいくつか(GLS, 2SLS, SUR)
2-9i 回帰式による予測(制作中) 直交多項式によ る計算効率化 <制作中>
2-10a ベイズ統計学入門(制作中) 本格解説
2-12 コンピュータ統計学(制作中) ブートストラップ法、交差検証法 etc.
2-13 ランダム・サンプリング(制作中) 社会調査のためのサンプル抽出
†2-15c 多重比較 医学、薬学などの実例
2-16 正規性のテスト サンプルは正規分布からとられたと認められるか?
†2-17 生存時間の分析 <制作中>
 2-18  建物利用面積割合による地域分類  クラスター分析入門

 

 

分析力・総合力を付けよう(社会系)

  分野 名前 内容 出典・作成者など備考
7-1a 国際政治 COW 国力データ 国別人口・生産力・軍備量etc. 時系列 Correlates of War(英)
7-1b 国際政治 国際システム・データ 国際システムとしての諸国家の指標値、2000年値増補 1988年値訂正(2006.3.20)
7-2a 国際経済 国際金融統計(IFS)抜粋 国際通貨基金(IMF)  
7-2b 国際経済 世界開発報告 世界銀行(The World Bank)による開発指標データ  
7-3a 日本経済 為替・株式・債券時系列データ(週足) 毎週更新。2007.5月グラフ化開始(およそ4半期毎に更新)  
7-3b 日本経済 日銀金融経済指標 随時更新  
7-3c 日本経済 国民経済計算(SNA)紹介 国民経済計算年報(平17)より 総務庁
7-3d 日本経済 景気動向指数 先行系列、一致系列、遅行系列の3系列 内閣府
7-4a 地方財政 各都道府県財政力データ 自治体データシリーズ 市町村合併中につき当面休止中
7-5a 日本社会 犯罪統計の概要(制作中) 自治体統計シリーズ(時系列を含む) 警察庁刑事局
7-5b 日本社会 交通統計の概要(制作中) 自治体統計シリーズ(時系列を含む) 警察庁交通局
7-5c 日本社会 各都道府県別人口 (1)    同CSV 年齢3区分別(2001年) 総務省『人口推計年報』
7-5d 日本社会 人口再生産率関係統計  同CSV 合計(年齢別)特殊出生率 TFR など 厚労省人口問題研
7-5e   県の民力(埼玉県の場合)  多目的型地域データベース 朝日新聞社

 

 

統計関数

 

統計量からの検索

統計量 Excel 関数名 定義式(『統計学入門』)など
SUM  
平均 AVERAGE p.28 (2.1)
分散(不偏分散) VAR 偏差の平方和 ÷ (n - 1) => p.184 (9.5)
分散 VARP 同上 ÷ n => p.37 (2.10)
標準偏差 STDEV 分散(不偏分散)VAR の平方根
標準偏差 STDEVP 分散 VARP の平方根 => p.37 (2.10)
平均偏差 AVEDEV 偏差の絶対値の平均 => p.36 (2.9)
相関係数 CORREL p.49 (3.1)
共分散 COVAR 偏差の積和 ÷ n => p.49 (3.1) 第 2 式
データの正規偏差%点 ZTEST データ各値の正規分布対応の%点。名称は不適切。
t 検定 TTEST 2 標本 t 統計量の値に対する片側・両側確率。5%(等)と比較。
カイ 2 乗検定 CHITEST ピアソンのカイ 2 乗の上側確率。独立性の検定のため。
標準得点 STANDARDIZE  
歪度 SKEW 歪み方の向き・程度。EXCEL 定義に問題*。
尖度 KURT 尖り方の方向・程度。EXCEL 定義に問題*。
順位 RANK xi のデータ範囲(絶対参照)での順位。タイ分割せず。
部分集計 SUBTOTAL 累積和は引数(9, A$1:A1)etc. から複写。9 が重要。

 

関数名からの検索

Excel 関数名 統計量 備考
AVEDEV 平均偏差 Mean Dev. が正しい
AVERAGE 平均 Mean が正しい
CHITEST カイ2 乗検定 観測度数と理論(期待)度数の(不)一致。理論度数は自ら計算。
CORREL 相関係数 単回帰には重相関係数を使わない
COVAR 共分散 「分散の積」は「偏差積」の誤
KURT 尖度 正規分布に対し正なら尖り負なら鈍い(kurtosis)。
RANK 順位 順序 = 0 で最大から、1 で最小から。後者が正統。
SKEW 歪度 正なら右側が長く、負なら逆(skewness)。
STANDARDIZE 標準得点 平均、標準偏差を指定
STDEV 標準偏差 分散(不偏分散)VAR に対応。
STDEVP 標準偏差 分散 VARP に対応。
SUBTOTAL 部分集計 累積和(1, 2, 3, ・・・番目まで)は引数 = 9、絶対参照。
TTEST t 検定 尾部は片側(1)、両側(2)。形式は対標本(1)、等分散(2)か否(3)か。
VAR 分散(不偏分散) サンプル値からの母集団分散の推定値
VARP 分散 記述統計。また有限母集団の分散としても。
ZTEST データの正規偏差%点 標準得点に対する片側確率。シグマ(標準偏差)は指定 or サンプル値。