datasite
『わかりやすい統計学 データサイエンス基礎』
序章 データを読もう データリスト
<データ登載準備中>
名前 | 目的 | |
$0 | データA | 長引く日本の「デフレ」 |
$1_1 | データB | 日頃の生活からIー3か月間で最もよく利用したファンデーション |
$1_2 | データC | 日頃の生活からII-3か月間で最もよく食べたアイスクリーム |
$1_3 | データD | 日頃の生活からIIIー3か月間で最もよく使用した解熱・鎮痛剤 |
$1_4 | データE | 首都圏の鉄道交通の中心山手線に見る変化 |
$1_5 | データF | ワイン有名銘柄の成分データがわかる |
$1_6 | データG | 大気中二酸化炭素濃度の変動と地球温暖化 |
$1_7 | データH | 社会調査の質問票の実例(定型2通り) |
$1_8 | データI | 適切なデータを意思決定支援のエビデンスとして利活用 |
$1_9 | データJ | テストで能力がわかるか |
$1_10 | データK | 日本における自動車関連産業の業績の重さ |
$1_11 | データL | 安倍内閣支持vs共産党投票の決定要因重視度(比較) |
$1_12 | データM | 粉飾決算データを統計的に検討する(大手電機メーカー) |
『統計学入門』基礎学習用重要データリスト
基礎練習用データ(一部構成中)
名前 | 目的 | |
1-0a |
和(行、列)、命令複写、絶対参照、並替え、順位、累積和、 |
|
1-0b |
時系列データは折れ線グラフ、横断面(クロス・セクション) |
|
1-0c | 時系列の初歩 |
デパート、チェーンストア売上高、自動車生産台 数推移から |
1-0d | 相関関係 |
樹高・樹幅、身体計測(ゴルトン)、兄弟姉 妹の身長、 |
1-0e | 電卓でも簡単に計算でき、理解はOK | |
1-1a | ますデータ | 平均、分散、標準偏差、分布の形【旧1-1】 |
†1-1b | 血糖値データ | 平均、分散、標準偏差、最大・最小、度数分布、ヒストグラム |
1-1c |
ローレンツ曲線、ジニ係数、パレート分布、 |
|
1-2a | 私鉄データ | 散布図、相関係数 |
1-2b | 体力運動能力データ | 相関係数行列の作成、標準得点、偏差値、レーダー・チャート |
†1-2c | 平均、分散、標準偏差、共分散、相関係数 | |
1-2d | 目で見る相関関係 | 相関係数 r=0.9, 0.7, 0.5, 0.3 の 4 ケース |
1-3a | 広告費の効果 | 通常の線形回帰【旧1-3】 |
1-3b | 回帰分析演習 | 解説目的の数値例 |
1-4 | 売り上げ予測 | 片対数変換をしてから、線形回帰 |
1-5 | 需要の所得弾力性 | 両対数変換をしてから、線形回帰 |
1-6 | 層別された相関関係(規模別、全体)、人口 | |
1-7a | 場所別温度 | 回帰直線(方程式)、予測・推定【旧1-7】 |
1-7b | 時系列データ(2 系列)の表示、回帰分析、散布図 | |
1-8a | 年齢&血圧・肺活量 | 重回帰、重相関係数、予測・推定【旧1-8】 |
†1-8b | 散布図、相関係数、偏相関係数、重回帰、決定係数 | |
1-9a | CO2 データ(温暖化) |
時系列データ表示、月次の周期変動、 超長期の傾向線(トレンド)の検出【旧1-9】 |
1-9b | 気象データ | 都市別平均気温(月毎) 、明治以来年別平均気温etc |
1-10a |
独立性(無関連性)をカイ 2 乗分布で検定。 |
|
†1-10b | 医学分野でのクロス表 | 血液型とがん |
1-10c | マンション評価/刑事裁判と人種 | |
1-11 | アンケート入力例 |
ケース×変数で入力、分析スタート。 |
1-12 |
松原・松本共著 『Excelではじめる社会調査データ分析』 |
応用統計分析データ
名前 | 目的 | |
2-0 | 演算用数値例 | エクセルによる基本行列計算の操作 数学の基本に不安 New ! |
2-1 | 食品衛生データ | データ図示、標準得点(偏差値)、3 シグマ基準での管理、 順序統計量、ヒストグラム |
2-2a | 株式データ | 平均、分散(リスク)、ポートフォリオ計算【旧1-7】 |
2-2b | 温泉データ New ! | 各都道府県別の温泉関連データ。記述統計、相関、 回帰を含む総合演習 |
2-3a | アイリス分類データ | 平均、分散、相関係数(種別、全) |
2-3b | 大気汚染データ | 判別分析(多変量解析)によるデータ判定 |
2-3c | 水質データ | 主成分分析でデータ集約(データの背後をつかむ)、 主成分の解釈の仕方も |
2-3d | セールスマンデータ | 因子分析(q 個の因子を仮定しそれの影響の具合を算出、発見・確認)、因子の解釈の仕方。因子得点も入れ、個人評価も(新) |
2-3e | マーケティング(顧客の分析) | 共分散構造分析(構造方程式モデル) |
2-3f | アルトマンの倒産予測 (制作中) |
多変量解析(判別分析)による倒産予測の始まり。 ただいま制作中。 |
2-4 | 銅消費と経済成長 | 経済データ(時系列)と弾力性 |
2-5a | 心臓病件数(時系列) | [旧2-5] データのグラフ表示、季節性 |
2-5b | 上級時系列分析 | 時系列分析の基礎的方法概説。データ例豊富。 |
2-6a | 対照群との比較 | 2 サンプル比較の 2 例 ―― スチューデントの t 検定 |
2-6b | 実験の計画とデータ | 処理条件を「分散分析」で比較する。最終結果つき。 3元配置も可能。 |
†2-6c | 同、演習問題 | 生物統計方面の分散分析(シェッフェ) |
†2-6d | 同、 共変量のある因子比較 | 共分散分析(スネデカー、シェッフェ) |
2-7a | ノンパラメトリック法 | 順位の相関と重なり、ランダム性、変化方向 (練習用に円周率(π)を登載)【旧2-7】 |
2-7b | 同、総合練習 | <制作中> |
2-8 | 量・反応関係 | 量から 0-1 反応を予測。ロジット、プロビット分析 |
2-9a | 回帰式による予測1 | 資本金から従業員数を予測する。 「t 値」の 有意性の見方の実際 。単回帰の場合。 |
2-9b | 回帰式による予測2 | 英国の輸入データのマクロ分析(輸入関数同定)。 ジョンストンの教科書にある重回帰の実際。読み方を解説。 |
2-9c | 回帰式による予測3 | 回帰診断(回帰分析の結果解釈を詳しくおこなう) |
2-9d |
回帰式による予測4 |
多重共線を数値例と「セメント・データ」 「ロングレーの実例」(未)で学ぶ |
2-9e | 回帰式による予測5 | 系列相関の検出とダービン・ワトソン比 |
2-9f |
回帰式による予測6 |
誤差の分散が均一でないケース |
2-9g |
回帰式による予測7 |
エコノメトリックスの方法をクラインのテキスト上の データで実習 |
2-9h |
回帰式による予測8 |
モデル推定法のいくつか(GLS, 2SLS, SUR) |
2-9i | 回帰式による予測(制作中) | 直交多項式によ る計算効率化 <制作中> |
2-10a | ベイズ統計学入門(制作中) | 本格解説 |
2-12 |
コンピュータ統計学(制作中) |
ブートストラップ法、交差検証法 etc. |
2-13 |
サンプリング(制作中) |
社会調査のためのサンプル抽出 |
†2-15c | 多重比較 | 医学、薬学などの実例 |
2-16 | 正規性のテスト | サンプルは正規分布からとられたと認められるか? |
†2-17 | 生存時間の分析 | <制作中> |
2-18 | クラスター分析入門 |
分析力・総合力を付けよう(社会系)
分野 | 名前 | 内容 | 出典・作成者など備考 | |
7-1a | 国際政治 | COW 国力データ | 国別人口・生産力・ 軍備量etc. 時系列 |
Correlates of War(英) |
7-1b | 国際政治 | 国際システム・データ | 国際システムとしての諸国家の 指標値、2000年値増補 |
1988年値訂正(2006.3.20) |
7-2a | 国際経済 | 国際金融統計(IFS)抜粋 | 国際通貨基金(IMF) | |
7-2b | 国際経済 | 世界開発報告 | 世界銀行(The World Bank)に よる開発指標データ |
|
7-3a | 日本経済 | 為替・株式・債券時系列データ(週足) | 毎週更新。2007.5月グラフ化 開始(およそ4半期毎に更新) |
|
7-3b | 日本経済 | 日銀金融経済指標 | 随時更新 | |
7-3c | 日本経済 | 国民経済計算(SNA)紹介 | 国民経済計算年報(平17)より | 総務庁 |
7-3d | 日本経済 | 景気動向指数 | 先行系列、一致系列、 遅行系列の3系列 |
内閣府 |
7-4a | 地方財政 | 各都道府県財政力データ | 自治体データシリーズ | 市町村合併中につき 当面休止中 |
7-5a | 日本社会 | 犯罪統計の概要(制作中) | 自治体統計シリーズ (時系列を含む) |
警察庁刑事局 |
7-5b | 日本社会 | 交通統計の概要(制作中) | 自治体統計シリーズ (時系列を含む) |
警察庁交通局 |
7-5c | 日本社会 | 各都道府県別人口 (1) 同CSV | 年齢3区分別(2001年) | 総務省『人口推計年報』 |
7-5d | 日本社会 | 人口再生産率関係統計 同CSV | 合計(年齢別)特殊出生率 TFR など |
厚労省人口問題研 |
7-5e | 県の民力(埼玉県の場合) | 多目的型地域データベース | 朝日新聞社 |
統計関数
統計量からの検索
統計量 | Excel 関数名 | 定義式(『統計学入門』)など |
和 | SUM | |
平均 | AVERAGE | p.28 (2.1) |
分散(不偏分散) | VAR | 偏差の平方和 ÷ (n - 1) => p.184 (9.5) |
分散 | VARP | 同上 ÷ n => p.37 (2.10) |
標準偏差 | STDEV | 分散(不偏分散)VAR の平方根 |
標準偏差 | STDEVP | 分散 VARP の平方根 => p.37 (2.10) |
平均偏差 | AVEDEV | 偏差の絶対値の平均 => p.36 (2.9) |
相関係数 | CORREL | p.49 (3.1) |
共分散 | COVAR | 偏差の積和 ÷ n => p.49 (3.1) 第 2 式 |
データの正規偏差%点 | ZTEST | データ各値の正規分布対応の%点。名称は不適切。 |
t 検定 | TTEST | 2 標本 t 統計量の値に対する片側・両側確率。 5%(等)と比較。 |
カイ 2 乗検定 | CHITEST | ピアソンのカイ 2 乗の上側確率。 独立性の検定のため。 |
標準得点 | STANDARDIZE | |
歪度 | SKEW | 歪み方の向き・程度。EXCEL 定義に問題*。 |
尖度 | KURT | 尖り方の方向・程度。EXCEL 定義に問題*。 |
順位 | RANK | xi のデータ範囲(絶対参照)での順位。 タイ分割せず。 |
部分集計 | SUBTOTAL | 累積和は引数(9, A$1:A1)etc. から複写。9 が重要。 |
関数名からの検索
Excel 関数名 | 統計量 | 備考 |
AVEDEV | 平均偏差 | Mean Dev. が正しい |
AVERAGE | 平均 | Mean が正しい |
CHITEST | カイ2 乗検定 | 観測度数と理論(期待)度数の(不)一致。 理論度数は自ら計算。 |
CORREL | 相関係数 | 単回帰には重相関係数を使わない |
COVAR | 共分散 | 「分散の積」は「偏差積」の誤 |
KURT | 尖度 | 正規分布に対し正なら尖り負なら鈍い(kurtosis)。 |
RANK | 順位 | 順序 = 0 で最大から、1 で最小から。後者が正統。 |
SKEW | 歪度 | 正なら右側が長く、負なら逆(skewness)。 |
STANDARDIZE | 標準得点 | 平均、標準偏差を指定 |
STDEV | 標準偏差 | 分散(不偏分散)VAR に対応。 |
STDEVP | 標準偏差 | 分散 VARP に対応。 |
SUBTOTAL | 部分集計 | 累積和(1, 2, 3, ・・・番目まで)は引数 = 9、 絶対参照。 |
TTEST | t 検定 | 尾部は片側(1)、両側(2)。形式は対標本(1)、 等分散(2)か否(3)か。 |
VAR | 分散(不偏分散) | サンプル値からの母集団分散の推定値 |
VARP | 分散 | 記述統計。また有限母集団の分散としても。 |
ZTEST | データの正規偏差%点 | 標準得点に対する片側確率。シグマ(標準偏差)は 指定 or サンプル値。 |