Author
Affiliation

苅谷 千尋, PhD

高大接続コア・センター

Published

27, Jun, 2024

Modified

5, Aug, 2025

Keywords

Q2, Wed 2 (10:30-12:00), @総合教育講義棟 D2講義室(5階)

Ⅰ. 【お願い】実習用データの再提出の検討
  • 6月26日の授業の際に、実習用のデータをもってきてもらいましたが、行政機関が作成したデータ(表)が多く、整然とした(tidyな)データではないものが多かったです(授業の際に気がつけばよかったのですが、すみません)
    • このようなデータは大きな変形が必要であり、また、変形したものの、作図として使える情報量があまり多くありません
    • Rで日本の統計データを効率的に取得しようなど、便利なパッケージはありますが、それでも難しい部類だと思います。
  • 6月26日に提出したデータに強い拘りがないのであれば、他のデータ(以下に、私が見つけたサイトを紹介しています)を使うことを検討して下さい
  • 次回7月3日の授業内で、一人ひとり、相談に乗りたいと思います

Ⅱ. tidyなデータとmessyなデータ

1. 整然とした(tidy)データの特徴

  • カラム名と値からなる、シンプルな行列からなるデータ(データセット)
  • ➡ カラム名(列に一つしかない、あとはデータのみ)を操作するだけなので、dplyrの過程が少なくて済みます

2. 雑然とした(messy)データの特徴

  • 同じ列にカラム名が複数ある、カラムを細分化しているものは、雑然とした(messyな)データであり、変形が難しいです
    • 人間が目視することを前提とする、データ上意味のない空白が交じっているものもmessyなデータです
    • エクセルでセルを結合させているようなもの、結合させていなくてもそれに類する空白行をおいているもの
  • ➡ 一列に適当な一つのカラム名を作成するプロセスが必要で、dplyrの高度な運用能力が必要です

messyデータ(所属機関種別所属者数)

tidyデータ(以下の「金沢広域急病センター利用者数」)

3. 注記

  • 行政が作成した表(データ)であっても、以下のような表は空白箇所が少なく、dplyrによる加工はそれほど必要ありません

  • 総務省:ふるさと納税

加工しやすい行政作成の表

Ⅲ. 作図しやすい情報量の多いデータ

  • 複数の意味をもつ、データがそろっている
    • 例:日付; 地域; 年齢; 性別; 人数; 金額
      • 折れ線グラフ: 日付 × 人数;日付 × 金額
      • 散布図:人数 × 金額
      • 棒グラフ:人数;金額

Ⅳ. データの入手先(お勧め)

1. ckan

ckan: 金沢市

次回から「金沢広域急病センター利用者数」を例に実演、説明します

金沢市は山野之義前市長がソフトバンク出身ということもあり、データ活用への意欲、tidyデータへの感覚があるのだと思います。ckanへのデータの登録は、石川県全体(あるいは全国的?)の取り組みのようですが、分析上、意味のあるデータを登録している自治体は少ないです。金沢市は例外的です

東京都のckanも充実しています。特にcsvファイルで提供されているデータは、tidyデータで、情報量が多く、よいものが多いです

2. 観測・実験装置

  • 野生鳥獣の放射線モニタリング調査結果

    福島県では、東京電力福島第一原子力発電所の事故後、原子力災害本部長から福島県知事に対し野生鳥獣(イノシシ、ツキノワグマ、キジ、ヤマドリ、カルガモ、ノウサギ)の肉の摂取及び出荷制限の指示があり、県内で捕獲された野生鳥獣の体内における放射性核種濃度測定調査の結果についてお知らせをしています。

  • 生態学的研究の上で便利なオープンデータ集

    • 生態学にかかわるオープンデータのリンクがまとめられています。アカウント登録が必要なサイトがほとんどですが、よいデータが集まっているような印象を受けました。研究分野が近い受講生はアカウント登録をしてデータを入手する価値があるのではないかと思います。

Ⅴ. 提出先

再提出する場合は「授業回を選択してください」を「6月26日」として提出して下さい