2. データを読み込む

SSDSE（教育用標準データセット）：エクセル集計が前提。まだまだRでは使いづらい
CSVファイル：Comma-Separated Values
- 書式（色・セル結合）や数式などの情報はもたないが、様々なアプリで読み書きできる汎用性の高いデータ形式
- CSVファイルとエクセルファイルを選択できる場合は、CSVを推奨
文字コード
- 世界基準：UTF-8；日本：ローカル文字コードShift_JIS中心（文字化け原因）
データの読み込み：read_csv()関数
- 例：row_data <- read_csv("data/SSDSE-D-2023.csv")
- Cf. Excelファイルの読み込み：readxlパッケージを追加
ファイルパス：ファイルがどのフォルダに保存されているかを階層構造で表した文字列
- 絶対パス：一番上の階層（ルート）から、ファイルまでの経路をすべて書いたもの
  - Windows: C:/Users/user/Documents/大学/レポート.docx
- 相対パス：基準となる場所から見たファイルの位置まで書いたもの
  - Windows: 大学/レポート.docx
  - Rの相対パスの基準：プロジェクト（.Rproj）があるフォルダ。ここを基準に階層関係を考える

3. 必要なデータを取り出す（基本編）

mutate()関数
- データフレームに新しい列を追加したり、既存の列を変形したりする関数
- 各行ごとに処理を行いながら、計算・水準の設定・文字の整形など多様に使える
mutate() と summarise()の相違点
- どちらも計算に使う関数だが、データのまとめ方が異なる
  - mutate()：行はそのまま、列が増える
  - summarise()：行が減る（集約される）
代入
- パイプは「処理の流れ」であり、結果を自動保存する仕組みではない
- 再利用したい場合は <-（代入演算子）でオブジェクトに保存する
水準の設定
1. 文字ベクトルを作り、factor()で水準を指定
2. reorder()：昇順（小さい → 大きい）

縦持ち変換・横持ち変換
- pivot_longer()：横持ちデータを縦持ちデータに変換
- pivot_wider()：縦持ちデータを横持ちデータに変換
横持ちデータの特徴
- 同じ種類のデータなのに列がバラバラ
- → 一度に計算しにくい；グラフにしにくい
縦持ちデータの特徴
- 同じ種類のデータは1つの列（変数）に整理されている
- カテゴリごとに扱えるようになる
- → 同じ処理を1回でまとめて書けるので、コードがシンプルになる
- →︎ 関数を自然に使えるようになる（例：group_by() や ggplot()）
- →︎ 同じ種類のデータをまとめて扱えるようになる

CHIHIRO KARIYA 2026