| 項目 | 比率 |
|---|---|
| 宿題:授業の感想 | 30 |
| 宿題:演習 | 30 |
| レポート | 20 |
| プレゼンテーション | 10 |
| 受講態度 | 10 |
#1 イントロダクション
April 8, 2026

データサイエンスは、膨大なデータを分析する、あるいは個々のデータを結合しビッグデータにして解析することが必要です。そのためにはMicrosoft ExcelのようなGUI(グラフィカルユーザーインターフェース)に依拠するアプリケーションではなく、コード中心のプログラム言語が適しています。研究分野を問わず、海外の大学や研究機関において、「R」(後述)や「Python」のスキルが重視される傾向にあるのはこのためです。日本の研究機関は、全般的に、このような海外のトレンドに追いついていません。
この授業は、統計プログラム言語「R」の基本的な機能と、Quarto(markdownにもとづく簡易入力とRの出力結果をPandocにもとづいて出版するPosit社の推奨する新しい出版システム)を学習するものです。R言語はプログラム言語のなかでは比較的習得が容易であり、社会科学から自然科学にいたるまで幅広い分野の研究者が利用しています。
授業は、講義と演習の形式でおこないます。
講義の前半は、教員が用意した授業教材を中心に、コードの意味や記述方法、動作、実行結果などを例示、解説します。 後半の演習は、1. 各自所有のノートPCを使って演習をおこないますので、必ずノートPCを持参して下さい。テキストの例題と合わせて、2. 自分の関心のあるテーマにかかわるデータセットでも、同様のコードを実践して下さい。
授業教材はウェブサイトで公開します。このウェブサイトはQuartoとGitHubを用いて作成されています。
| 項目 | 比率 |
|---|---|
| 宿題:授業の感想 | 30 |
| 宿題:演習 | 30 |
| レポート | 20 |
| プレゼンテーション | 10 |
| 受講態度 | 10 |
上記以外の点は、各自、シラバスで確認下さい
イ(ウ) データの収集,整理,分析及び結果の表現の方法を適切に選択し,実行し,評価し改善することでは,データを問題の発見・解決に活用するために,必要なデータの収集について,選択,判断する力,それに応じて適切なデータの整理や変換の方法を判断する力,分析の目的に応じた方法を選択,処理する力,その結果について多面的な可視化を行うことにより,データに含まれる傾向を見いだす力を養う。また,データの傾向に関して評価するために,客観的な指標を基に判断する力,生徒自身の考えを基にした適正な解釈を行う力を養う。更に,地域や学校の実態及び生徒の状況に応じて,数学科と連携し,データを収集する前に,分析の構想を練り紐付ける項目を洗い出したり,外れ値の扱いについて確認したり,データの傾向について評価するために仮説検定の考え方などを取り扱ったりすることも考えられる。


Note
| 名前 | 科目 | 試験 | 評価 | 点数 |
|---|---|---|---|---|
| 田中 | 国語 | 中間 | 知識 | 80 |
| 田中 | 国語 | 中間 | 記述 | 70 |
| 田中 | 国語 | 期末 | 知識 | 85 |
| 田中 | 国語 | 期末 | 記述 | 75 |
| 田中 | 数学 | 中間 | 知識 | 72 |
| 田中 | 数学 | 中間 | 記述 | 68 |
詳しくは次週以降に解説します
| 要素 | Markdown構文 | 例 |
|---|---|---|
| 見出し | # H1## H2 |
H1 見出し H2 見出し |
| 太字 | **bold text** |
bold text |
| イタリック | *italicized text* |
italicized text |
| 引用 | > blockquote |
> blockquote |
| リンク | [金沢大学](https://www.kanazawa-u.ac.jp) |
金沢大学 |
| 画像 |  |
![]() |
色や文字の大きさは、別途、CSSファイルを用意して、変更する必要があります
RESASは、地域経済に関するビッグデータを地図上やグラフで見える化できる政府のシステムです(公式サイト)。
地域経済分析システム(RESAS)等を活用し、地域課題の分析を踏まえた地域の未来をよりよくする政策アイデアを募集するコンテストです。地方創生やデータ利活用に関心を持つ学生や地方公共団体職員、民間企業の方など、どなたでもご応募が可能です(公式サイト)
ファイル名は念のため英数のみとし、また空白文字を使わないで下さい
ファイル名は念のため英数のみとして下さい(Rの操作に慣れてきて、日本語で問題ないことが確認できたら、自由に使って構いません)
空白文字を使わないで下さい(空白に代わる文字として_(アンダースコア)の使用が一般的)

目次を付けると見出しレベルを意識しやすくなり、論理的に整ったレポートを作成できます
modern R(次週説明)は、tidyverse(整然としたデータ世界)という思想にもとづくパッケージ群からなる
base R(次週説明)には組み込まれていないので、パッケージとして追加することが必要
tidyverseの中身
以上9つのパッケージは、すべてtidyverseパッケージに含まれているので、個別にインストール、読み込む必要はありません
インストール後、自動でパッケージを使えるわけではありません。各Quartoファイル内において、使いたいパッケージをlibrary() 関数で読み込む必要があります(次週詳しく説明)
パッケージは、一度インストールすれば、同じPCではもう一度、インストールする必要はありません(パッケージはR内部から利用する設計になっており、初心者がファイルを探す、触る必要はありません)
Setup Chunkを整え、前処理に関わるコードをまとめておくと、後の分析がスムーズになります
コードブロックは「てんてんてん(バッククォート)」3つで始まり、同じく「てんてんてん」3つで終わるのが規則です。この中にRのコードを書きます。間違って消さないように!
ソースペインで、Setup Chunk内に以下のコードを書く
可読性、判読性、視認性を上げ、スパゲティコードにならないようにすることが重要です
以前は、palmerpenguinsという個別パッケージを読み込み、使用する必要がありました。パッケージで提供されるデータセットと、base Rのそれで、カラム名が一部、異なっています。インターネット検索や生成AIの結果は、palmer penguinsパッケージを前提とするコードが多く、そのまま貼り付けても動きません(カラム名が違うため)
パイプのショートカット
species island bill_len bill_dep flipper_len body_mass sex year
1 Adelie Torgersen 39.1 18.7 181 3750 male 2007
2 Adelie Torgersen 39.5 17.4 186 3800 female 2007
3 Adelie Torgersen 40.3 18.0 195 3250 female 2007
4 Adelie Torgersen NA NA NA NA <NA> 2007
5 Adelie Torgersen 36.7 19.3 193 3450 female 2007
6 Adelie Torgersen 39.3 20.6 190 3650 male 2007
species island bill_len bill_dep flipper_len body_mass sex year
1 Adelie Torgersen 39.1 18.7 181 3750 male 2007
2 Adelie Torgersen 39.5 17.4 186 3800 female 2007
3 Adelie Torgersen 40.3 18.0 195 3250 female 2007
[1] "species" "island" "bill_len" "bill_dep" "flipper_len"
[6] "body_mass" "sex" "year"
island
1 Torgersen
2 Biscoe
3 Dream
03:00
#を付けると見出しになる# 第1回 4月8日
## 散布図
penguins |> # tidyverseに組み込まれているサンプルのデータセットを使う
filter(!if_any(everything(), is.na)) |> # 欠損値を除外
ggplot(aes(x = bill_len, y = bill_dep, colour = species)) + # x軸、y軸、分布の色分けを指定
geom_point() # 散布図

url <- "https://sdmx.oecd.org/public/rest/data/OECD.SDD.STES,DSD_STES@DF_CLI/.M.LI...AA...H?startPeriod=2023-02&dimensionAtObservation=AllDimensions&format=csvfilewithlabels"
df_oecd_cli <- read_csv(url) # 指定したURLから直接データを読み込み
de_oecd_cli_selected <- # 必要な列だけ取り出す
df_oecd_cli |>
select(REF_AREA, TIME_PERIOD, OBS_VALUE) |> # 必要な列を取り出す
mutate(TIME_PERIOD = ym(TIME_PERIOD)) # 年月を日付型に変換
countries <- c("JPN", "USA", "DEU", "FRA", "KOR") #主要国だけ選ぶ(主要国のオブジェクトを作る)
de_oecd_cli_selected |>
filter(REF_AREA %in% countries) |> # REF_AREA が countries に含まれる行だけを抽出
ggplot(aes(x = TIME_PERIOD, y = OBS_VALUE, color = REF_AREA)) +
geom_line() +
scale_x_date(
breaks = scales::breaks_width("3 months"), # x軸の間隔調整
labels = scales::label_date_short() # 年と月を行を変えて表記
) +
scale_y_continuous(
breaks = scales::breaks_extended(8), # 目盛りの個数を指定
labels = scales::label_number(accuracy = 1) # 数値表示(小数なし)
) +
labs( # ラベル名と凡例名の変更
x = "",
y = "Composite Leading Indicator (CLI)",,
color = "Country"
) +
scale_color_paletteer_d("awtools::mpalette") 
今回は演習の宿題はありません