成蹊2024/日本語学講義Ｄの履歴(No.20)

検索例：蒲公英・向日葵・蓮華
- 表記（ひらがな・カタカナ・漢字）別集計
  - フィルタ機能を上手く使って「文字種」列を作る
（参考）Mac版Excelと文字種
- Macではフィルタの際に平仮名と片仮名が区別されないので、関数を使って文字コードで区別する
  - =unicode(文字列) ：文字列の先頭文字の文字コード（Unicode、10進数）を返す
応用：用法分類などなど

↑

出現サンプル数の調査（重複の削除）†

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

たとえば同一サンプル内での繰り返しが多いものを調査するとき（例：一人称代名詞など）
- 「データ」→「重複の削除」
例：「俺・僕・私」

↑

ランダムサンプリング調査†

大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列： =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

例：「られる」「全然」

↑

Excelの文字列関数†

集計に必要な情報をフィールドから切り出すことで集計に使う

授業資料/EXCELの文字列関数参照

↑

レポートテーマについて†

授業で習得したコーパスの利用方法を活用し、日本語について各自で設定したテーマについて論じなさい。
- ※原則として授業時に調査･発表した内容を扱うこと。

普段から見聞きする言葉に気をつけるとともに、他の授業や書籍の情報も活用する
ひとつの言葉から、同種の別の語や違う観点からの観察などへと膨らませていく

参考

分野
- 表記
- 類義語・対義語
- 語形
- 語法
- 意味
観点
- レジスター差
- 性差
- 年代差
- 通時変化

※レポートテーマに関する小プレゼンテーションについて

1月以降、全員に短いパワーポイントを使ったライトニングトークをしてもらいます

↑

11/29　コーパスの語数表と調整頻度†

↑

「中納言」検索課題†

資料ダウンロード

↑

BCCWJ利用の落とし穴（設計を踏まえたコーパス利用の必要性）†

BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
- レジスターによって母集団の年が違っている
  - レジスターの偏りを年代の偏りと勘違いしないこと
- 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ

もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない
- →調整頻度の計算
  - cf.人口あたりの事故件数，１平方キロあたりの…etc.

BCCWJの語数
- https://ccd.ninjal.ac.jp/bccwj/bcc-chu-suw.html
短単位語数表をピボットテーブルで集計
- 短単位語数表：http://doi.org/10.15084/00003226

↑

調整頻度（pmw）†

粗頻度を総語数で割る
- レジスターごとの語数データ：中納言ページの「語数について」のリンク先からExcel形式でダウンロードできる
  - 語数ファイルをピボットテーブルで集計して分母にする

調整頻度には100万語あたりの頻度（pmw）がよく使われる
- 粗頻度/コーパス総語数*1000000
  - 数字が小さくなりすぎないようにするため

例：BCCWJ「パソコン」「立ち上げる」
- ※用例数の増加と、コーパス中の年ごとのテキスト量の違いを区別

例：BCCWJ「矢張り」（語形別）
- ※割合を比較するだけなら調整頻度を出す必要はないが、どのくらい出てきやすいのかに注目するなら調整頻度が必要

↑

コーパスの語数表†

BCCWJ
- 短単位語数表Excel http://doi.org/10.15084/00003226
- 長単位語数表Excel http://doi.org/10.15084/00003224
CEJC
- CEJC短単位語数表_品詞構成表_語種構成表_ver202209.zip
CHJ
- 短単位語数表Excel(バージョン2022.03) https://clrd.ninjal.ac.jp/chj/doc/CHJ_SUW_WC_202203.xlsx
- 長単位語数表Excel(バージョン2022.03) https://clrd.ninjal.ac.jp/chj/doc/CHJ_LUW_WC_202203.xlsx
SHC
- 短単位語数表CSV https://clrd.ninjal.ac.jp/shc/doc/SHC_WC_202305.csv

↑

（Excel基礎知識）セルの相対参照と絶対参照†

A1：相対参照
$A$1：絶対参照
$A1：列のみ絶対参照

↑

11/22　休み欅祭†

↑

11/15　第8回 Excelによる検索結果の集計(2)†

↑

Excelの基礎†

並べ替え（ソート）
- 反転前文脈の使い方
フィルタ（絞り込み）
- テキストフィルタ
- 多重フィルター（複数の条件指定）

↑

【重要】ピボットテーブルの使い方†

ピボットテーブル
ピボットグラフ

参考：CHJの犬と猫
- 動画：『日本語歴史コーパス』のかんたんな使い方─犬派？猫派？編─ https://youtu.be/672LMkV6GxU

↑

複数の検索結果の結合†

一度にピボットテーブルで集計できるように一つの表にまとめる

※必ず表をくっつけること（空行を入れるとそこで表が切れていると認識される）

例：ワイン・葡萄酒　※単位数が違うので検索条件式でも一つの式では書けない

キー: 語彙素="ワイン";
キー: 語彙素="葡萄" AND 後方共起: 語彙素="酒" ON 1 WORDS FROM キー;

ショートカットキーを活用すると便利

Ctrl*1+End*2　ファイルの末尾/表のいちばん右下に移動
Shift+Ctrl+End*3　〃範囲を選択

表をコピー
- Ctrl+Home*4（表の左上へ移動）, ↓（列名は選択しないようにするため1行下へ）,Shift+Ctrl+End, Ctrl+C（コピー）
コピーした表を既存の表の下に貼り付け
- Ctrl+↓（表の一番下の行に移動）, ↓（1行下へ）, Ctrl+V（貼り付け）

授業資料/覚えておきたいショートカットキー

または、「検索条件式ごとに出力ファイルを分割する」を外して検索条件式で一度にダウンロード（ZIPファイルの中のcsvファイルを利用）

たくさんまとめて調べたい場合には特に便利

キー: 語彙素="ワイン";
キー: 語彙素="ブランデー";
キー: 語彙素="ウイスキー";
キー: 語彙素="葡萄" AND 後方共起: 語彙素="酒" ON 1 WORDS FROM キー;
キー: 語彙素="日本" AND 後方共起: 語彙素="酒" ON 1 WORDS FROM キー;

↑

11/8　第7回「中納言」の使い方(3) / Excelによる検索結果の集計(1)†

↑

復習†

検索語の条件指定
複数単位の組み合わせ

↑

位置情報と用例へのパーマリンク†

位置検索
- サンプルID,開始位置*5のセットでコーパス上の用例の位置を一意に指定できる
- 位置検索での区切り記号はカンマのほかタブやスペースでも可

用例へのpermalink
- CHJ源氏冒頭の「やんごとなし」：https://chunagon.ninjal.ac.jp/chj/permalink?unit=short&position=20-%E6%BA%90%E6%B0%8F1010_00001,330

↑

検索条件式の利用†

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

↓これだけでもいい（WITH OPTIONS 以下は式で指定がない場合、検索画面での設定に従う）

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー

↑

OR検索†

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: (語彙素="言葉" OR 語彙素="言語") ON 1 WORDS FROM キー

↑

周辺語検索†

「美しい」の前後3語以内に出現する名詞（平安仮名文学）

キー: 品詞 LIKE "名詞%"
 AND 共起: 語彙素="美しい" BETWEEN -3 AND 3 WORDS FROM キー
 IN subcorpusName="平安-仮名文学" AND core="true"

「言葉」の前後2語以内に出現する形容詞・形状詞

キー: (品詞 LIKE "形状詞%" OR 品詞 LIKE "形容詞%")
 AND 共起: 語彙素="言葉" BETWEEN -2 AND 2 WORDS FROM キー

↑

「中納言」検索結果のダウンロードとExcelでの利用†

ダウンロード
Excelでインポート

データの形式
- タブ区切りテキストの各列

↑

11/1　第6回「中納言」の使い方(2)†

3.4 複数単位の組み合わせ（共起・連接）から（p.6）

↑

10/25　第5回コーパスの形態論情報(2)／「中納言」の使い方(1)†

↑

コーパスへの形態論情報の付与†

短単位：MeCabとUniDicを使った形態素解析で情報付与
長単位：Comainu（など）で短単位を組み上げる

↑

形態素解析を試してみる†

Web茶まめ
- https://chamame.ninjal.ac.jp/

新聞と文学作品の語種比率比較

↑

利用する側から見たコーパスの設計†

BCCWJでもCHJでも、どのように設計されているかを知らないと大きな誤りを犯す可能性がある
- サブコーパスのサイズを無視した比較
- バランスのとれていない項目間の単純比較（BCCWJの年代、CHJの時代・ジャンル等）
今後の授業の中で詳しく説明していきます

↑

コーパスの形態論情報†

http://clrd.ninjal.ac.jp/bccwj/morphology.html

短単位と長単位
- （スライド）長単位と短単位参照
- 長単位と短単位・資料単位切りの例
- （参考）動画：コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

↑

品詞体系†

BCCWJ・CHJはUniDicの品詞体系にもとづく（BCCWJのために開発されたのがUniDic）
- 授業資料/UniDicの品詞体系
- 授業資料/UniDicの見出し語階層

コーパス検索アプリケーション「中納言」と短単位と長単位
- 中納言の使い方

↑

参考資料†

BCCWJ関連報告書 http://clrd.ninjal.ac.jp/bccwj/doc.html
- 形態論情報規程集(PDF)　第4版上・第4版下

↑

コーパスへの形態論情報の付与†

短単位：MeCabとUniDicを使った形態素解析で情報付与
長単位：長単位解析器で短単位を組み上げる

↑

形態素解析を試してみる†

Web茶まめ
- https://chamame.ninjal.ac.jp/

↑

形態素解析の仕組み†

授業資料/形態素解析

↑

「中納言」の使い方†

配布資料・中納言の使い方

↑

10/4　第3回日本語コーパスの紹介（2）『日本語日常会話コーパス』『日本語歴史コーパス』『昭和・平成書き言葉コーパス』†

↑

（前回補足）参考リンク†

英語のコーパスリファレンス
- ブラウンコーパスマニュアル http://khnt.aksis.uib.no/icame/manuals/brown/
- BNCリファレンスガイド http://www.natcorp.ox.ac.uk/docs/URG/
現代日本語書き言葉均衡コーパス（BCCWJ）
- 現代日本語書き言葉均衡コーパス：概要
- BCCWJの基本設計：https://clrd.ninjal.ac.jp/bccwj/basic-design.html
- サンプリング：https://clrd.ninjal.ac.jp/bccwj/sampling.html
- XMLによる電子化：https://clrd.ninjal.ac.jp/bccwj/XML.html

↑

「日本語日常会話コーパス」（CEJC）の設計・構成†

↑

「日本語歴史コーパス」（CHJ）の構成†

https://clrd.ninjal.ac.jp/chj/

残された資料に限りがある（そもそも偏りがある）歴史的なコーパスの場合、現代語コーパス同様の「代表性」を求めることは困難

近世以前: 残されている資料が少なく、できるだけ（可能なら全部）コーパスに入れたい
近世（後期）以降: 偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい（作品など資料単位で調査したい）

『日本語歴史コーパス』の中身
- 中世以前は重要な資料をまるごと対象に
- 近世の洒落本・人情本：年代・著者（・地域）のバランスを取って作品単位でサンプリング

↑

近代語コーパスの場合†

近代雑誌（現在はCHJの一部）
- 多様な記事を含む「総合雑誌」を対象とすることでバランスを確保
- 発行年での大まかなサンプリング
  - 「太陽コーパス」：8年おきに12冊ずつを対象
- その後の雑誌コーパスも8年おきに収録
  - 明六雑誌・東洋学芸雑誌・国民之友・太陽（・中央公論・文藝春秋）
近代小説
- 複数の有識者が日本語資料として選定・投票した結果（1980年代に作成した資料）をもとにサンプリング
- https://www.jpling.gr.jp/taikai/happyo/yosi/2019/b/yosi_2019b_e3.pdf

↑

「昭和・平成書き言葉コーパス」（SHC）の設計・構成†

↑

9/27　第2回コーパスとは日本語コーパスの紹介（1）『現代日本語書き言葉均衡コーパス』†

↑

「中納言」授業アカウント配布†

授業で使うコーパスが授業期間の半年間のみ使えるアカウントを配布します
個人アカウントを持っている人はそれを使ってください https://chunagon.ninjal.ac.jp/

↑

コーパスを使ってみる†

細かい話は抜きで「中納言」でコーパスを使ってみよう

『現代日本語書き言葉均衡コーパス』（BCCWJ）
コアデータのみを対象とする指定（負荷軽減のため）
文字列検索
短単位検索

↑

コーパスとは†

以下、スライド（CoursePower）参照

狭義のコーパス

言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。

現代日本語書き言葉均衡コーパス（BCCWJ） / 日本語歴史コーパス（CHJ）

広義のコーパス

コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

さまざまなテキストアーカイブ（新潮文庫の百冊 / 青空文庫 / 国会会議録）
- 参考：「ひまわり」パッケージ
Web上のデータ
- 検索サイトの利用
- WAC（Web as Corpus）

この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス（BCCWJ）」「日本語日常会話コーパス（CEJC）」と「日本語歴史コーパス（CHJ）」「昭和・平成書き言葉コーパス（SHC）」

↑

コーパスへの要請†

大規模であること
各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
著作権の問題がないこと
言語研究に利用できる情報がついていること

↑

「現代日本語書き言葉均衡コーパス」（BCCWJ）の構成とサンプリング†

https://clrd.ninjal.ac.jp/bccwj/

均衡コーパス（Balanced corpus）
- 「バランスがとれている」「代表性」とは？
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長

著作権をめぐる問題

↑

09/20　第1回　イントロダクション†

自己紹介
- 大学共同利用機関法人人間文化研究機構国立国語研究所 https://www.ninjal.ac.jp/
- 国立国語研究所コーパス開発センター https://clrd.ninjal.ac.jp/

↑

授業内容等の確認†

シラバスの確認
- シラバス
- この授業の目的
- 授業の進め方
- 評価方法

受講者アンケート
- 関心のある分野について
- PC等のスキルについて

↑

授業内容デモ†

コーパスの利用
- コーパス検索システム中納言
Excelによる集計
- ピボットテーブル
- 文字列関数・VLOOKUP関数

形態素解析
- Web茶まめ

↑

「中納言」アカウントについて†

「中納言」オンライン利用申込み
- 他のコーパス無含めて今後も利用したい場合は下記から個人でアカウントを取得してください
- https://chunagon.ninjal.ac.jp/useraccount/register

↑

授業で利用する主なソフトウェア・Webアプリケーション（予定）†

ソフトウェアの種類・名前	利用目的
コーパス検索アプリケーション「中納言」	コーパスの検索
表計算ソフトExcel	ピボットテーブルによる分析・グラフ作成
ワープロWord	「スタイル」を利用したレポート作成
Web茶まめ	形態素解析

成蹊2024/日本語学講義Ｄ の履歴(No.20)

日本語学講義Ｄ†

12/20 コーパスの語彙表とコロケーション強度／レポートテーマ報告†

（参考）動画†

コーパスの語彙表†

コロケーション強度†

「みんなごん」†

12/13 XLOOKUP（旧VLOOKUP）関数†

XLOOKUP関数の利用†

辞書引き集計†

レポートテーマについて†

12/6 集計の前処理と文字列関数†

集計用の列を自分で用意する†

出現サンプル数の調査（重複の削除）†

ランダムサンプリング調査†

Excelの文字列関数†

レポートテーマについて†

11/29 コーパスの語数表と調整頻度†

「中納言」検索課題†

BCCWJ利用の落とし穴（設計を踏まえたコーパス利用の必要性）†

調整頻度（pmw）†

コーパスの語数表†

（Excel基礎知識）セルの相対参照と絶対参照†

11/22 休み 欅祭†

11/15 第8回 Excelによる検索結果の集計(2)†

Excelの基礎†

【重要】ピボットテーブルの使い方†

複数の検索結果の結合†

11/8 第7回 「中納言」の使い方(3) / Excelによる検索結果の集計(1)†

復習†

位置情報と用例へのパーマリンク†

検索条件式の利用†

OR検索†

周辺語検索†

「中納言」検索結果のダウンロードとExcelでの利用†

11/1 第6回 「中納言」の使い方(2)†

10/25 第5回 コーパスの形態論情報(2)／「中納言」の使い方(1)†

コーパスへの形態論情報の付与†

形態素解析を試してみる†

形態素解析の仕組み†

「中納言」の使い方†

10/18 休み（四大学運動競技大会）†

10/11 第4回 コーパスの形態論情報†

利用する側から見たコーパスの設計†

コーパスの形態論情報†

品詞体系†

参考資料†

コーパスへの形態論情報の付与†

形態素解析を試してみる†

形態素解析の仕組み†

「中納言」の使い方†

10/4 第3回 日本語コーパスの紹介（2）『日本語日常会話コーパス』『日本語歴史コーパス』『昭和・平成書き言葉コーパス』†

（前回補足）参考リンク†

「日本語日常会話コーパス」（CEJC）の設計・構成†

「日本語歴史コーパス」（CHJ）の構成†

近代語コーパスの場合†

「昭和・平成書き言葉コーパス」（SHC）の設計・構成†

9/27 第2回 コーパスとは 日本語コーパスの紹介（1）『現代日本語書き言葉均衡コーパス』†

「中納言」授業アカウント配布†

コーパスを使ってみる†

コーパスとは†

コーパスへの要請†

「現代日本語書き言葉均衡コーパス」（BCCWJ）の構成とサンプリング†

09/20 第1回 イントロダクション†

授業内容等の確認†

授業内容デモ†

「中納言」アカウントについて†

授業で利用する主なソフトウェア・Webアプリケーション（予定）†

成蹊2024/日本語学講義Ｄの履歴(No.20)

12/20　コーパスの語彙表とコロケーション強度／レポートテーマ報告†

12/13　XLOOKUP（旧VLOOKUP）関数†

12/6　集計の前処理と文字列関数†

11/29　コーパスの語数表と調整頻度†

11/22　休み欅祭†

11/15　第8回 Excelによる検索結果の集計(2)†

11/8　第7回「中納言」の使い方(3) / Excelによる検索結果の集計(1)†

11/1　第6回「中納言」の使い方(2)†

10/25　第5回コーパスの形態論情報(2)／「中納言」の使い方(1)†

10/18　休み（四大学運動競技大会）†

10/11　第4回コーパスの形態論情報†

10/4　第3回日本語コーパスの紹介（2）『日本語日常会話コーパス』『日本語歴史コーパス』『昭和・平成書き言葉コーパス』†

9/27　第2回コーパスとは日本語コーパスの紹介（1）『現代日本語書き言葉均衡コーパス』†

09/20　第1回　イントロダクション†