*2016/02/03

-国立国語研究所コーパス開発センター http://pj.ninjal.ac.jp/corpus_center/

-コーパス検索アプリケーション「中納言」 https://chunagon.ninjal.ac.jp/


**2限 『日本語歴史コーパス』(CHJ)の概要
-http://pj.ninjal.ac.jp/corpus_center/CHJ
-http://pj.ninjal.ac.jp/corpus_center/chj/

-スライド:『日本語歴史コーパス』の量的・質的拡張

-公開中の『日本語歴史コーパス』
--平安時代編
--室町時代編Ⅰ狂言

-地の文・会話文, 発話者

-『日本語歴史コーパス』の拡張 2016.3
--形態論情報付き「近代雑誌コーパス」の統合(『太陽』はコアのみで残りは2016年度中)
--「平安時代編」への『大鏡』『蜻蛉日記』の追加
--「鎌倉時代編Ⅰ説話・随筆」
--「室町時代編Ⅰ狂言」長単位


-[[近藤泰弘・田中牧郎・小木曽智信編(2015)『コーパスと日本語史研究』 (ひつじ研究叢書 言語編 第127巻) >http://www.hituzi.co.jp/hituzibooks/ISBN978-4-89476-751-5.htm]]

-「中納言」申し込み

**3限 BCCWJとCHJの形態論情報
-資料:短単位と長単位
-[[授業資料/UniDicの品詞体系]]
-[[授業資料/UniDicの見出し語階層]]

-形態素解析
--MeCab(解析器)とUniDic(辞書)
--現代語用のUniDic[[形態素解析辞書UniDic>http://sourceforge.jp/projects/unidic/]]
--Web茶まめ http://chamame.ninjal.ac.jp/

**4限 「中納言」によるコーパスの検索
-資料:「中納言」の使い方

**5限 コーパス検索結果の集計
-「中納言」+Excelによる実習

***複数の検索結果をまとめる
--一つの表に貼り付けて集計する

***分類用のフィールドを作って集計する

***サンプリング調査
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =rand() 
---ランダムな数字の列をコピーして値として貼り付けると数字が固定される


***関数の利用
-文字列処理関数
--例: =left(<文字列>,<文字数>)

-集計用に用意した列で文字列処理関数を利用する
--LEFT,RIGHT,MID,LEN,SEARCH,SUBSTITUTE

-応用例:品詞の大分類を使う
--=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)

-[[vlookup関数>授業資料/vlookup関数]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS