東京外大2011
をテンプレートにして作成
開始行:
*日本言語研究(講義)
**コーパス日本語学入門
-前期 金2 (2単位)
-連絡先:ogiso@ogiso.net ←@を半角に
**期末レポートについて
-締切:8月13日(土)
-分量:A4で3枚以上
-提出方法:メールにWordファイルを添付して提出
***2011/07/22の期末試験日は授業を行いません
**2011/07/15 (13) レポート作成準備・質問対応(最終回)
-各自、レポート作成に向けての調査を行います。
-積極的に質問してください。
**2011/07/08 (12) Wordレポートの書き方,レポートテーマ
-「現代日本語書き言葉均衡コーパス」完成記念講演会 8/2,3
--http://www.ilcc.com/corpus/
***レポートテーマについて
***Wordを使ってレポートを書く
-図表の取り扱い
--「形式を選択して貼り付け」
--図表番号、キャプション
-文書の構造化
--章・節番号
--「スタイル」「見出しマップ」の活用
-節番号、図表番号と相互参照
-目次、図表目次
**2011/07/01 (11) 形態論情報つきコーパス検索システム「中...
-[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp...
--全文検索と短単位検索の違い
--短単位の指定方法
--短単位連続の検索
--同一文中における共起の検索
-検索結果のダウンロード
--検索結果をExcelにインポートする
***レポートテーマについて
**2011/06/24 (10) 形態素解析
-形態素解析とは
--配付資料:シリーズ国語研究の現場から「日本語研究と自動...
--デモ(茶まめでUniDic)
--形態素解析の解析単位は言語学で言う「形態素」ではないこ...
---「形態素解析」= "Morphological analysis"
---morphologicalな(形態論上の)単位は形態素だけではない...
---日本語の形態素解析の単位は一般に「語」。(語をどう定義...
-形態素解析の仕組み
--生起コストと連接コスト
--経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipe...
&ref(morph.png,,40%);
***形態素解析用ソフトウェア
主なソフトウェア
-形態素解析器(解析エンジン・プログラム)
--[[茶筌(ChaSen)>http://chasen-legacy.sourceforge.jp/]]...
--[[和布蕪(MeCab)>http://mecab.sourceforge.net/]] <[[CR...
-解析辞書
--[[IPADIC>http://sourceforge.jp/projects/ipadic/]]
--[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]]
--[[UniDic>http://download.unidic.org]]
---[[歴史的資料を対象としたUniDic>http://www2.ninjal.ac.j...
茶まめ(解析用のお助けツール)
-授業用パッケージ(MeCab+UniDic+茶まめ)
---[[パッケージのダウンロード>http://www2.ninjal.ac.jp/to...
***UniDicの特長
+見出し語が[[短単位>http://www.ninjal.ac.jp/kotonoha/ex_5...
+見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/...
+アクセントや音変化の情報を付与することができる
-UniDicはChaSen, MeCabのどちらの解析器でも利用可能
--後から開発されたMeCabの方が解析精度が高いのでおすすめ
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
***UniDicの品詞体系
--cf.UniDicマニュアル
--品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
--形状詞 (=形容動詞語幹)
--助動詞「う」が付いた形を意志推量形として扱う
**2011/06/17 (9) 「ひまわり」の検索結果の集計2
***復習
-ひまわりとExcelピボットテーブルの組み合わせ
-例:「それぎり」と「それきり」
&ref(sorekiri.png,,100%);
***文字列関数
-文字列関数で必要な情報を取り出す
--年代=left(<year>,3)*10
***エディタの応用
-ひまわりの検索結果をエディタ(正規表現を使った置換)で加...
***応用・意味に関わる分析
-分類用のフィールドを作って自分で分類後、集計する
--例:「新聞紙」の意味・用法の変化
---ランダム→先頭100
***相対頻度の計算
--''Himawari版青空文庫・文字数データ''&br;[[Aozora2009GWc...
**2011/06/10 (8) 「ひまわり」の検索結果の集計 / 正規表...
***Excel
-並び替え・絞り込み
-ピボットテーブル
-列名(青空文庫)
||前文脈|キー|後文脈|著者|タイトル|著者ID|生年|没年|原著...
&ref(teki.png,,50%);
***「ひまわり」用追加データ
-国会会議録ひまわり用データ
--[[ダウンロードkokkai.zip>http://www2.ninjal.ac.jp/togis...
***正規表現小テスト
**2011/06/03 (7) 全文検索システム「ひまわり」
***「ひまわり」とは [#g59679c3]
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
***ひまわりとデータのセットアップ
-ひまわり本体と[[青空文庫>http://http://www.aozora.gr.jp/...
--[[ダウンロードHimawari+aozora.zip>http://www2.ninjal.ac...
---USBメモリにダウンロード
***ひまわりと正規表現 [#lde4da4e]
-「ひまわり」で使用できる正規表現
--検索語/キー:普通の文字と、文字クラスの一部([あいう]の...
--前文脈/後文脈:ほぼ全ての正規表現
-「本文(grep)」を指定することですべての正規表現が利用可能
--ただしインデックスが利用できないので検索に時間がかかる
***検索とExcelでの集計デモ
-○○的[なの]
--○○的の連体修飾の形が「な」「の」どちらをとるか
**2011/05/27 (6) タグ付き正規表現
-&color(red){午後から出張のため少し早めに終わります。};
-走[らりるれろ] でGrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ]
---置換文字列:★走[らりるれろ]
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
***最長一致の原則(greedy matching)と最小一致[#y047e9bd]
-正規表現は、パターンが一致する最も長い範囲にマッチする
--例:''「(.+)」'' → ''【\1】''
---「こんにちは」「さようなら」 → 【こんにちは」「さよう...
--''「([^」]+)」'' → ''【\1】'' のように書けばよい
---「こんにちは」「さようなら」 → 【こんにちは】【さよう...
-最短一致を指定するには(ものぐさ指定)
--''「(.+?)」「(.*?)」''のように、繰り返し指定の+*の後に...
***後方参照
-(..)\1
***テキストデータのダウンロード
--[[青空文庫テキストデータ(unicode版)>http://home.ogiso.n...
//***ひまわりのデモ
//-動作チェック
**2011/05/20 (5) 正規表現を使う
***正規表現とは
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタキャラクタ)
--置換・検索・grepで利用できる
---メタキャラクタはすべて半角
---キャラクタそのものを表す場合には\でエスケープする(特...
---例:1\+2 ※「\」は「¥」の半角
-[[授業資料/正規表現]]
-''Unicodeでは漢字の正規表現は次のものを使ってください''
--[一-龠]
***正規表現の応用 [#c7a3ea2d]
--漢語サ変動詞を検索する
--カタカナ語のリストを作る
--副詞の呼応の例を検索する 「全然~ない。」
--会話文中("「"で始まる文中)の用例を検索する
--同一文中での共起
#amazon(4873111706)
#amazon(4873113598)
#clear
**2011/05/13 (4) テキストエディタと正規表現
***復習
--検索・置換
--grepとタグジャンプ
***ショートカットキー [#da449f25]
-[[授業資料/覚えておきたいショートカットキー]]
***grepと置換で簡易KWIC(CSVファイル)を作る[#u3ab2d6f]
-CSVファイルとは:テキストファイルで表を表現する
[[用語:CSVファイル>http://www.microsoft.com/japan/Termin...
-KWIC:KeyWord In Context
**正規表現
***正規表現を使ってみる [#u471d57b]
-キャラクタクラス
--例:読[まみむめもん]
---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
**2011/05/06 (3) テキストエディタ
--[[授業資料/テキストデータ紹介]]
-参考:[[文字化けはなぜ起きるか>http://pc.nikkeibp.co.jp/a...
***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]
-テキストエディタ選び
--[[Sakura Editor>http://home.ogiso.net/wiki/pukiwiki.php...
**テキストエディタの利用
-[[サンプルデータ(青空文庫夏目漱石unicode版)>http://hom...
-圧縮ファイルの展開(解凍)
--圧縮・展開ソフト(アーカイバ [[用語>http://e-words.jp/w...
-テキストエディタの設定
--行の折り返し
--行番号表示
---スタイル行番号(ワープロ的行番号)と論理行番号(エディ...
-検索・置換、grep
--検索で初出行を調べる
--置換で用例数を数える
--USBメモリ(1GB以上の空き)の準備
**2011/04/22 (2) テキストファイルとテキストエディタ
-授業ページへのショートカット
***先週の補足
-コーパスとは
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
***授業で利用する主なソフトウェア [#i06478d2]
|テキストエディタ|検索・整形|
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lr...
|表計算ソフト''Excel''|分析・グラフ作成|
|ワープロ''Word''|「スタイル」を利用したレポート作成|
-デモ
--''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr...
--形態素解析
***テキストデータ
--[[授業資料/テキストデータとは]]
--バイナリファイルとテキストファイル
--ファイルの種類と拡張子 参考:[[拡張子辞典>http://www.ji...
--[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B...
--テキストファイルとHTML
-TXT,CSV,HTM・・・
//htmlのごく簡単な入門
-授業で使うテキストデータ
**2011/04/15 (1) イントロダクション
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 htt...
-コーパスとは
---[[日本語コーパスKOTONOHA>http://www.ninjal.ac.jp/koton...
---[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/dem...
---[[形態素解析辞書UniDic>http://download.unidic.org/]]
-[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?%C5%E...
--この授業の目的
--授業の進め方
--評価方法
終了行:
*日本言語研究(講義)
**コーパス日本語学入門
-前期 金2 (2単位)
-連絡先:ogiso@ogiso.net ←@を半角に
**期末レポートについて
-締切:8月13日(土)
-分量:A4で3枚以上
-提出方法:メールにWordファイルを添付して提出
***2011/07/22の期末試験日は授業を行いません
**2011/07/15 (13) レポート作成準備・質問対応(最終回)
-各自、レポート作成に向けての調査を行います。
-積極的に質問してください。
**2011/07/08 (12) Wordレポートの書き方,レポートテーマ
-「現代日本語書き言葉均衡コーパス」完成記念講演会 8/2,3
--http://www.ilcc.com/corpus/
***レポートテーマについて
***Wordを使ってレポートを書く
-図表の取り扱い
--「形式を選択して貼り付け」
--図表番号、キャプション
-文書の構造化
--章・節番号
--「スタイル」「見出しマップ」の活用
-節番号、図表番号と相互参照
-目次、図表目次
**2011/07/01 (11) 形態論情報つきコーパス検索システム「中...
-[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp...
--全文検索と短単位検索の違い
--短単位の指定方法
--短単位連続の検索
--同一文中における共起の検索
-検索結果のダウンロード
--検索結果をExcelにインポートする
***レポートテーマについて
**2011/06/24 (10) 形態素解析
-形態素解析とは
--配付資料:シリーズ国語研究の現場から「日本語研究と自動...
--デモ(茶まめでUniDic)
--形態素解析の解析単位は言語学で言う「形態素」ではないこ...
---「形態素解析」= "Morphological analysis"
---morphologicalな(形態論上の)単位は形態素だけではない...
---日本語の形態素解析の単位は一般に「語」。(語をどう定義...
-形態素解析の仕組み
--生起コストと連接コスト
--経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipe...
&ref(morph.png,,40%);
***形態素解析用ソフトウェア
主なソフトウェア
-形態素解析器(解析エンジン・プログラム)
--[[茶筌(ChaSen)>http://chasen-legacy.sourceforge.jp/]]...
--[[和布蕪(MeCab)>http://mecab.sourceforge.net/]] <[[CR...
-解析辞書
--[[IPADIC>http://sourceforge.jp/projects/ipadic/]]
--[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]]
--[[UniDic>http://download.unidic.org]]
---[[歴史的資料を対象としたUniDic>http://www2.ninjal.ac.j...
茶まめ(解析用のお助けツール)
-授業用パッケージ(MeCab+UniDic+茶まめ)
---[[パッケージのダウンロード>http://www2.ninjal.ac.jp/to...
***UniDicの特長
+見出し語が[[短単位>http://www.ninjal.ac.jp/kotonoha/ex_5...
+見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/...
+アクセントや音変化の情報を付与することができる
-UniDicはChaSen, MeCabのどちらの解析器でも利用可能
--後から開発されたMeCabの方が解析精度が高いのでおすすめ
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
***UniDicの品詞体系
--cf.UniDicマニュアル
--品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
--形状詞 (=形容動詞語幹)
--助動詞「う」が付いた形を意志推量形として扱う
**2011/06/17 (9) 「ひまわり」の検索結果の集計2
***復習
-ひまわりとExcelピボットテーブルの組み合わせ
-例:「それぎり」と「それきり」
&ref(sorekiri.png,,100%);
***文字列関数
-文字列関数で必要な情報を取り出す
--年代=left(<year>,3)*10
***エディタの応用
-ひまわりの検索結果をエディタ(正規表現を使った置換)で加...
***応用・意味に関わる分析
-分類用のフィールドを作って自分で分類後、集計する
--例:「新聞紙」の意味・用法の変化
---ランダム→先頭100
***相対頻度の計算
--''Himawari版青空文庫・文字数データ''&br;[[Aozora2009GWc...
**2011/06/10 (8) 「ひまわり」の検索結果の集計 / 正規表...
***Excel
-並び替え・絞り込み
-ピボットテーブル
-列名(青空文庫)
||前文脈|キー|後文脈|著者|タイトル|著者ID|生年|没年|原著...
&ref(teki.png,,50%);
***「ひまわり」用追加データ
-国会会議録ひまわり用データ
--[[ダウンロードkokkai.zip>http://www2.ninjal.ac.jp/togis...
***正規表現小テスト
**2011/06/03 (7) 全文検索システム「ひまわり」
***「ひまわり」とは [#g59679c3]
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
***ひまわりとデータのセットアップ
-ひまわり本体と[[青空文庫>http://http://www.aozora.gr.jp/...
--[[ダウンロードHimawari+aozora.zip>http://www2.ninjal.ac...
---USBメモリにダウンロード
***ひまわりと正規表現 [#lde4da4e]
-「ひまわり」で使用できる正規表現
--検索語/キー:普通の文字と、文字クラスの一部([あいう]の...
--前文脈/後文脈:ほぼ全ての正規表現
-「本文(grep)」を指定することですべての正規表現が利用可能
--ただしインデックスが利用できないので検索に時間がかかる
***検索とExcelでの集計デモ
-○○的[なの]
--○○的の連体修飾の形が「な」「の」どちらをとるか
**2011/05/27 (6) タグ付き正規表現
-&color(red){午後から出張のため少し早めに終わります。};
-走[らりるれろ] でGrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ]
---置換文字列:★走[らりるれろ]
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
***最長一致の原則(greedy matching)と最小一致[#y047e9bd]
-正規表現は、パターンが一致する最も長い範囲にマッチする
--例:''「(.+)」'' → ''【\1】''
---「こんにちは」「さようなら」 → 【こんにちは」「さよう...
--''「([^」]+)」'' → ''【\1】'' のように書けばよい
---「こんにちは」「さようなら」 → 【こんにちは】【さよう...
-最短一致を指定するには(ものぐさ指定)
--''「(.+?)」「(.*?)」''のように、繰り返し指定の+*の後に...
***後方参照
-(..)\1
***テキストデータのダウンロード
--[[青空文庫テキストデータ(unicode版)>http://home.ogiso.n...
//***ひまわりのデモ
//-動作チェック
**2011/05/20 (5) 正規表現を使う
***正規表現とは
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタキャラクタ)
--置換・検索・grepで利用できる
---メタキャラクタはすべて半角
---キャラクタそのものを表す場合には\でエスケープする(特...
---例:1\+2 ※「\」は「¥」の半角
-[[授業資料/正規表現]]
-''Unicodeでは漢字の正規表現は次のものを使ってください''
--[一-龠]
***正規表現の応用 [#c7a3ea2d]
--漢語サ変動詞を検索する
--カタカナ語のリストを作る
--副詞の呼応の例を検索する 「全然~ない。」
--会話文中("「"で始まる文中)の用例を検索する
--同一文中での共起
#amazon(4873111706)
#amazon(4873113598)
#clear
**2011/05/13 (4) テキストエディタと正規表現
***復習
--検索・置換
--grepとタグジャンプ
***ショートカットキー [#da449f25]
-[[授業資料/覚えておきたいショートカットキー]]
***grepと置換で簡易KWIC(CSVファイル)を作る[#u3ab2d6f]
-CSVファイルとは:テキストファイルで表を表現する
[[用語:CSVファイル>http://www.microsoft.com/japan/Termin...
-KWIC:KeyWord In Context
**正規表現
***正規表現を使ってみる [#u471d57b]
-キャラクタクラス
--例:読[まみむめもん]
---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
**2011/05/06 (3) テキストエディタ
--[[授業資料/テキストデータ紹介]]
-参考:[[文字化けはなぜ起きるか>http://pc.nikkeibp.co.jp/a...
***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]
-テキストエディタ選び
--[[Sakura Editor>http://home.ogiso.net/wiki/pukiwiki.php...
**テキストエディタの利用
-[[サンプルデータ(青空文庫夏目漱石unicode版)>http://hom...
-圧縮ファイルの展開(解凍)
--圧縮・展開ソフト(アーカイバ [[用語>http://e-words.jp/w...
-テキストエディタの設定
--行の折り返し
--行番号表示
---スタイル行番号(ワープロ的行番号)と論理行番号(エディ...
-検索・置換、grep
--検索で初出行を調べる
--置換で用例数を数える
--USBメモリ(1GB以上の空き)の準備
**2011/04/22 (2) テキストファイルとテキストエディタ
-授業ページへのショートカット
***先週の補足
-コーパスとは
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
***授業で利用する主なソフトウェア [#i06478d2]
|テキストエディタ|検索・整形|
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lr...
|表計算ソフト''Excel''|分析・グラフ作成|
|ワープロ''Word''|「スタイル」を利用したレポート作成|
-デモ
--''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr...
--形態素解析
***テキストデータ
--[[授業資料/テキストデータとは]]
--バイナリファイルとテキストファイル
--ファイルの種類と拡張子 参考:[[拡張子辞典>http://www.ji...
--[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B...
--テキストファイルとHTML
-TXT,CSV,HTM・・・
//htmlのごく簡単な入門
-授業で使うテキストデータ
**2011/04/15 (1) イントロダクション
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 htt...
-コーパスとは
---[[日本語コーパスKOTONOHA>http://www.ninjal.ac.jp/koton...
---[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/dem...
---[[形態素解析辞書UniDic>http://download.unidic.org/]]
-[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?%C5%E...
--この授業の目的
--授業の進め方
--評価方法
ページ名: