[[FrontPage]] *コーパス日本語学のためのテキスト処理入門 RIGHT:2014/09/30 小木曽智信 **自分でデータをなんとかする |テキストのレベル|処理ツール|利用ツール|必要な知識|対応するコーパス例|h |プレーンテキスト|テキストエディタ|grep|正規表現|いろいろなテキストデータ集| |(文書構造)タグ付きテキスト|XMLエディタ等|ひまわり|XMLの基礎|太陽コーパス等| |形態素解析済みテキスト|MeCab (+UniDic)|ChaKi/中納言((中納言は個人でデータを登録するのは無理))|検索方法もそれなりに難しい|BCCWJ等| |係り受け解析済みテキスト|CaboCha|ChaKi|~|| **テキストの前処理 量が多くなければテキストエディタと正規表現でも何とかなる -形態素解析の前処理 --形態素解析システムの入力は「文」なのでテキストを文末(のみ)で改行するように整えてから形態素解析に回す --単語の境界に入り込むようなタグ(ルビなど)や余計なテキストは解析前に外す --MeCabでは半角スペースで境界を(手動で)指定できる ---[[「形態論情報データベース」>http://ci.nii.ac.jp/naid/130004566474]](大納言のシステム)では、XML文書を入力として、sentenceタグをもとに文単位に区切り、全てのタグを取り外した((必ず単位境界になるタグは半角スペースで残す))テキストを形態素解析した後、タグを元の位置に戻している。XSLTとPerlで処理。 -係り受け解析の前処理 --形態素解析済みの表形式テキスト --形態素解析のエラーは係り受け解析にも引きずるので、全体を人手で直すなら「茶器」などで形態素解析結果を直した後で係り受け解析にかける *コーパス管理システム「茶器」 **「茶器」と関連ツールのインストール +「茶器」本体 ++ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/ +形態素解析 ++MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html ++UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/ ---あるいは歴史的資料を対象としたUniDic http://www2.ninjal.ac.jp/lrc/index.php?UniDic +係り受け解析 ++CaboCha https://code.google.com/p/cabocha/ ---UniDicモデル :chakiのページからダウンロード可能(標準のIPAdicのモデルでも十分) **「茶器」の利用 「茶器」では形態素解析まで行ったテキストでも、さらに係り受け解析まで行ったテキストでも取り扱える +データの解析と取り込み --付属のText2Corpus(形態素解析・係り受け解析まで手軽にやってくれる。ただし辞書変更の自由がきかない。) --茶まめ(手軽に形態素解析のみ。標準では出力形式があわない。要望があれば何とかします) +茶器による検索 --文字列検索 --正規表現検索 --タグ検索(形態論情報を利用した検索) --係り受け検索 +ワードリスト +コロケーション強度 +解析結果の修正 -[[茶器上のUniDic属性]] **sample -[[murasaki.db>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=murasaki.db&refer=Q%B8%A62014]] #**疑問点等 #-UniDic属性対応表がほしい #-Text2corpus #--UniDic CaboChaのインストールパスが不明 #--辞書フォルダ指定機能がほしい //**疑問点等 //-UniDic属性対応表がほしい //-Text2corpus //--UniDic CaboChaのインストールパスが不明 //--辞書フォルダ指定機能がほしい