Q研2014
をテンプレートにして作成
開始行:
[[FrontPage]]
*コーパス日本語学のためのテキスト処理入門
RIGHT:2014/09/30 小木曽智信
**自分でデータをなんとかする
|テキストのレベル|処理ツール|利用ツール|必要な知識|対応す...
|プレーンテキスト|テキストエディタ|grep|正規表現|いろいろ...
|(文書構造)タグ付きテキスト|XMLエディタ等|ひまわり|XMLの...
|形態素解析済みテキスト|MeCab (+UniDic)|ChaKi/中納言((中...
|係り受け解析済みテキスト|CaboCha|ChaKi|~||
**テキストの前処理
量が多くなければテキストエディタと正規表現でも何とかなる
-形態素解析の前処理
--形態素解析システムの入力は「文」なのでテキストを文末(の...
--単語の境界に入り込むようなタグ(ルビなど)や余計なテキ...
--MeCabでは半角スペースで境界を(手動で)指定できる
---[[「形態論情報データベース」>http://ci.nii.ac.jp/naid/...
-係り受け解析の前処理
--形態素解析済みの表形式テキスト
--形態素解析のエラーは係り受け解析にも引きずるので、全体...
*コーパス管理システム「茶器」
**「茶器」と関連ツールのインストール
+「茶器」本体
++ChaKi.NETのインストール http://sourceforge.jp/projects/...
+形態素解析
++MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/i...
++UniDic 2.xのインストール http://sourceforge.jp/projects...
---あるいは歴史的資料を対象としたUniDic http://www2.ninja...
+係り受け解析
++CaboCha https://code.google.com/p/cabocha/
---UniDicモデル :chakiのページからダウンロード可能(標準...
**「茶器」の利用
「茶器」では形態素解析まで行ったテキストでも、さらに係り...
+データの解析と取り込み
--付属のText2Corpus(形態素解析・係り受け解析まで手軽にや...
--茶まめ(手軽に形態素解析のみ。標準では出力形式があわな...
+茶器による検索
--文字列検索
--正規表現検索
--タグ検索(形態論情報を利用した検索)
--係り受け検索
+ワードリスト
+コロケーション強度
+解析結果の修正
-[[茶器上のUniDic属性]]
**sample
-[[murasaki.db>http://www.ogiso.net/wiki/index.php?plugin...
//**疑問点等
//-UniDic属性対応表がほしい
//-Text2corpus
//--UniDic CaboChaのインストールパスが不明
//--辞書フォルダ指定機能がほしい
終了行:
[[FrontPage]]
*コーパス日本語学のためのテキスト処理入門
RIGHT:2014/09/30 小木曽智信
**自分でデータをなんとかする
|テキストのレベル|処理ツール|利用ツール|必要な知識|対応す...
|プレーンテキスト|テキストエディタ|grep|正規表現|いろいろ...
|(文書構造)タグ付きテキスト|XMLエディタ等|ひまわり|XMLの...
|形態素解析済みテキスト|MeCab (+UniDic)|ChaKi/中納言((中...
|係り受け解析済みテキスト|CaboCha|ChaKi|~||
**テキストの前処理
量が多くなければテキストエディタと正規表現でも何とかなる
-形態素解析の前処理
--形態素解析システムの入力は「文」なのでテキストを文末(の...
--単語の境界に入り込むようなタグ(ルビなど)や余計なテキ...
--MeCabでは半角スペースで境界を(手動で)指定できる
---[[「形態論情報データベース」>http://ci.nii.ac.jp/naid/...
-係り受け解析の前処理
--形態素解析済みの表形式テキスト
--形態素解析のエラーは係り受け解析にも引きずるので、全体...
*コーパス管理システム「茶器」
**「茶器」と関連ツールのインストール
+「茶器」本体
++ChaKi.NETのインストール http://sourceforge.jp/projects/...
+形態素解析
++MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/i...
++UniDic 2.xのインストール http://sourceforge.jp/projects...
---あるいは歴史的資料を対象としたUniDic http://www2.ninja...
+係り受け解析
++CaboCha https://code.google.com/p/cabocha/
---UniDicモデル :chakiのページからダウンロード可能(標準...
**「茶器」の利用
「茶器」では形態素解析まで行ったテキストでも、さらに係り...
+データの解析と取り込み
--付属のText2Corpus(形態素解析・係り受け解析まで手軽にや...
--茶まめ(手軽に形態素解析のみ。標準では出力形式があわな...
+茶器による検索
--文字列検索
--正規表現検索
--タグ検索(形態論情報を利用した検索)
--係り受け検索
+ワードリスト
+コロケーション強度
+解析結果の修正
-[[茶器上のUniDic属性]]
**sample
-[[murasaki.db>http://www.ogiso.net/wiki/index.php?plugin...
//**疑問点等
//-UniDic属性対応表がほしい
//-Text2corpus
//--UniDic CaboChaのインストールパスが不明
//--辞書フォルダ指定機能がほしい
ページ名: