総研大2024
言語資源学演習Ⅰ†
2025/1/6†
- サーバ入替のためDBへのインポートができないので別の話をします。
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
pythonからmecabを呼ぶ†
2024/12/23†
青空文庫XHTML取得シェルスクリプト†
#山月記
wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html
#メロス
wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html
#注文の多い料理店
wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html
#高瀬舟
wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html
#羅生門
wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html
#トロッコ
wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html
#文字コード変換
nkf -w --overwrite *.html
#Shift_JIS指定行を削除
sed -i '/Shift_JIS/d' *.html
XHTML変換プログラム†
授業資料/PythonでXML
外字の対応表(プログラムと同じ場所に置いておく)
python3 axhtml2xml.py "*.html"
XMLファイルの検証†
コーパス用XMLの文書型定義(XML schema)
データの検証(Validation)用pythonプログラム
python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd
XMLファイルの短単位解析とDBへのインポート†
2024/12/16†
青空文庫XHTMLをコーパス用XMLにする†
2024/12/09 休講†
2024/12/02 休み†
2024/11/25†
はじめてのPython†
ライブラリのインストール†
2024/11/18†
コマンドラインで形態素解析†
はじめてのPython†
2024/11/11†
2024/10/28 対象資料の決定/データ処理環境の整備†
対象資料の決定†
データ処理環境の整備†
- VisualStudio Code
- WSL (Ubuntu)
生成AI(Python プログラミングのサポート)†
2024/10/21 ガイダンス†
- 整備した資料をOpenCHJの一部として公開することを検討