総研大2024

言語資源学演習Ⅰ

2025/1/6

授業資料/形態素解析

形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

pythonからmecabを呼ぶ

2024/12/23

青空文庫XHTML取得シェルスクリプト

#山月記
wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html
#メロス
wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html
#注文の多い料理店
wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html
#高瀬舟
wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html
#羅生門
wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html
#トロッコ
wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html
#文字コード変換
nkf -w --overwrite *.html
#Shift_JIS指定行を削除
sed -i '/Shift_JIS/d' *.html

XHTML変換プログラム

授業資料/PythonでXML

外字の対応表(プログラムと同じ場所に置いておく)

python3 axhtml2xml.py "*.html"

XMLファイルの検証

コーパス用XMLの文書型定義(XML schema)

データの検証(Validation)用pythonプログラム

python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd

XMLファイルの短単位解析とDBへのインポート

2024/12/16

青空文庫XHTMLをコーパス用XMLにする

2024/12/09 休講

2024/12/02 休み

2024/11/25

はじめてのPython

ライブラリのインストール

2024/11/18

コマンドラインで形態素解析

はじめてのPython

2024/11/11

2024/10/28 対象資料の決定/データ処理環境の整備

対象資料の決定

データ処理環境の整備

生成AI(Python プログラミングのサポート)

2024/10/21 ガイダンス


*1 最新版はMeCab版のみ
*2 現在では動かすのがたいへん

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS