#author("2025-01-19T12:47:19+09:00","default:ogiwiki","ogiwiki") #author("2025-02-03T14:48:15+09:00","default:ogiwiki","ogiwiki") [[総研大2024]] *言語資源学演習Ⅰ [#ed78e76b] -月曜4限 -[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint.com/:f:/g/personal/togiso_ninjal_ac_jp/EpDgwNBNtTlDq1I0LHtWAE8BUuc22XHrjnFvfsxpCZ0l4A?e=qHPu49]] **今後の予定 [#t451bec7] --1月13日 &color(red){祝日 成人の日}; --1月20日 &color(red){休講 COLING2025}; / 「大納言」「UniDicExplorer」のセットアップ(形態論補情報データベース) --1月27日 授業 (「大納言」によるコーパスの修正+公開準備作業) --2月3日,4日,5日 データ整備が終わったところで終了 **2025/2/3 [#x51b2e45] ***コーパスの公開準備作業 [#ac979694] -未知語の辞書追加 -クロスチェック -メタ情報の整備 **2025/1/27 [#v4d583bf] ***「大納言」によるコーパスの修正 [#ced709c6] -形態論情報の修正 --録画あり **2025/1/6 [#m699d786] -サーバ入替のためDBへのインポートができないので別の話をします。 #include(授業資料/形態素解析) ***MeCabのオプション [#c7ce3691] -a, --all-morphs output all morphs(default false) -N, --nbest=INT output N best results (default 1) -全候補語 echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab -a -d ~/unidic-cwj -nベスト解 echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab --nbest=3 -d ~/unidic-cwj -生起コスト表示(出力オプションで%c指定) mecab -d unidic-cwj --node-format="%c\t%m\t%f[7]\t%f[6]\t%f[23]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[8]\t%f[9]\t%f[12]\n" ***pythonからmecabを呼ぶ [#x42ad322] #pip install mecab-python3 apt install python3-mecab import MeCab -サンプル未知語抽出 --[[unkdetect.py>https://www.dropbox.com/scl/fi/zgmu0z5yp78av1s6c6ih0/unkdetect.py?rlkey=9lm898dkh6f1o18r2449ss31x&dl=1]] **2024/12/23 [#nf15b76e] ***青空文庫XHTML取得シェルスクリプト [#q1ecbec3] #山月記 wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html #メロス wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html #注文の多い料理店 wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html #高瀬舟 wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html #羅生門 wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html #トロッコ wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html #文字コード変換 nkf -w --overwrite *.html #Shift_JIS指定行を削除 sed -i '/Shift_JIS/d' *.html ***XHTML変換プログラム [#x82fa118] [[授業資料/PythonでXML]] -[[axhtml2xml.py>https://www.dropbox.com/scl/fi/vya4z902ma4zbpi7pvxh8/axhtml2xml.py?rlkey=xbxtpzzxvddycbaevplwlwazm&dl=1]] 外字の対応表(プログラムと同じ場所に置いておく) -[[gaiji_map.json>https://www.dropbox.com/scl/fi/vybliuahrr0zoeapnqtae/gaiji_map.json?rlkey=4b3pgjksjhw9alw3fvnrew4tr&dl=1]] --参考:https://gist.github.com/whitebell/a7a8641cacbb8fb2e3113d7a6538293f python3 axhtml2xml.py "*.html" ***XMLファイルの検証 [#m7521072] コーパス用XMLの文書型定義(XML schema) -[[aozora.xsd>https://www.dropbox.com/scl/fi/5gkbv1x4ufm34q67duv16/aozora.xsd?rlkey=sqr1r5s05ll4wge8zqfiows6g&dl=1]] データの検証(Validation)用pythonプログラム -[[validate.py>https://www.dropbox.com/scl/fi/5pje9ga300n3d5766ras6/validate.py?rlkey=6ildbix3yhh30qmxb6kmdaa5d&dl=1]] python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd ***XMLファイルの短単位解析とDBへのインポート [#t6851928] -短単位解析結果 [[morph.txt>https://www.dropbox.com/scl/fi/45njw0y92t51agc2aj6ag/morph.txt?rlkey=qkprrm83x87dz8790ko7j413d&st=n8rncl5z&dl=1]] **2024/12/16 [#xc31ca33] ***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44] -[[授業資料/PythonでXML]] -方針を決める --余計なタグをどうするか --フリガナの処理 -Pythonで変換プログラムを書く **&color(red){2024/12/09 休講}; [#xb267a4c] -風邪のためお休みです **&color(red){2024/12/02 休み}; [#o44796a2] **2024/11/25 [#p398088c] ***はじめてのPython [#z0887d1f] -[[準備>授業資料/Pythonでテキストデータ整形]] -青空文庫テキストを整形する -[[授業資料/Pythonでテキストデータ整形]] -[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb-a7f8-800f-80ff-cca25fdbd130]] ***ライブラリのインストール [#s107b072] -ライブラリ、パッケージ、モジュール **2024/11/18 [#j878c8c0] ***コマンドラインで形態素解析 [#n8a07db5] -[[コマンドラインで形態素解析>授業資料/コマンドラインで形態素解析]] -diff, cut, sort, uniq ***はじめてのPython [#z0887d1f] -[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]] -ChatGPTにうまく聞く **2024/11/11 [#ae3e03b7] -[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]] **2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cbce] ***対象資料の決定 [#l2d06b75] -紙資料(OCR) --[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]] --[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]] -デジタルデータ --[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8]] --[[青空文庫>https://www.aozora.gr.jp/]] - 円朝の落語 https://www.aozora.gr.jp/index_pages/person989.html#sakuhin_list_1 -- [[K]] &new{2024-10-28 (月) 15:21:18}; - 山月記 https://www.aozora.gr.jp/cards/000119/files/624_14544.html -- [[呉]] &new{2024-10-28 (月) 15:21:50}; - 注文の多い料理店 https://www.aozora.gr.jp/cards/000081/files/43754_17659.html -- [[hk]] &new{2024-10-28 (月) 15:22:16}; - 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html -- [[ogi]] &new{2024-10-28 (月) 15:25:51}; //#comment ***データ処理環境の整備 [#wa78aa05] -VisualStudio Code --[[授業資料/テキストエディタと正規表現]] -WSL (Ubuntu) --[[授業資料/コマンドラインの基礎]] ***生成AI(Python プログラミングのサポート) [#h7396c48] -https://chatgpt.com/ **2024/10/21 ガイダンス[#y0ff74b8] -[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=20241021_%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921_%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9%E5%8F%82%E7%85%A7.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72024%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]] -対象資料の選定 --自分の研究で使いたい資料 --オープンデータ -整備した資料をOpenCHJの一部として公開することを検討