総研大2024/言語資源学演習1
をテンプレートにして作成
開始行:
[[総研大2024]]
*言語資源学演習Ⅰ [#ed78e76b]
-月曜4限
-[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint....
**今後の予定 [#t451bec7]
--1月13日 &color(red){祝日 成人の日};
--1月20日 &color(red){休講 COLING2025}; / 「大納言」...
--1月27日 授業 (「大納言」によるコーパスの修正+公開準...
--2月3日,4日,5日 データ整備が終わったところで終了
**2025/2/3 [#x51b2e45]
***コーパスの公開準備作業 [#ac979694]
-未知語の辞書追加
-クロスチェック
-メタ情報の整備
**2025/1/27 [#v4d583bf]
***「大納言」によるコーパスの修正 [#ced709c6]
-形態論情報の修正
--録画あり
**2025/1/6 [#m699d786]
-サーバ入替のためDBへのインポートができないので別の話をし...
#include(授業資料/形態素解析)
***MeCabのオプション [#c7ce3691]
-a, --all-morphs output all morphs(default...
-N, --nbest=INT output N best results (de...
-全候補語
echo "政府の行為によつて再び戦争の惨禍が起ることのないや...
-nベスト解
echo "政府の行為によつて再び戦争の惨禍が起ることのないや...
-生起コスト表示(出力オプションで%c指定)
mecab -d unidic-cwj --node-format="%c\t%m\t%f[7]\t%f[6]\...
***pythonからmecabを呼ぶ [#x42ad322]
#pip install mecab-python3
apt install python3-mecab
import MeCab
-サンプル未知語抽出
--[[unkdetect.py>https://www.dropbox.com/scl/fi/zgmu0z5yp...
**2024/12/23 [#nf15b76e]
***青空文庫XHTML取得シェルスクリプト [#q1ecbec3]
#山月記
wget https://www.aozora.gr.jp/cards/000119/files/624_145...
#メロス
wget https://www.aozora.gr.jp/cards/000035/files/1567_14...
#注文の多い料理店
wget https://www.aozora.gr.jp/cards/000081/files/43754_1...
#高瀬舟
wget https://www.aozora.gr.jp/cards/000129/files/45245_2...
#羅生門
wget https://www.aozora.gr.jp/cards/000879/files/127_152...
#トロッコ
wget https://www.aozora.gr.jp/cards/000879/files/43016_1...
#文字コード変換
nkf -w --overwrite *.html
#Shift_JIS指定行を削除
sed -i '/Shift_JIS/d' *.html
***XHTML変換プログラム [#x82fa118]
[[授業資料/PythonでXML]]
-[[axhtml2xml.py>https://www.dropbox.com/scl/fi/vya4z902m...
外字の対応表(プログラムと同じ場所に置いておく)
-[[gaiji_map.json>https://www.dropbox.com/scl/fi/vybliuah...
--参考:https://gist.github.com/whitebell/a7a8641cacbb8fb...
python3 axhtml2xml.py "*.html"
***XMLファイルの検証 [#m7521072]
コーパス用XMLの文書型定義(XML schema)
-[[aozora.xsd>https://www.dropbox.com/scl/fi/5gkbv1x4ufm3...
データの検証(Validation)用pythonプログラム
-[[validate.py>https://www.dropbox.com/scl/fi/5pje9ga300n...
python3 validate.py 1567_14913_太宰治\ 走れメロス.xml ao...
***XMLファイルの短単位解析とDBへのインポート [#t6851928]
-短単位解析結果 [[morph.txt>https://www.dropbox.com/scl/f...
**2024/12/16 [#xc31ca33]
***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44]
-[[授業資料/PythonでXML]]
-方針を決める
--余計なタグをどうするか
--フリガナの処理
-Pythonで変換プログラムを書く
**&color(red){2024/12/09 休講}; [#xb267a4c]
-風邪のためお休みです
**&color(red){2024/12/02 休み}; [#o44796a2]
**2024/11/25 [#p398088c]
***はじめてのPython [#z0887d1f]
-[[準備>授業資料/Pythonでテキストデータ整形]]
-青空文庫テキストを整形する
-[[授業資料/Pythonでテキストデータ整形]]
-[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb...
***ライブラリのインストール [#s107b072]
-ライブラリ、パッケージ、モジュール
**2024/11/18 [#j878c8c0]
***コマンドラインで形態素解析 [#n8a07db5]
-[[コマンドラインで形態素解析>授業資料/コマンドラインで形...
-diff, cut, sort, uniq
***はじめてのPython [#z0887d1f]
-[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]]
-ChatGPTにうまく聞く
**2024/11/11 [#ae3e03b7]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
**2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cb...
***対象資料の決定 [#l2d06b75]
-紙資料(OCR)
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
--[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]]
-デジタルデータ
--[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E...
--[[青空文庫>https://www.aozora.gr.jp/]]
- 円朝の落語 https://www.aozora.gr.jp/index_pages/person...
- 山月記 https://www.aozora.gr.jp/cards/000119/files/624...
- 注文の多い料理店 https://www.aozora.gr.jp/cards/000081...
- 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html...
//#comment
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***生成AI(Python プログラミングのサポート) [#h7396c48]
-https://chatgpt.com/
**2024/10/21 ガイダンス[#y0ff74b8]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
終了行:
[[総研大2024]]
*言語資源学演習Ⅰ [#ed78e76b]
-月曜4限
-[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint....
**今後の予定 [#t451bec7]
--1月13日 &color(red){祝日 成人の日};
--1月20日 &color(red){休講 COLING2025}; / 「大納言」...
--1月27日 授業 (「大納言」によるコーパスの修正+公開準...
--2月3日,4日,5日 データ整備が終わったところで終了
**2025/2/3 [#x51b2e45]
***コーパスの公開準備作業 [#ac979694]
-未知語の辞書追加
-クロスチェック
-メタ情報の整備
**2025/1/27 [#v4d583bf]
***「大納言」によるコーパスの修正 [#ced709c6]
-形態論情報の修正
--録画あり
**2025/1/6 [#m699d786]
-サーバ入替のためDBへのインポートができないので別の話をし...
#include(授業資料/形態素解析)
***MeCabのオプション [#c7ce3691]
-a, --all-morphs output all morphs(default...
-N, --nbest=INT output N best results (de...
-全候補語
echo "政府の行為によつて再び戦争の惨禍が起ることのないや...
-nベスト解
echo "政府の行為によつて再び戦争の惨禍が起ることのないや...
-生起コスト表示(出力オプションで%c指定)
mecab -d unidic-cwj --node-format="%c\t%m\t%f[7]\t%f[6]\...
***pythonからmecabを呼ぶ [#x42ad322]
#pip install mecab-python3
apt install python3-mecab
import MeCab
-サンプル未知語抽出
--[[unkdetect.py>https://www.dropbox.com/scl/fi/zgmu0z5yp...
**2024/12/23 [#nf15b76e]
***青空文庫XHTML取得シェルスクリプト [#q1ecbec3]
#山月記
wget https://www.aozora.gr.jp/cards/000119/files/624_145...
#メロス
wget https://www.aozora.gr.jp/cards/000035/files/1567_14...
#注文の多い料理店
wget https://www.aozora.gr.jp/cards/000081/files/43754_1...
#高瀬舟
wget https://www.aozora.gr.jp/cards/000129/files/45245_2...
#羅生門
wget https://www.aozora.gr.jp/cards/000879/files/127_152...
#トロッコ
wget https://www.aozora.gr.jp/cards/000879/files/43016_1...
#文字コード変換
nkf -w --overwrite *.html
#Shift_JIS指定行を削除
sed -i '/Shift_JIS/d' *.html
***XHTML変換プログラム [#x82fa118]
[[授業資料/PythonでXML]]
-[[axhtml2xml.py>https://www.dropbox.com/scl/fi/vya4z902m...
外字の対応表(プログラムと同じ場所に置いておく)
-[[gaiji_map.json>https://www.dropbox.com/scl/fi/vybliuah...
--参考:https://gist.github.com/whitebell/a7a8641cacbb8fb...
python3 axhtml2xml.py "*.html"
***XMLファイルの検証 [#m7521072]
コーパス用XMLの文書型定義(XML schema)
-[[aozora.xsd>https://www.dropbox.com/scl/fi/5gkbv1x4ufm3...
データの検証(Validation)用pythonプログラム
-[[validate.py>https://www.dropbox.com/scl/fi/5pje9ga300n...
python3 validate.py 1567_14913_太宰治\ 走れメロス.xml ao...
***XMLファイルの短単位解析とDBへのインポート [#t6851928]
-短単位解析結果 [[morph.txt>https://www.dropbox.com/scl/f...
**2024/12/16 [#xc31ca33]
***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44]
-[[授業資料/PythonでXML]]
-方針を決める
--余計なタグをどうするか
--フリガナの処理
-Pythonで変換プログラムを書く
**&color(red){2024/12/09 休講}; [#xb267a4c]
-風邪のためお休みです
**&color(red){2024/12/02 休み}; [#o44796a2]
**2024/11/25 [#p398088c]
***はじめてのPython [#z0887d1f]
-[[準備>授業資料/Pythonでテキストデータ整形]]
-青空文庫テキストを整形する
-[[授業資料/Pythonでテキストデータ整形]]
-[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb...
***ライブラリのインストール [#s107b072]
-ライブラリ、パッケージ、モジュール
**2024/11/18 [#j878c8c0]
***コマンドラインで形態素解析 [#n8a07db5]
-[[コマンドラインで形態素解析>授業資料/コマンドラインで形...
-diff, cut, sort, uniq
***はじめてのPython [#z0887d1f]
-[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]]
-ChatGPTにうまく聞く
**2024/11/11 [#ae3e03b7]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
**2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cb...
***対象資料の決定 [#l2d06b75]
-紙資料(OCR)
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
--[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]]
-デジタルデータ
--[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E...
--[[青空文庫>https://www.aozora.gr.jp/]]
- 円朝の落語 https://www.aozora.gr.jp/index_pages/person...
- 山月記 https://www.aozora.gr.jp/cards/000119/files/624...
- 注文の多い料理店 https://www.aozora.gr.jp/cards/000081...
- 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html...
//#comment
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***生成AI(Python プログラミングのサポート) [#h7396c48]
-https://chatgpt.com/
**2024/10/21 ガイダンス[#y0ff74b8]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
ページ名: