総研大2024/言語資源学演習1
をテンプレートにして作成
開始行:
[[総研大2024]]
*言語資源学演習Ⅰ [#ed78e76b]
-月曜4限
-[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint....
**2024/12/16 [#xc31ca33]
***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44]
-[[授業資料/PythonでXML]]
-方針を決める
--余計なタグをどうするか
--フリガナの処理
-Pythonで変換プログラムを書く
-コーパス用XMLの文書型定義(DTD)
-データの検証(Validation)
**&color(red){2024/12/09 休講}; [#xb267a4c]
-風邪のためお休みです
**&color(red){2024/12/02 休み}; [#o44796a2]
**2024/11/25 [#p398088c]
***はじめてのPython [#z0887d1f]
-[[準備>授業資料/Pythonでテキストデータ整形]]
-青空文庫テキストを整形する
-[[授業資料/Pythonでテキストデータ整形]]
-[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb...
***ライブラリのインストール [#s107b072]
-ライブラリ、パッケージ、モジュール
**2024/11/18 [#j878c8c0]
***コマンドラインで形態素解析 [#n8a07db5]
-[[コマンドラインで形態素解析>授業資料/コマンドラインで形...
-diff, cut, sort, uniq
***はじめてのPython [#z0887d1f]
-[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]]
-ChatGPTにうまく聞く
**2024/11/11 [#ae3e03b7]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
**2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cb...
***対象資料の決定 [#l2d06b75]
-紙資料(OCR)
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
--[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]]
-デジタルデータ
--[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E...
--[[青空文庫>https://www.aozora.gr.jp/]]
- 円朝の落語 https://www.aozora.gr.jp/index_pages/person...
- 山月記 https://www.aozora.gr.jp/cards/000119/files/624...
- 注文の多い料理店 https://www.aozora.gr.jp/cards/000081...
- 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html...
//#comment
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***生成AI(Python プログラミングのサポート) [#h7396c48]
-https://chatgpt.com/
**2024/10/21 ガイダンス[#y0ff74b8]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
終了行:
[[総研大2024]]
*言語資源学演習Ⅰ [#ed78e76b]
-月曜4限
-[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint....
**2024/12/16 [#xc31ca33]
***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44]
-[[授業資料/PythonでXML]]
-方針を決める
--余計なタグをどうするか
--フリガナの処理
-Pythonで変換プログラムを書く
-コーパス用XMLの文書型定義(DTD)
-データの検証(Validation)
**&color(red){2024/12/09 休講}; [#xb267a4c]
-風邪のためお休みです
**&color(red){2024/12/02 休み}; [#o44796a2]
**2024/11/25 [#p398088c]
***はじめてのPython [#z0887d1f]
-[[準備>授業資料/Pythonでテキストデータ整形]]
-青空文庫テキストを整形する
-[[授業資料/Pythonでテキストデータ整形]]
-[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb...
***ライブラリのインストール [#s107b072]
-ライブラリ、パッケージ、モジュール
**2024/11/18 [#j878c8c0]
***コマンドラインで形態素解析 [#n8a07db5]
-[[コマンドラインで形態素解析>授業資料/コマンドラインで形...
-diff, cut, sort, uniq
***はじめてのPython [#z0887d1f]
-[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]]
-ChatGPTにうまく聞く
**2024/11/11 [#ae3e03b7]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
**2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cb...
***対象資料の決定 [#l2d06b75]
-紙資料(OCR)
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
--[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]]
-デジタルデータ
--[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E...
--[[青空文庫>https://www.aozora.gr.jp/]]
- 円朝の落語 https://www.aozora.gr.jp/index_pages/person...
- 山月記 https://www.aozora.gr.jp/cards/000119/files/624...
- 注文の多い料理店 https://www.aozora.gr.jp/cards/000081...
- 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html...
//#comment
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***生成AI(Python プログラミングのサポート) [#h7396c48]
-https://chatgpt.com/
**2024/10/21 ガイダンス[#y0ff74b8]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
ページ名: