#author("2023-07-25T15:04:03+09:00;2023-07-25T13:49:08+09:00","default:ogiwiki","ogiwiki") #author("2023-07-25T15:07:31+09:00","default:ogiwiki","ogiwiki") [[日本語テキスト処理基礎講座2023]] *②Excelの利用 [#x9b7df21] **表形式データの基本~見た目と構造の話 [#ta74492e] ***ネ申Excel問題((10年前のリンク。多少は改善されたがまだまだ)) [#x8e16801] -https://oku.edu.mie-u.ac.jp/~okumura/SSS2013slide.pdf --世にはびこる紙至上主義的な機械可読性を軽んじた表データの問題 ***どっちが「きれいなデータ」だろうか? [#zd1d6333] 太陽コーパス 近代語 書き言葉 日本語話し言葉コーパス 現代語 話し言葉 現代日本語書き言葉均衡コーパス 現代語 書き言葉 日本語歴史コーパス 古代~近代語 書き言葉 太陽コーパス 近代語 書き言葉 日本語話し言葉コーパス 現代語 話し言葉 現代日本語書き言葉均衡コーパス 現代語 書き言葉 日本語歴史コーパス 古代~近代語 書き言葉 ***ちゃんとしたデータを作るために [#jbc3b44b] -ちゃんとしたデータ=機械処理に適したデータとして大事なのは構造。見た目は気にしないで後回しでよい。後でどうにでもなる。 -テキスト、スプレッドシート(Excel)、一般の文書(Word)、マークアップ(XML)などのデータ設計のあらゆることに共通した課題 -研究所から発信するデータはちゃんとしたデータにしてほしい ***よりちゃんとしたデータにむけて [#ae18a57f] -[[授業資料/表の正規化]] **基本 [#a0b117e3] ***テキストデータとExcel [#ve1dc933] -TXT, CSV, TSV --Excelとテキストデータの文字コード -xls, xlsx -おすすめ:VSCode拡張Rainbow CSV --https://marketplace.visualstudio.com/items?itemName=mechatroner.rainbow-csv ***並べ替えとフィルタ [#pf10ef38] -並べ替え(sort) -テキストフィルタ(≒grep) -重複の削除(uniq) **ピボットテーブル [#b415c92c] -[[BCCWJ中納言>https://chunagon.ninjal.ac.jp/bccwj-nt/]]の検索結果データを例に -サンプルデータ:美しい+X //--https://www.dropbox.com/scl/fi/xofkfnanvl5fjtjija555/kwic-11083586.csv?rlkey=7t7039o3xmgyi3dmd32hyjpxj&dl=1 前方共起: 語彙素="美しい" ON 1 WORDS FROM キー -ちゃんとしたデータはピボットテーブルで処理できる --表に集計や余計なコメントは入れない **文字列関数 [#la2f0926] -[[授業資料/EXCELの文字列関数]] **VLOOKUP [#v5e7727e] -[[授業資料/VLOOKUP関数]] --参考リンク http://honeshabri.hatenablog.com/entry/vlookup -サンプルデータ:割合+が+adj //--https://www.dropbox.com/scl/fi/p75m6p9cyt2b5kihrskkq/kwic-11083976.csv?rlkey=gr9uuowf2beu50jwb0i1eth0k&dl=1 キー: 品詞 LIKE "形容詞%" AND 前方共起: 語彙素="割合" ON 2 WORDS FROM キー AND 前方共起: 語彙素="が" ON 1 WORDS FROM キー --参考リンク http://honeshabri.hatenablog.com/entry/vlookup **テキストエディタと組み合わせて利用する [#yd260b65] 例:Excelで中納言検索結果の列を丸ごとコピーし、エディタで整形した後、Excelに貼り付ける -前後文脈の整理(キーが現れた文以外を消す) --前文脈:.+#((を空文字列に置換。以下同じ)) 後文脈:#.+ -値の一部を取り出す --品詞大分類:-.+ ジャンル大分類:/.+ **Excelから関係データベースへ [#a904b7e7] -ちゃんとしたデータを作ると関係データベース(RDB)で扱いたくなります。 -関係データベースを知るとVLOOKUPが厭になります。 -関係データベースが使いたくなったら最初はAccessなどでデータ管理して、SQLを覚えていってください。