#author("2021-04-16T03:56:07+00:00","default:ogiwiki","ogiwiki") #author("2021-04-16T03:57:03+00:00","default:ogiwiki","ogiwiki") ***テキストデータ [#he09a1f8] -テキストデータとは 普通の文字(及び改行文字・タブ文字)のコードだけが並んでいるデータ --[[テキストファイル>http://e-words.jp/w/E38386E382ADE382B9E38388E38395E382A1E382A4E383AB.html]] --[[バイナリファイル>http://e-words.jp/w/E38390E382A4E3838AE383AAE38395E382A1E382A4E383AB.html]] -テキストファイルとワープロファイルとの違い -テキストファイルの種類 --プレーンテキスト ---拡張子はふつうtxt --表形式テキスト ---拡張子:CSV --タグ付きテキスト 例) [[HTML>https://e-words.jp/w/HTML.html]],[[XML>https://e-words.jp/w/XML.html]] ---拡張子:htm,html / xml -テキストファイルの利点 --おおよそどのようなコンピュータ環境でも利用可能 --さまざまなアプリケーションが対応(インポート/エクスポート) ***コンピュータと文字 [#j2e897d3] コンピュータなどの情報機器では、文字に数字を割り振ることで文字を扱っている。 -どの文字に数字をどう割り振るかという規定=文字コード --どれだけの文字に:文字集合(文字セット) --どう数字を割り振るか:文字符号化方式(エンコーディング) :文字集合(文字セット)|例) JIS第一水準・ユニコード2.0,常用漢字表・諸橋大漢和の見出し漢字… :エンコード(符号化方式)|例) Shift JIS・ISO 2022-JP・日本語EUC・UTF-8… --どこまでを同じ文字と見なすか:包摂規準 ***符号化方式別の文字番号の例 [#o0074b80] |文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC|ユニコード|h |文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC|ユニコード(UTF16)|h |私|27区68点|16進数|8E84|3B64|BBE4|8E84| |~|~|2進数|1000111010000100|11101101100100|1011101111100100|1000111010000100| |~|~|10進数|36484|15204|48100|36484| |は|4区47点|16進数|82CD|244F|A4CF|306F| |~|~|2進数|1000001011001101|10010001001111|1010010011001111|0011000001101111| |~|~|10進数|33485|9295|42191|12399| ---- ***コンピュータと16進数[#n31f1c1f] そもそもコンピュータで扱う情報はすべて1と0の組み合わせ -スイッチのON/OFF→1と0の組み合わせ→2進数 -16進数は2進数と相性がよく人間にも比較的わかりやすい :2進数と16進数|36484(10進数)=1000111010000100(2進数)=8E84(16進数)~ 2進数は4桁ごとに16進数0~Fに対応する(2^4=16だから)~ |1000|1110|1000|0100| |8|E|8|4| :情報の最小単位 ビット|0か1か=1ビット -パソコンなどでは8ビットをひとまとめにした1バイトを最小の単位として扱う --1バイト=2^8=256,2バイト=2^8×2^8=2^16=65536 ---- ***文字化け [#ic874a6a] +異なる文字コード ++文字集合の違い →外字・[[機種依存文字>http://e-words.jp/w/E6A99FE7A8AEE4BE9DE5AD98E69687E5AD97.html]] ++符号化方式の違い +異なるフォント ---- ***[[JIS漢字コード>https://e-words.jp/w/JIS%E6%BC%A2%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89.html]] [#ga5ba1d6] 1969年 JIS X 0201(JISローマ字カナ) ASCII+カタカナ 1978年 JIS X 0208(JIS基本漢字) 〈ISO2022系〉非漢字453字・漢字6349字(第1水準・第2水準) 78JIS 旧JIS 83JIS 非漢字71字・漢字4字追加。字体の変更、第1水準・第2水準間の字体の入れ替え。これ以降を新JIS 90JIS 漢字2字追加 97JIS 「包摂規準」 1990年 JIS X 0212(JIS補助漢字) 〈ISO2022系〉非漢字245字・漢字5801字 2000年 JIS X 0213(JIS拡張漢字) 〈ISO2022系〉非漢字659字・漢字3685字(第3水準・第4水準) JIS X 0213:2004年 改正 2012年 JIS X 0213:2012 2010年改訂の常用漢字表改定に対応 〈ISO 10646(Unicode)系〉 1995年 [[JIS X 0221>https://ja.wikipedia.org/wiki/JIS_X_0221]] : 2014年 JIS X 0221:2014 絵文字追加(Unicode6.1) 2020年 JIS X 0221:2020 戸籍統一文字・変体仮名など(Unicode10.0) ---- #counter