Unicode_utf8 のバックアップ差分(No.1)

バックアップ一覧
現在との差分を表示
ソースを表示
バックアップを表示
Unicode_utf8 へ行く。
- 1 (2010-11-21 (日) 16:51:15)
- 2 (2010-11-21 (日) 17:15:24)
- 3 (2010-11-22 (月) 10:08:37)
- 4 (2010-12-19 (日) 16:40:52)
- 5 (2011-02-14 (月) 15:36:22)

追加された行はこの色です。
削除された行はこの色です。

[[Rの備忘録]]

たとえば "あ" の UTF-8 での文字コードは
 > charToRaw("あ")
 [1] e3 81 82
なのですが，Unicode では
> as.u_char(utf8ToInt("あ" ))
[1] U+3042
です．この変換規則は，[[ここ:http://hp.vector.co.jp/authors/VA012733/doc/kanji-code.html]] に分かりやすく書かれています．一部引用します．

>>
UCS-2（Universal Character Set coded in 2 octets）は２バイトのUnicodeのデータです。ＡＳＣＩＩの”a”と言う文字は００４１の２バイトで、「Ｕ＋００４１」と表記します。UTFとは「Unicode Transformation Format, 8-bit encoding form」の略でASCIIとのご完成を保つために作られたようです。ASCIIは１バイトで表し、漢字コードなどは３バイトで表します。
<<

>>
UCS-2からUTF-8の変換表
<<
 UCS-2	ビット列	第１バイト	第２バイト	第３バイト
 U+0000...U+007F	00000000-0xxxxxxx	0xxxxxxx	なし	なし
 U+0080...U+07FF	00000xxx-xxyyyyyy	110xxxxx	10yyyyyy	なし
 U+0800...U+FFFF	xxxxyyyy-yyzzzzzz	1110xxxx	10yyyyyy	10zzzzzz

>>
例として、上記の表から、”あ”と言う文字を変換します。Unicodeで”あ”はU+３０４２ですのでこれをビット列にすると、
<<
　「0011 0000 0100 0010」
>>
となり、表を参考にしてｘｙｚに分けると、
<<
　「xxxx=0011、yyyyyy=000001、zzzzzz=000010」
>>
バイト単位に組み立てます。
<<
　第１バイト=11100011 HEX表記でＥ３
　第２バイト=10000001 HEX表記で８１
　第３バイト=10000010 HEX表記で８２
>>
ＵＴＦ－８で”あ”の文字コードはＥ３８１８２です。
<<

アールメカブ

Unicode_utf8 のバックアップ差分(No.1)