トップ
新規
一覧
単語検索
最終更新
ヘルプ
ログイン
アールメカブ
Unicode_utf8
をテンプレートにして作成
開始行:
[[Rの備忘録]]
たとえば "あ" の UTF-8 での文字コードは
> charToRaw("あ")
[1] e3 81 82
なのですが,Unicode では
> library(Unicode)
> as.u_char(utf8ToInt("あ" ))
[1] U+3042
です.
Windows環境では CP932 コードなので
> charToRaw("あ")
[1] 82 a0
> as.u_char(utf8ToInt(iconv("あ", to= "UTF-8")))
[1] U+3042
合成文字の場合
#ref(nchar2.png)
この変換規則は,[[ここ:http://hp.vector.co.jp/authors/VA0...
----------------------
UCS-2(Universal Character Set coded in 2 octets)は2バ...
UCS-2からUTF-8の変換表
UCS-2 ビット列 第1バイト 第2バイト 第3バイト
U+0000...U+007F 00000000-0xxxxxxx 0xxxxxxx なし なし
U+0080...U+07FF 00000xxx-xxyyyyyy 110xxxxx 10yyyyyy なし
U+0800...U+FFFF xxxxyyyy-yyzzzzzz 1110xxxx 10yyyyyy 10zz...
例として、上記の表から、”あ”と言う文字を変換します。Unico...
「0011 0000 0100 0010」
となり、表を参考にしてxyzに分けると、
「xxxx=0011、yyyyyy=000001、zzzzzz=000010」
バイト単位に組み立てます。
第1バイト=11100011 HEX表記でE3
第2バイト=10000001 HEX表記で81
第3バイト=10000010 HEX表記で82
UTF−8で”あ”の文字コードはE38182です。
--------
関連して,[[ここ:http://yanok.net/dist/jis2004unicodeskk....
に面白い記事があったので,引用させていただきます.
JIS X 0213の文字のUnicode合成表現のためのSKK辞書
これは何か?
仮名漢字変換プログラムSKKのための辞書ですが、少々特殊な目...
JIS X 0213の文字には、Unicodeの符号化を施すと結合文字を使...
例えば、鼻濁音を表す「か゚」という文字(JISの面区点...
なぜ・どういうときに必要なのか?
簡単にいうと、Emacs 21/22 + Mule-UCS + SKKの環境で、アイ...
EmacsとSKKを使うと、JIS X 0213の全ての文字を自由に扱うこ...
しかし、UTF-8で保存しようとした場合に、Mule-UCSを使うと問...
そこで、Unicodeで必要な合成の表現を文字入力の段階で生成し...
結合文字が表示や処理上どう扱われるかは実装によって対応が...
辞書ファイル
辞書ファイルは下記リンク先にあります。EUC-JIS-2004 (EUC-J...
[[SKK-JISYO.ucscomp:http://yanok.net/dist/SKK-JISYO.ucsco...
---------
さらに関連して,[[ここ:http://yanok.net/yanok/mt-search.c...
Mule-UCSでは、JIS X 0213の文字のうちUnicodeで表現する際に...
そこでどうすればいいかというと、仕方ないので結合文字はHTM...
文字参照で表すといっても、手で打つのは面倒ですから、これ...
ただし、SKKの辞書形式では「;」はアノテーションを示す区切...
下記に例を示します。私はこれをSKK-JISYO.ucscompという名前...
;; -*- mode: fundamental; coding: euc-jisx0213 -*-
;;
;; okuri-ari entries.
;; okuri-nasi entries.
nga /(concat "か゚\073")/(concat "カ゚\073")/
nge /(concat "け゚\073")/(concat "ケ゚\073")/
ngi /(concat "き゚\073")/(concat "キ゚\073")/
ngo /(concat "こ゚\073")/(concat "コ゚\073")/
ngu /(concat "く゚\073")/(concat "ク゚\073")/
が /(concat "か゚\073")/(concat "カ゚\073")/
ぎ /(concat "き゚\073")/(concat "キ゚\073")/
ぐ /(concat "く゚\073")/(concat "ク゚\073")/
げ /(concat "け゚\073")/(concat "ケ゚\073")/
ご /(concat "こ゚\073")/(concat "コ゚\073")/
せ /(concat "セ゚\073")/
つ /(concat "ツ゚\073")/
と /(concat "ト゚\073")/
ぷ /(concat "ㇷ゚\073")/
これによって、アイヌ語用に必要な文字と、鼻濁音用の半濁点...
と、ここまで書いて気付いたのですが、環境によっては「...
終了行:
[[Rの備忘録]]
たとえば "あ" の UTF-8 での文字コードは
> charToRaw("あ")
[1] e3 81 82
なのですが,Unicode では
> library(Unicode)
> as.u_char(utf8ToInt("あ" ))
[1] U+3042
です.
Windows環境では CP932 コードなので
> charToRaw("あ")
[1] 82 a0
> as.u_char(utf8ToInt(iconv("あ", to= "UTF-8")))
[1] U+3042
合成文字の場合
#ref(nchar2.png)
この変換規則は,[[ここ:http://hp.vector.co.jp/authors/VA0...
----------------------
UCS-2(Universal Character Set coded in 2 octets)は2バ...
UCS-2からUTF-8の変換表
UCS-2 ビット列 第1バイト 第2バイト 第3バイト
U+0000...U+007F 00000000-0xxxxxxx 0xxxxxxx なし なし
U+0080...U+07FF 00000xxx-xxyyyyyy 110xxxxx 10yyyyyy なし
U+0800...U+FFFF xxxxyyyy-yyzzzzzz 1110xxxx 10yyyyyy 10zz...
例として、上記の表から、”あ”と言う文字を変換します。Unico...
「0011 0000 0100 0010」
となり、表を参考にしてxyzに分けると、
「xxxx=0011、yyyyyy=000001、zzzzzz=000010」
バイト単位に組み立てます。
第1バイト=11100011 HEX表記でE3
第2バイト=10000001 HEX表記で81
第3バイト=10000010 HEX表記で82
UTF−8で”あ”の文字コードはE38182です。
--------
関連して,[[ここ:http://yanok.net/dist/jis2004unicodeskk....
に面白い記事があったので,引用させていただきます.
JIS X 0213の文字のUnicode合成表現のためのSKK辞書
これは何か?
仮名漢字変換プログラムSKKのための辞書ですが、少々特殊な目...
JIS X 0213の文字には、Unicodeの符号化を施すと結合文字を使...
例えば、鼻濁音を表す「か゚」という文字(JISの面区点...
なぜ・どういうときに必要なのか?
簡単にいうと、Emacs 21/22 + Mule-UCS + SKKの環境で、アイ...
EmacsとSKKを使うと、JIS X 0213の全ての文字を自由に扱うこ...
しかし、UTF-8で保存しようとした場合に、Mule-UCSを使うと問...
そこで、Unicodeで必要な合成の表現を文字入力の段階で生成し...
結合文字が表示や処理上どう扱われるかは実装によって対応が...
辞書ファイル
辞書ファイルは下記リンク先にあります。EUC-JIS-2004 (EUC-J...
[[SKK-JISYO.ucscomp:http://yanok.net/dist/SKK-JISYO.ucsco...
---------
さらに関連して,[[ここ:http://yanok.net/yanok/mt-search.c...
Mule-UCSでは、JIS X 0213の文字のうちUnicodeで表現する際に...
そこでどうすればいいかというと、仕方ないので結合文字はHTM...
文字参照で表すといっても、手で打つのは面倒ですから、これ...
ただし、SKKの辞書形式では「;」はアノテーションを示す区切...
下記に例を示します。私はこれをSKK-JISYO.ucscompという名前...
;; -*- mode: fundamental; coding: euc-jisx0213 -*-
;;
;; okuri-ari entries.
;; okuri-nasi entries.
nga /(concat "か゚\073")/(concat "カ゚\073")/
nge /(concat "け゚\073")/(concat "ケ゚\073")/
ngi /(concat "き゚\073")/(concat "キ゚\073")/
ngo /(concat "こ゚\073")/(concat "コ゚\073")/
ngu /(concat "く゚\073")/(concat "ク゚\073")/
が /(concat "か゚\073")/(concat "カ゚\073")/
ぎ /(concat "き゚\073")/(concat "キ゚\073")/
ぐ /(concat "く゚\073")/(concat "ク゚\073")/
げ /(concat "け゚\073")/(concat "ケ゚\073")/
ご /(concat "こ゚\073")/(concat "コ゚\073")/
せ /(concat "セ゚\073")/
つ /(concat "ツ゚\073")/
と /(concat "ト゚\073")/
ぷ /(concat "ㇷ゚\073")/
これによって、アイヌ語用に必要な文字と、鼻濁音用の半濁点...
と、ここまで書いて気付いたのですが、環境によっては「...
ページ名: