Rでstring_Kernel のバックアップ差分(No.2) - アールメカブ

アールメカブ


Rでstring_Kernel のバックアップ差分(No.2)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[Rの備忘録]]

[[string kernel の作成 その 1  2007 08 18>R_fromOldHtml3_2#yd069bf1]]も参照のこと

Text Classification using String Kernels
Journal of Machine Learning Research 2 (2002) 419-444


二つのアルファベットが隣接する場合に&mathml(\lambda^2); n 離れていれば&mathml(\lambda^(n + 1));  とし、すべてのアルファベットについて数え
上げたアルファベットの隣接関係を二つの文書間で計算するものである。
二つのアルファベットが隣接する場合に&mathml(\lambda^2); とし,n 個離れていれば&mathml(\lambda^(n + 1));  と定め,これをすべてのアルファベットについて数え上げ,二つの文書間で計算するものである。

Lohdi の例からあげる.&mathml(\lambda^2); を簡単にλ2と示す.
 φ(cat) λ2 λ3  λ2  0    0   0    0    0
 φ(car) λ2 0     0     0   0   λ3 λ2  0
 φ(bat) 0   0     λ2  λ2 λ3 0    0    0
 φ(bar) 0   0      0    λ2 0    0   λ2 λ3

ここで K(car,cat) = λ4.つまりcarとcatの2行で,いわば論理積を求めるようなもの.

さらに正規化するならば,まず K(car,car) = K(cat,cat) = 2λ4 + λ6 を求め
 K(car,cat) = λ4/(2λ4 + λ6) = 1/(2 + λ2). 
と正規化される.