2.3.1 ユークリッド距離によるスコア

集合知プログラミング2章

ユークリッド距離とは?

 閲覧数:2469  投稿日:2015-12-30  更新日:2016-01-02  

差の2乗和の平方根

ユークリッド距離によるスコアとは?
・ユークリッド距離を基にした類似性スコア
・類似性スコアを求めて後で重み付けに使うためにこれに1を加えて逆数を取ったものを使う
・1を加えて、逆数を取ることで0-1の範囲に収まる
・差が0なら1になり後は徐々に差がつくたびに0に近づく
・こうすることで常に0から1の間の値を返すようになり、類似性が高ければ1に近くなる

実装
・評者二人の共通項を抜き出す
・共通項が無ければ類似度0を返す
・評者二人の共通項に対してユークリッド距離を計算し、総和に1を加えたものの逆数をとり、これを類似度として返す

ユークリッド距離だと差の二乗和の平方根をとったものなので、戻り値はreturn 1/(1 + sqrt($sum_of_squares));

書籍からの変更点
・sim_distance関数の最後の行
return 1/(1 + sum_of_squares)

return 1/(1 + sqrt(sum_of_squares))

リンク先からの変更点
・'Michael Phillips' の 'The Night Listener' 評価を 3.0 から 4.0 へ変更


コード

$critics = array( 
  'Lisa Rose' => array( 
    'Lady in the Water' => 2.5,
    'Snakes on a Plane' => 3.5,
    'Just My Luck' => 3.0,
    'Superman Returns' => 3.5,
    'You, Me and Dupree' => 2.5,
    'The Night Listener' => 3.0,
  ),
  'Gene Seymour' => array( 
    'Lady in the Water' => 3.0,
    'Snakes on a Plane' => 3.5,
    'Just My Luck' => 1.5,
    'Superman Returns' => 5.0,
    'You, Me and Dupree' => 3.5,
    'The Night Listener' => 3.0,
  ),
  'Michael Phillips' => array( 
    'Lady in the Water' => 2.5,
    'Snakes on a Plane' => 3.0,
    'Superman Returns' => 3.5,
    'The Night Listener' => 4.0,
  ),
  'Claudia Puig' => array( 
    'Snakes on a Plane' => 3.5,
    'Just My Luck' => 3.0,
    'Superman Returns' => 4.0,
    'You, Me and Dupree' => 2.5,
    'The Night Listener' => 4.5,
  ),
  'Mick LaSalle' => array( 
    'Lady in the Water' => 3.0,
    'Snakes on a Plane' => 4.0,
    'Just My Luck' => 2.0,
    'Superman Returns' => 3.0,
    'You, Me and Dupree' => 2.0,
    'The Night Listener' => 3.0,
  ),
  'Jack Matthews' => array( 
    'Lady in the Water' => 3.0,
    'Snakes on a Plane' => 4.0,
    'Superman Returns' => 5.0,
    'You, Me and Dupree' => 3.5,
    'The Night Listener' => 3.0,
  ),
  'Toby' => array( 
    'Snakes on a Plane' => 4.5,
    'Superman Returns' => 4.0,
    'You, Me and Dupree' => 1.0,
  ),
);


// person1とperson2の距離を基にした類似性スコアを返す
//返り値は0-1の範囲で1に近いほど類似性がある
function sim_distance($prefs, $person1, $person2){

  $si = array();

  //二人とも評価しているアイテムのリストを得る
  foreach($prefs["$person1"] as $item => $val){
    if(isset($prefs["$person2"]["$item"])){
      $si["$item"] = 1;
    }
  }

  if(count($si) == 0){ return 0;}

  //すべての差の平方を足し合わせる
  //上のループでできる
  $sum_of_squares = 0;
  foreach($prefs["$person1"] as $item => $val){
    if(isset($prefs["$person2"]["$item"])){
      $sum_of_squares += pow( ( $prefs["$person1"]["$item"] - $prefs["$person2"]["$item"]),2);    }
  }

  return 1/(1 + sqrt($sum_of_squares));

}


var_dump( sim_distance($critics,'Lisa Rose','Gene Seymour') ); //float(0.29429805508555)
var_dump( sim_distance($critics,'Lisa Rose','Lisa Rose') ); //float(1)
var_dump( sim_distance($critics,'Lisa Rose','Toby') ); //float(0.34833147735479)



結果

float(0.29429805508555)
float(1)
float(0.34833147735479)



タグ


pow 





ユークリッド距離を求める

2.3.2 ピアソン相関によるスコア



週間人気ページランキング / 10-17 → 10-23
順位 ページタイトル抜粋 アクセス数
1 URLから、トップページ(index.html)判定 | ルーティング 8
2 配列の内容(ひらがな)を、読み(あ行~わ行)で分け、新たな配列へ格納 | 配列(型) 4
3 配列内容を、foreachでテーブル表示 | テーブル 3
3 配列キー内に「指定文字列が含まれるキー」と「その値」を抽出して、新しい配列を返す | 配列(型) 3
3 2.4 アイテムを推薦する | 2章(集合知プログラミング) 3
4 現在WebページのURLパスを第2階層まで取得 | パス 2
4 dateとgmdateの比較 | 日付および時刻関連 2
4 指定文字列より前を取得 | 文字列(テキスト処理) 2
4 PHPで最後の「指定区切り文字」より後ろを取得 | 配列(型) 2
4 range( ) を使用して日付期間を配列生成 | 日付および時刻関連 2
4 後ろから3文字削除 / 「18:00:00」→「18:00」 | 文字列(テキスト処理) 2
4 日付表示(フォーマット指定) | 日付および時刻関連 2
4 特定のHTMLタグのみ表示を許可 | エスケープ処理 2
4 平均値、分散、標準偏差を求める | 統計 2
5 8桁の生年月日数字から、年齢を計算 | 日付および時刻関連 1
5 foreach内で一度「true」判定された後、次回以降「false」にする仕組みがないと、foreachの度に「true」「false」判定することができない | 条件分岐 1
5 変数名の一部だけを可変にして、可変値を格納 | 可変変数(変数) 1
5 配列の空要素を削除 / array_diff()で空配列と比較し配列の差分を返す | 配列(型) 1
5 'xxxx_数字'キーの数だけ、数字毎に分けて二次元配列へ格納(キーのサフィックスは削除する) / array_walk | 配列(型) 1
5 ファイル名を取得し、.拡張子部分を削除し、タイトルに表示 | ファイルシステム 1
2025/10/24 1:02 更新