2.3.4 訳者をランキングする 

集合知プログラミング2章

概要

 閲覧数:1423  投稿日:2016-01-01  更新日:2016-02-18  

自分の好みに最も似ている映画の評者を探す
・Tobyに似ているユーザーをarrayで返す

書籍からの変更点
・sim_distance関数の最後の行
return 1/(1 + sum_of_squares)

return 1/(1 + sqrt(sum_of_squares))

リンク先からの変更点
・'Michael Phillips' の 'The Night Listener' 評価を 3.0 から 4.0 へ変更


コード

$critics = array( 
  'Lisa Rose' => array( 
    'Lady in the Water' => 2.5,
    'Snakes on a Plane' => 3.5,
    'Just My Luck' => 3.0,
    'Superman Returns' => 3.5,
    'You, Me and Dupree' => 2.5,
    'The Night Listener' => 3.0,
  ),
  'Gene Seymour' => array( 
    'Lady in the Water' => 3.0,
    'Snakes on a Plane' => 3.5,
    'Just My Luck' => 1.5,
    'Superman Returns' => 5.0,
    'You, Me and Dupree' => 3.5,
    'The Night Listener' => 3.0,
  ),
  'Michael Phillips' => array( 
    'Lady in the Water' => 2.5,
    'Snakes on a Plane' => 3.0,
    'Superman Returns' => 3.5,
    'The Night Listener' => 4.0,
  ),
  'Claudia Puig' => array( 
    'Snakes on a Plane' => 3.5,
    'Just My Luck' => 3.0,
    'Superman Returns' => 4.0,
    'You, Me and Dupree' => 2.5,
    'The Night Listener' => 4.5,
  ),
  'Mick LaSalle' => array( 
    'Lady in the Water' => 3.0,
    'Snakes on a Plane' => 4.0,
    'Just My Luck' => 2.0,
    'Superman Returns' => 3.0,
    'You, Me and Dupree' => 2.0,
    'The Night Listener' => 3.0,
  ),
  'Jack Matthews' => array( 
    'Lady in the Water' => 3.0,
    'Snakes on a Plane' => 4.0,
    'Superman Returns' => 5.0,
    'You, Me and Dupree' => 3.5,
    'The Night Listener' => 3.0,
  ),
  'Toby' => array( 
    'Snakes on a Plane' => 4.5,
    'Superman Returns' => 4.0,
    'You, Me and Dupree' => 1.0,
  ),
);


// person1とperson2の距離を基にした類似性スコアを返す
//返り値は0-1の範囲で1に近いほど類似性がある
function sim_distance($prefs, $person1, $person2){

  $si = array();

  //二人とも評価しているアイテムのリストを得る
  foreach($prefs["$person1"] as $item => $val){
    if(isset($prefs["$person2"]["$item"])){
      $si["$item"] = 1;
    }
  }

  if(count($si) == 0){ return 0;}

  //すべての差の平方を足し合わせる
  //上のループでできる
  $sum_of_squares = 0;
  foreach($prefs["$person1"] as $item => $val){
    if(isset($prefs["$person2"]["$item"])){
      $sum_of_squares += pow( ( $prefs["$person1"]["$item"] - $prefs["$person2"]["$item"]),2);    }
  }

  return 1/(1 + sqrt($sum_of_squares));

}


//P1とP2のピアソン相関係数を返す。
function sim_pearson($prefs,$p1,$p2){

  //両者が互いに評価しているアイテムのリストを取得
  $si = array();
  foreach($prefs["$p1"] as $item => $val){
    if(isset($prefs["$p2"]["$item"])){
      $si["$item"] = 1;
    }
  }

  //要素の数を調べる。
  $n = count($si);

  //すべての嗜好,平方,積を合計する

  //嗜好の合計
  $sum1 = 0;
  $sum2 = 0;

  //平方の合計
  $sum1Sq = 0;
  $sum2Sq = 0;

  //積の合計
  $pSum = 0;

  foreach($si as $item => $val){
    $sum1 += $prefs["$p1"]["$item"];
    $sum2 += $prefs["$p2"]["$item"];
    $sum1Sq += pow($prefs["$p1"]["$item"],2);
    $sum2Sq += pow($prefs["$p2"]["$item"],2);
    $pSum += $prefs["$p1"]["$item"] * $prefs["$p2"]["$item"];
  }

  //ピアソンスコアを計算する
  $num = $pSum - ($sum1 * $sum2 / $n);
  $den = sqrt(($sum1Sq - pow($sum1,2) / $n) * ($sum2Sq - pow($sum2,2) / $n));

  if($den == 0){ return 0;}

  $r = $num / $den;
  return $r;
}

//ディクショナリprefsからpersonにもっともマッチするものたちを返す
//結果の数と類似性関数はオプションのパラメータ
function topMatches($prefs, $person, $n=5, $similarity="sim_pearson"){

  $scores = array();
  foreach($prefs as $other => $list){
    if($other != $person){
      switch($similarity){
        case "sim_distance":
          $scores[] = array(sim_distance($prefs,$person,$other),$other);
          break;
        case "sim_pearson":
          $scores[] = array(sim_pearson($prefs,$person,$other),$other);
          break;
        }
      }
    }
    sort($scores);
    rsort($scores);
    $res = array();
    for($i = 0;$i < $n;$i++){
      $res[] = array_shift($scores);
    }
  return $res;
}

var_dump(topMatches($critics, 'Toby', 3));



結果

array(3) {
  [0]=>
  array(2) {
    [0]=>
    float(0.99124070716193)
    [1]=>
    string(9) "Lisa Rose"
  }
  [1]=>
  array(2) {
    [0]=>
    float(0.9244734516419)
    [1]=>
    string(12) "Mick LaSalle"
  }
  [2]=>
  array(2) {
    [0]=>
    float(0.89340514744156)
    [1]=>
    string(12) "Claudia Puig"
  }
}



タグ


pow 





2.3.2 ピアソン相関によるスコア

2.4 アイテムを推薦する



週間人気ページランキング / 5-2 → 5-8
順位 ページタイトル抜粋 アクセス数
1 配列キー内に「指定文字列が含まれるキー」と「その値」を抽出して、新しい配列を返す | 配列(型) 6
2 8桁の生年月日数字を分解 | 文字列(テキスト処理) 4
3 本日が「第何何曜日」の当日に該当するか、を判定 | 日付および時刻関連 3
3 PHPで最後の「指定区切り文字」より後ろを取得 | 配列(型) 3
3 現在WebページのURLパスを第2階層まで取得 | パス 3
3 配列の内容(ひらがな)を、読み(あ行~わ行)で分け、新たな配列へ格納 | 配列(型) 3
4 array_count_values / 配列の要素が持つ値の出現回数をカウント | 配列(型) 2
4 2章(集合知プログラミング) カテゴリー 2
4 指定文字列より前を取得 | 文字列(テキスト処理) 2
4 配列の要素を置換して結果を配列で返す array_replace() | 配列(型) 2
4 URLから、トップページ(index.html)判定 | ルーティング 2
5 土日判定 | 日付および時刻関連 1
5 対象文字列へ対して、一致したすべての文字列を置換する標準関数 / str_replace | 文字列(テキスト処理) 1
5 stdClassで、指摘キー毎の数をカウント後、新たなキー「count」として追加 / array_count_values(array_column()) | ビルトインクラス(クラス) 1
5 日付文字列を比較して、年月日が異なる場合は年月日を、同一年の場合は月日を返す、同一年月の場合は月日を返す。※1日を厳密に直近24時間以内で判定 | 日付および時刻関連 1
5 多次元配列の「一次元要素数」もしくは「全次元要素数」をカウント | 多次元配列(型) 1
5 平均値、分散、標準偏差を求める | 統計 1
5 文字列(テキスト処理) カテゴリー 1
5 配列のキーを取得する array_keys() | 配列(型) 1
5 投稿日時をTwitterのように「★分前」「★時間前」という文字列変換するユーザ定義PHP関数 | 日付および時刻関連 1
2025/5/9 1:02 更新