URL抽出

テキスト処理PCRE — 正規表現 (Perl 互換)

概要

 閲覧数:1848  投稿日:2011-01-29  更新日:2013-08-24  

・正規表現の最短マッチを利用して、URL抽出

・任意の文字列の中から、開始語と終了語を指定して、文字列を抜き出す
・○○.*?△△
・ここでの「.*?」の意味は、○○で始まり、△△で終わる文字列の最短一致


<例>
任意の文字列/hoge/piyo/puyo/pipipi.html任意の文字列

<やりたいこと>
/hoge/で始まり、.htmlで終わる文字列を抜き出したい。


<正規表現>
/hoge/.*?\.html

. ピリオド
改行を除く任意の一文字を表す

* アスタリスク
直前の文字列やメタ文字の「0回以上の繰り返し」を表す

? クエスチョン
⇒直前の文字列やメタ文字の「0回もしくは1回の出現」を表す。
⇒最短一致記号。
※使われる場所によって、意味が異なる。

「.*」、「.+」
限りなく連続した文字を表す

「*?」
「0回以上のくり返し(最短一致)」

「*」
「0回以上のくり返し(最長一致)」



コード

$pattern="|/hoge/.*?\.html|";

$str=<<<eof
任意の文字列/hoge/piyo/puyo/pipipi.html任意の文字列
任意の文字列/hoge/puko/pu.html任意の文字列
任意の文字列/hoge/pa/pa.html任意の文字列
eof;

preg_match_all($pattern,$str,$match);
print_r($match);



結果

Array
(
    [0] => Array
        (
            [0] => /hoge/piyo/puyo/pipipi.html
            [1] => /hoge/puko/pu.html
            [2] => /hoge/pa/pa.html
        )

)



タグ


preg_match_all 



郵便番号だけを許可



週間人気ページランキング / 2-7 → 2-13
順位 ページタイトル抜粋 アクセス数
1 PHPで最後の「指定区切り文字」より後ろを取得 | 配列(型) 8
1 URLから、トップページ(index.html)判定 | ルーティング 8
2 後ろから3文字削除 / 「18:00:00」→「18:00」 | 文字列(テキスト処理) 6
3 指定文字が2回目に出現する位置以降の文字列を取得 | 文字列(テキスト処理) 5
3 本日が「第何何曜日」の当日に該当するか、を判定 | 日付および時刻関連 5
4 配列キー内に「指定文字列が含まれるキー」と「その値」を抽出して、新しい配列を返す | 配列(型) 4
5 現在WebページのURLパスを第2階層まで取得 | パス 3
5 「半角スペースもしくは全角スペースで区切られた文字列」先頭に指定文字列を付与 | 文字列(テキスト処理) 3
6 (データベースなどから取得した)多次元配列の値と、一次元配列を比較して、「一致」及び「増減」を返す | 配列(型) 2
6 指定文字列より前を取得 | 文字列(テキスト処理) 2
6 平均値、分散、標準偏差、学力偏差値を求める | 統計 2
7 switch文判定 … 「in_array」「array_keys」 | 配列(型) 1
7 引数(単数)に指定したデータを、予め指定した文字形式(フォーマット)へ変換 | 文字列(テキスト処理) 1
7 対象文字列の内、「最初の指定文字列以前」と「それ以降の文字列」を取得する | 文字列(テキスト処理) 1
7 2.3.1 ユークリッド距離によるスコア | 2章(集合知プログラミング) 1
7 特定のHTMLタグのみ(aタグは除く)表示を許可 | エスケープ処理 1
7 foreach内で一度「true」判定された後、次回以降「false」にする仕組みがないと、foreachの度に「true」「false」判定することができない | 条件分岐 1
7 24時間以降の時刻を表示 / "02:30" → "26:30" | 日付および時刻関連 1
7 標準偏差を求める | 統計 1
7 getdate | タグ毎エントリー一覧 1
2025/2/14 1:02 更新