URL抽出

テキスト処理PCRE — 正規表現 (Perl 互換)

概要

 閲覧数:2171  投稿日:2011-01-29  更新日:2013-08-24  

・正規表現の最短マッチを利用して、URL抽出

・任意の文字列の中から、開始語と終了語を指定して、文字列を抜き出す
・○○.*?△△
・ここでの「.*?」の意味は、○○で始まり、△△で終わる文字列の最短一致


<例>
任意の文字列/hoge/piyo/puyo/pipipi.html任意の文字列

<やりたいこと>
/hoge/で始まり、.htmlで終わる文字列を抜き出したい。


<正規表現>
/hoge/.*?\.html

. ピリオド
改行を除く任意の一文字を表す

* アスタリスク
直前の文字列やメタ文字の「0回以上の繰り返し」を表す

? クエスチョン
⇒直前の文字列やメタ文字の「0回もしくは1回の出現」を表す。
⇒最短一致記号。
※使われる場所によって、意味が異なる。

「.*」、「.+」
限りなく連続した文字を表す

「*?」
「0回以上のくり返し(最短一致)」

「*」
「0回以上のくり返し(最長一致)」



コード

$pattern="|/hoge/.*?\.html|";

$str=<<<eof
任意の文字列/hoge/piyo/puyo/pipipi.html任意の文字列
任意の文字列/hoge/puko/pu.html任意の文字列
任意の文字列/hoge/pa/pa.html任意の文字列
eof;

preg_match_all($pattern,$str,$match);
print_r($match);



結果

Array
(
    [0] => Array
        (
            [0] => /hoge/piyo/puyo/pipipi.html
            [1] => /hoge/puko/pu.html
            [2] => /hoge/pa/pa.html
        )

)



タグ


preg_match_all 



郵便番号だけを許可



週間人気ページランキング / 6-17 → 6-23
順位 ページタイトル抜粋 アクセス数
1 PHPコード 23
2 文字列を「複数の区切り文字」で配列へ変換 / preg_split使用案。採用 | 文字列(テキスト処理) 4
3 文字列の改行文字を削除 | 文字列(テキスト処理) 3
3 配列キー内に「指定文字列が含まれるキー」と「その値」を抽出して、新しい配列を返す | 配列(型) 3
3 指定文字が2回目に出現する位置以降の文字列を取得 | 文字列(テキスト処理) 3
3 引数(複数)に指定したデータを、予め指定した文字形式(フォーマット)へ変換 | 文字列(テキスト処理) 3
3 全ての配列要素へ対して順番に処理を実施 | 配列(型) 3
3 配列要素を置換 | 配列(型) 3
3 「指定配列要素が配列内で重複している数」をカウント後、配列要素として追加 | 配列(型) 3
3 指定文字列より前を取得 | 文字列(テキスト処理) 3
3 array_map()第3引数 / 「2つの配列の要素数同士を順番に掛け合わせた配列」を返す | 配列(型) 3
3 配列要素を、文字列連結して表示(元配列を上書) … foreach文+implode | 配列(型) 3
4 Smartyのテンプレートにincludeしたファイルを表示 | Smarty(テンプレートエンジン) 2
4 複数テーブルロック | MySQL 2
4 指定文字列を削除 | 文字列(テキスト処理) 2
4 多次元配列で「二次元目にある指定値のカウント数 +1 」 を返す | 配列(型) 2
4 'xxxx_数字'キーの数だけ、数字毎に分けて二次元配列へ格納(キーのサフィックスは削除する) / array_walk | 配列(型) 2
4 インスタンスオブジェクト経由で、メンバ(プロパティ・メソッド)へアクセス … PHP5 | クラス 2
4 配列キーを置換して返すユーザ定義関数 | 配列(型) 2
4 現在のセッション名を取得、表示 | セッション 2
2026/6/24 5:05 更新