URL抽出 | 「PCRE — 正規表現 (Perl 互換)(テキスト処理)」カテゴリー

概要

　閲覧数:2132 　投稿日:2011-01-29 　更新日:2013-08-24 　

・正規表現の最短マッチを利用して、URL抽出

・任意の文字列の中から、開始語と終了語を指定して、文字列を抜き出す
・○○.*?△△
・ここでの「.*?」の意味は、○○で始まり、△△で終わる文字列の最短一致

＜例＞
任意の文字列/hoge/piyo/puyo/pipipi.html任意の文字列

＜やりたいこと＞
/hoge/で始まり、.htmlで終わる文字列を抜き出したい。

＜正規表現＞
/hoge/.*?\.html

.　ピリオド
改行を除く任意の一文字を表す

* アスタリスク
直前の文字列やメタ文字の「0回以上の繰り返し」を表す

? クエスチョン
⇒直前の文字列やメタ文字の「0回もしくは1回の出現」を表す。
⇒最短一致記号。
※使われる場所によって、意味が異なる。

「.*」、「.+」
限りなく連続した文字を表す

「*?」
「0回以上のくり返し(最短一致)」

「*」
「0回以上のくり返し(最長一致)」

コード

$pattern="|/hoge/.*?\.html|";

$str=<<<eof
任意の文字列/hoge/piyo/puyo/pipipi.html任意の文字列
任意の文字列/hoge/puko/pu.html任意の文字列
任意の文字列/hoge/pa/pa.html任意の文字列
eof;

preg_match_all($pattern,$str,$match);
print_r($match);

結果

Array
(
    [0] => Array
        (
            [0] => /hoge/piyo/puyo/pipipi.html
            [1] => /hoge/puko/pu.html
            [2] => /hoge/pa/pa.html
        )

)

順位	ページタイトル抜粋	％
1	URL抽出	100
2	現在URLのホスト名を取得	33
3	現在WebページのURLパスを第2階層まで取得	21
4	配列内よりランダムに要素(例えば画像URL)を取得	20
5	URLから、トップページ(index.html)判定	19
6	ファイル出力	18
7	マークダウンで書かれたURLを(エスケープ処理するのではなく)削除する	15
8	エラーログファイル出力	13
9	配列の中より、「ランダム」かつ「重複することなく」複数の値を抽出	11
10	変数内容ファイル出力デバッグ	11
11	特定のHTMLタグのみ表示を許可	10
12	is_intは、「int」がTRUE。「float ／ numeric string ／ string」はFALSE	10
13	realpath(__DIR__)	9
14	配列キー内に「指定文字列が含まれるキー」と「その値」を抽出して、新しい配列を返す	9
15	is_numericは、「int ／ float ／ numeric string」がTRUE。「string」はFALSE	9
16	ctype_digitは、「numeric string」がTRUE。「int ／ float ／ string」はFALSE	9
17	XML version指定エラー対策	9
18	16進数カラーコードをRGBA形式へ変更	8
19	デバッグしたい変数内容をファイルへ追記出力	8
20	var_dump内容をテキストファイル出力	8
	2025/12/30 0:07 更新

順位	ページタイトル抜粋	アクセス数
1	日付文字列を比較して、年月日が異なる場合は年月日を、同一年の場合は月日を返す、同一年月の場合は月日を返す。※1日を厳密に直近24時間以内で判定 \| 日付および時刻関連	6
2	現在WebページのURLパスを第2階層まで取得 \| パス	3
2	「半角スペースもしくは全角スペースで区切られた文字列」先頭に指定文字列を付与 \| 文字列(テキスト処理)	3
2	isset \| タグ毎エントリー一覧	3
3	URLから、トップページ(index.html)判定 \| ルーティング	2
3	PHPで最後の「指定区切り文字」より後ろを取得 \| 配列(型)	2
3	配列キー内に「指定文字列が含まれるキー」と「その値」を抽出して、新しい配列を返す \| 配列(型)	2
3	セッションカテゴリー	2
3	文字列に含まれるすべての半角空白と全角空白を削除 \| テキスト処理	2
3	array_walk第3引数を指定して、コールバック関数へ第3引数を渡す \| 配列(型)	2
3	配列の内容（ひらがな）を、読み（あ行～わ行）で分け、新たな配列へ格納 \| 配列(型)	2
3	後ろから3文字削除／「18:00:00」→「18:00」 \| 文字列(テキスト処理)	2
3	指定文字列より前を取得 \| 文字列(テキスト処理)	2
3	配列の空要素を削除(コールバック関数未使用) … array_filter() \| 配列(型)	2
3	多次元配列キーを、多次元配列内にある「特定キーの値」へ変更 \| 多次元配列(型)	2
3	本日が「第何何曜日」の当日に該当するか、を判定 \| 日付および時刻関連	2
3	クロスサイトスクリプティング対策(配列対応) \| エスケープ処理	2
3	平均値、分散、標準偏差を求める \| 統計	2
3	(データベースなどから取得した)多次元配列の値と、一次元配列を比較して、「一致」及び「増減」を返す \| 配列(型)	2
4	配列のキーと値を反転した新しい配列を返す array_flip() \| 配列(型)	1
	2025/12/29 1:02 更新

概要

コード

結果

タグ

ゲスト … 1行コメント投稿