HTMLに含まれるURLだけを抽出する正規表現

2017年5月17日(更新: 2017年5月17日)

HTMLのソースから、リンク等に使われているURLだけを抽出したい時の正規表現についてです。

HTML内のURLは、主に半角のダブルクォーテーション(”)で囲まれているので、「http(s):// から ダブルクォーテーション(”) までを選択する」という正規表現を使うことで綺麗にURLだけを選択できます。

実際に使用する正規表現は以下のようになります。

https?://[^\"]*

httpsのみを対象とする場合は、?をなくして、

https://[^\"]*

と書けます。

[^\”]* については以前括弧内を抽出する正規表現を紹介したときにも登場しましたが、このように書くとダブルクォーテーションが登場する前に現れる文字を全て選択できます。

具体例を以下に示します。動作確認に用いているソフトは「Sublime Text 3」です。

httpから始まるURLだけを抽出する正規表現の例

以上、URLのみを抽出する正規表現でした。

コメントを残す

メールアドレスが公開されることはありません。