HTMLのソースから、リンク等に使われているURLだけを抽出したい時の正規表現についてです。
HTML内のURLは、主に半角のダブルクォーテーション(”)で囲まれているので、「http(s):// から ダブルクォーテーション(”) までを選択する」という正規表現を使うことで綺麗にURLだけを選択できます。
実際に使用する正規表現は以下のようになります。
https?://[^\"]*
httpsのみを対象とする場合は、?をなくして、
https://[^\"]*
と書けます。
[^\”]* については以前括弧内を抽出する正規表現を紹介したときにも登場しましたが、このように書くとダブルクォーテーションが登場する前に現れる文字を全て選択できます。
具体例を以下に示します。動作確認に用いているソフトは「Sublime Text 3」です。
以上、URLのみを抽出する正規表現でした。