正規表現の使い方と利用タイミング
フォローする正規表現に詳しくないなら、その使い方やいつか使うのかをわかりませんね。このチュートリアルでは簡単に説明いたします。
1. 文字列から必要な情報を取得します(正規表現で一致する文字列を取得)
必要なデータが固定文字列で始まる/終わる場合、Octoparse 正規表現ツールを使うと簡単に取得できます。以下は、最も一般的な2つの使用例です。
- HTMLからURLsを取得する
下記の通り、あるWebページは、aタグのhref属性は相対パスのURL(絶対パスのURLではなく)が含まれています。直接にテキストやボタンからリンクを抽出できない場合もあります。URLに関する情報を抽出したい時、相対パスのURLのところをマッチして整理しないと、使えものになりません。
- HTMLから「隠された」情報を取得する
同じ方法を使用して、星の評価など、テキストで表示されていない「隠された」情報を取得できます。ページ上の要素のHTMLを抽出すると、要素内に含まれるHTMLマークアップを取得できます。しかし、抽出されたデータを不要な情報を捨てないと、使えものになりません。データの共通点を把握し、最も複雑な作業(正規表現の作成)をOctoparse 正規表現ツールに任せることができます。
2. 長いテキストから不要な情報を削除します(正規表現による文字列置換)
- 不要なスペースを削除する
一般的な場合、正規表現の作成はOctoparse の正規表現ツールに任せることができます。しかし、略記文字を直接入力することで、より簡単で実現することができます。以下は、Octoparseで最も頻繁に使用される正規表現です。
正規表現 | 意味 |
”^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(.[a-zA-Z0-9_-])+” | メールアドレス |
([1-9]\d*\.?\d*)|(0\.\d*[1-9]) | 小数点を含む数値 |
正規表現の詳細については、以下の記事を参照してください。