正規表現に詳しくないなら、その使い方やいつか使うのかをわかりませんね。このチュートリアルでは簡単に説明いたします。
1. 文字列から必要な情報を取得します(正規表現で一致する文字列を取得)
必要なデータが固定文字列で始まる/終わる場合、Octoparse 正規表現ツールを使うと簡単に取得できます。以下は、最も一般的な2つの使用例です。
- HTMLからURLsを取得する
ご存知のように、ほとんどのURLはよく似ています。 一般的なURLは、「https」で始まり、「.com」または「.html」で終わるのですね。また、そのような同じ形式がなくても、同じ文字列があることもあります。
- HTMLから「隠された」情報を取得する
同じ方法を使用して、星の評価など、「隠れた」HTMLデータを取得できます。ページ上の要素のHTMLを抽出すると、要素内に含まれるHTMLマークアップを取得します。データの共通点を把握し、最も困難な作業(正規表現の作成)をOctoparse 正規表現ツールに任せることができます。
2. 長いテキストから不要な情報を削除します(正規表現による文字列置換)
- 不要なスペースを削除する
ほとんどの場合、正規表現の作成作業をOctoparse に任せることができます。ただし、略記文字を直接入力することで、より簡単で高速になることもあります。以下は、Octoparseで最も頻繁に使用される文字です。
正規表現 |
意味 |
\s |
スペース、タブ、フォームフィード、ラインフィード、およびその他のUnicodeスペースを含む単一の空白文字にマッチします。 |
\S |
空白以外の単一の文字にマッチします。 |
\t |
水平タブにマッチします。 |
\n |
改行にマッチします。 |
正規表現の詳細については、以下の記事を参照してください。