正規表現(RegExp)は、文字列内で文字の組み合わせを照合するために用いられるパターンです。「正規表現」を利用すれば、長文中から簡単に見つけたい文字列を検索することができます。
任意の文字列を正規表現に検索できるため、テキストから部分文字列を探すとか、部分的に文字列を置き換えるとか、目的の文字列かどうか判定する機能も実行できます。
ここ で正規表現の基本知識を知ることができます。
Octoparse正規表現ツールとは?
Octoparse正規表現ツールは、さまざまな条件を設定して、正規表現を自動的に生成するツールです。正規表現の作成方法についてほとんど知らない場合、Octoparse正規表現ツールを試してみてください。
正規表現ツールにアクセス方法
方法1:「データを再フォーマット」→正規表現ツールを試す
カスタマイズしたい「データフィールド」の右上のボタンをクリックします。
「データを再フォーマット」をクリックします。
「ステップを追加」をクリックして、「正規表現による置換」または「正規表現によるマッチング」をクリックします。
「正規表現による置換」
「正規表現によるマッチング」
方法2:サイドバーメニュー→正規表現ジェネレーター
・サイドバーメニューの下の「ツール」ボタンをクリックして、正規表現ジェネレーターをクリックします。
正規表現ツールのメインインターフェース
正規表現ツールのメインインターフェースは、4つの部分で構成されています。
1)元の文字列
「データを再フォーマット」オプション内で正規表現ツールを開くと、抽出されたテキスト文字列がここに表示されます。
サイドバーメニューからクリックする場合は、入力または貼り付けにより、文字列をソーステキストに直接入力する必要があります。
2)自動生成/参考記事/サンプル
自動生成
で始める、で終わる
入力文字列の開始(終端)位置をマッチングします(文字列自体は含みません)。
を含めて始める、を含めて終わる
入力文字列の開始(終端)位置をマッチングします(文字列自体も含みます)。
を含める
文字列を含む内容を抽出します。
参考記事
W3Schoolsの正規表現のチュートリアルにアクセスします。
サンプル
W3Schoolsの例を確認します。
3)正規表現
「自動生成」でパラメータを入力して「生成」をクリックすれば、「正規表現」ボックスで構文が自動的に生成されます。
すべてのテキストにマッチしたい場合は、「正規表現」で「すべてにマッチ」をオンにします。 次に、「マッチング」ボタンをクリックして、左の「マッチした文字列」でターゲットテキストを見つけたかどかを確認します。
4)マッチした文字列
右下の「マッチング」ボタンをクリックしてターゲットテキストが表示されます。
例
目標:パラグラフから、住所、電話、FAX情報をマッチします。
ステップ1:パラグラフのソースコードをキャプチャする
ステップ2:改行記号を削除する
処理するテキストが複数行にわたる場合は、まず改行文字を削除する必要があります。
正規表現:
\n+
3つのフィールドを収集する必要があるため、このステップの後で、フィールドを2回複製し、名前を変更します。
ステップ3:二つの固定値の間の値をマッチングする
住所の場合
住所情報は <br>TEL.
の前にあるため、生成する正規表現の条件を <br>TEL.
の前にあるすべての文字(<br>TEL.
を含まない)に一致させるように設定します。
電話の場合
電話情報は TEL.
と <br>
の間にあるため、生成する正規表現の条件を2つの固定値の間にある文字(2つの固定値を含まない)に一致させるように設定します。
FAXの場合
現在、Octoparseの正規表現マッチング生成ツールは、テキストの終了位置に直接一致する正規表現を生成することはできません。したがって、まず位置を特定するためのサフィックステキストを追加します。例えば、<SETSUBISHI>
。
現在、FAX番号情報は FAX.
と <SETSUBISHI>
の間にあります。したがって、生成する正規表現の条件を、2つの固定値の間にある文字(2つの固定値を含まない)に一致させるように設定します。
役立つサイト
regex-vis.comは、正規表現を学び、作成し、テストするためのウェブサイトです。regex-vis.comは、正規表現をグラフに変換するだけでなく、これらのグラフを編集することも可能です。
特徴
正規表現を入力すると、regex-vis.comはそれをグラフィカルなチャートに変換します。チャートのノードをクリックしてドラッグすることで選択することが可能です。これにより、空のノードを挿入したり、ノードをグループ化したり、量指定子を追加したりすることができます。
regex101.comは、正規表現を学び、作成し、テストするためのウェブサイトです。これは、複雑な正規表現を理解し、作成するための直感的な方法を提供します。
特徴
regex101.comに正規表达式を入力すると、システムはすぐに一致する結果をハイライト表示します。また、正規表現の詳細な説明を表示し、その動作原理をより良く理解することができます。
他の特徴には以下のものがあります:
Python、JavaScript、PHP、Golangなど、さまざまな正規表現言語をサポート。
テスト文字列機能を提供し、正規表現のマッチング結果をすぐに確認できます。
正規表現ライブラリを提供し、さまざまな正規表現を見つけて共有することができます。
正規表現のチュートリアルとFAQを提供し、正規表現の学習と理解を支援します。