Octoparse正規表現ツール
フォローする正規表現(RegExp)は、文字列の集合を一つの文字列で表現する方法の一つです。 任意の文字列をRegExpに変換できるため、RegExpはテキストのパターンマッチングおよび「検索と置換」機能を実行できます。
ここ
で正規表現の基本知識を知ることができます。

一、Octoparse正規表現ツールとは何ですか
Octoparse正規表現ツールは、さまざまな条件を設定して正規表現を自動的に生成する便利な方法を提供する組み込みツールです。正規表現構文の作成方法についてほとんど知らない場合、Octoparse正規表現ツールは特に役立ちます。
二、Octoparseには、正規表現ツールにアクセスする2つの方法があります。
方法1:「抽出データを再フォーマットする」-RegExツールを試す
1)カスタマイズしたいデータフィールドを選択して、したの
ボタンをクリックします。


2)「抽出データを再フォーマットする」をクリックします。

3)「ステップを追加する」をクリックて、「正規表現で置き換得る」または「正規表現でマッチする」をクリックします。

- 「正規表現で置き換得る」
- 「正規表現でマッチする」
方法2:サイドバーメニュー-正規表現ツール
・正規表現ツールをクリックします。

三、正規表現ツールのメインインターフェイス
正規表現ツールのメインインターフェイスは、4つの部分で構成されています。

1)ソーステキスト
再フォーマットオプション内で正規表現ツールを開くと、抽出されたテキスト文字列がここに表示されます。
サイドバーメニューからクリックする場合は、入力または貼り付けにより、文字列をソーステキストに直接入力する必要があります。
2) 自動生成/参考文献/サンプル
「自動生成」タブには、さまざまなオプションのチェックボックスがあります。これらのボックスをチェックし、ソーステキストのいくつかのパラメータを入力して、必要な正規表現を自動的に生成できます。
「参考文献」タブをクリックしてW3Schoolsの正規表現のチュートリアルにアクセスすることができます。
「サンプル」タブをクリックしてW3Schoolsの例を確認することもできます。
3)正規表現
「自動生成」でパラメータを入力して「生成する」をクリックすれば、「正規表現」ボックスで構文が自動的に生成されます。
すべてマッチしたい場合は、「正規表現」で「すべてマッチする」をオンにします。 次に、「マッチする」ボタンをクリックして、ターゲットテキストを見つけたかどかを確認します。
4)マッチ結果
「マッチする」ボタンをクリックしてターゲットテキストが表示されます。
四、正規表現ツールの使い方
3つのステップだけで正規表現ツールを簡単に利用できます。
1つの例を挙げながら、説明します。
例えば、以下の文字から、最初目の価格「18,306」を抽出するとしましょう。
「スカイチケット1 泊の合計1 泊の合計額(税、諸費用込み)1 泊の合計額(税、諸費用込み)滞在期間の合計額(税、諸費用込み)¥18,306¥18,306¥18,306¥18,306」
ステップ1:ソーステキストから必要なパラメーターを入力します。

「自動生成」ボックスに5つのオプションがあります。
「で始める」/「で終わる」
ボックスに入力した文字を含めないでその文字からまたはその文字までの内容を抽出します。
「を含めて始める」/「を含めて終わる」
ボックスに入力した文字を含めてその文字からまたはその文字までの内容を抽出します。
「を含む」
入力した文字を含む内容を抽出します。
ステップ2:正規表現を生成する
「自動生成」ボックスに必要なパラメータを入力してから、「生成する」ボタンをクリックします。
ここでは最初目の価格「18,306」を抽出しますので、「で始める」ボックスに「)¥」、「で終わる」ボックスに「¥」を貼り付けます。

ステップ3:正規表現を適用する
正規表現ボックスに構文ができましたら、「マッチする」をクリックします。
「マッチ結果」ボックスに抽出したい内容であれば、「適用する」をクリックすれば、ターゲットテキストを抽出することができます。
