Webスクレイピングスのプロジェクトでは、一部のデータは欲しい形式ではないかもしれません。ですから、Octoparseは8つのデータ再フォーマットオプションを提供し、抽出したデータを処理できます。
Octoparseでこれらの機能に使うには、ステップが5つあります。
1. 再フォーマットするデータを選択します。
2. をクリックして、データフィールドをカスタマイズします。
3.「抽出データを再フォーマットする」を選択します。
4.「ステップを追加する」をクリックします。
5. データ再フォーマットオプションを選択します。
再フォーマットオプションを紹介する前に、「string(文字列)」という用語を説明します。
プログラミングでは、「string(文字列)」は基本的に文字、数字、記号、句読点などの文字の集合を指します。例えば、「 」(スペース)は文字列です。「Octoparse」は文字列です。「Hello 2 *% World!」も文字列です。文字列には文字がない可能性もあります。つまり、文字のない文字列は空です。単語を空の文字列で置き換えると、単語を削除します。
Octoparseのデータ再フォーマットオプションの機能説明には「string」という単語がよく見られます。「string」を見ると、そのオプションで文字、単語、数字、スペース、句読点などのデータに対応できることがわかります。
1. 置き換える
機能:抽出したデータ内の特定の文字列を新しい文字列に置き換えます。
3. 正規表現でマッチする
機能:正規表現を使って、抽出したデータから指定する文字列を取得します。
正規表現の詳細は、 W3schools をご覧ください。
Octoparseには正規表現を自動生成できるRegExツールもあります。RegExツールを使って正規表現を生成する方法を見てみましょう。
例えば、抽出した外部HTMLから星評価の数値を取得します。
· 「RegExツールを試す」をクリックします。
· マッチ基準を入力します: で始める「alt=" 」 で終わる「star rating"」
· 「生成する」をクリックして正規表現を生成します。
· 「マッチする」をクリックして、一致する文字列を選択します。
· 「適用する」をクリックします。
· 「OK」をクリックして設定を保存します。
4. スペースを削除する
機能:抽出したデータの最初または最後から不要なスペースを削除します。
データの中のペースを削除する場合は、置き換える または 正規表現で置き換える を使います。
5. 接頭部を追加する
機能:抽出したデータの先頭に文字列を追加します。
6. 接尾部を追加する
機能:抽出したデータの最後に文字列を追加します。
7. 抽出日時の再フォーマット
機能:抽出した日付/時刻を14類の内蔵フォーマットに、またはカスタマイズされたフォーマットに変更します。
8. HTMLトランスコーディング
機能:特定のHTMLタグをプレーンテキストに自動変換します。たとえば、 ">"を ">"に変換し、 " "をスペースに変換します。
関連記事:
From: https://www.octoparse.jp/tutorial/re-format-data-extracted/