取得したデータを再フォーマットする
フォローするWebデータ内容を抽出をする時、Webページの構造により、抽出した一部のデータは欲しい形と違うという可能性があります。そのため、Octoparseは10つのデータ再フォーマットオプションを提供し、抽出したデータを処理できます。
Octoparseでこれらの機能に使うには、ステップが3つあります。
1. 再フォーマットしたいデータフィールドの右上のボタンをクリックします。
2.「データを再フォーマット」を選択します。
3.「ステップを追加」をクリックして、データ再フォーマットオプションを選択します。
その前に、「string(文字列)」という用語を説明します。
プログラミングで、「string(文字列)」は基本的に文字、数字、記号、句読点などの文字の集合を指します。例えば、「 」(中はスペース)も文字列です。「Octoparse」も文字列です。「Hello 2 *% World!」も文字列です。
文字列には文字がない可能性もあります。つまり、文字のない文字列は空です。したがって、単語を空の文字列で置き換えると、単語を削除します。
Octoparseのデータ再フォーマットオプションの機能説明には「string」という単語がよく見られます。「string」を見ると、そのオプションで文字、単語、数字、スペース、句読点などのデータに対応できることがわかります。
1. 置換
機能:抽出したデータ内の特定の文字列を新しい文字列に置き換えます。
2. 正規表現による置換
機能:正規表現を使って、抽出したデータ内の特定の文字列を新しい文字列に置き換えます。
正規表現の詳細は、 W3schools をご覧ください。
3. 正規表現によるマッチング
機能:正規表現を使って、抽出したデータから指定する文字列を取得します。
正規表現の詳細は、 W3schools をご覧ください。
Octoparseには正規表現を自動生成できる正規表現ツールもあります。正規表現ツールを使って正規表現を生成する方法を見てみましょう。
例えば、抽出した外部HTMLから星評価の数値を取得します。
· 「正規表現ツールを試す」をクリックします。
· マッチ基準を入力します: で始める「aria-label=" 」 で終わる「"」
· 「生成」をクリックして正規表現を生成します。
· 「マッチング」をクリックして、マッチした文字列を確認します。
· 「応用」をクリックします。
· 「保存」をクリックして設定を保存します。
4. スペースの削除
機能:抽出したデータの最初または最後から不要なスペースを削除します。
データの中のスペースを削除する場合は、置換 または 正規表現による置換 を使ってください。
5. 接頭辞の追加
機能:抽出したデータの先頭に文字列を追加します。
6. 接尾辞の追加
機能:抽出したデータの最後に文字列を追加します。
7. 日時のフォーマット
機能:抽出した日付/時刻を15種類の内蔵フォーマットに、またはカスタマイズされたフォーマットに変更します。
8.タイムスタンプの変換


9. タイムゾーン時刻変換

10. HTML
機能:HTMLに記述して直接表示することが出来ない特殊文字を自動変換します。たとえば、「>」を 「>」に変換し、 「 」をスペースに変換します。
関連記事: