レッスン3:データフィールドを調整する
フォローする前回では、取得してほしいデータを設定しました。次の重要なことは、データのクリーンアップです。 このレッスンでは、きれいなデータを抽出するには、データフィールドを調整するための実用的な方法について説明します。
それでは、始めましょう!
1. フィールドの改名/移動/コピー/削除
データを抽出してデータプレビューに表示したら、データフィールドを調整することができます。例えば、フィールドの名前変更、列の並べ替え、データフィールドのコピー、不要なフィールドの削除などがあります。
フィールドの名前を変更するには、フィールド名をダブルクリックすると、新しい名前を入力できます。 フィールド名には数字、文字、および「_」のみを使えます。
フィールドを移動するには、カーソルをフィールドの上方に置き、が表示されたら、フィールドを正しい場所にドラッグアンドドロップできます。
フィールドをコピーするには、「ほかのオプション」アイコンをクリックして、「コピー」を選択すると、選択したフィールドは自動的にコピーされます。
フィールドを削除するには、「ほかのオプション」アイコンをクリックして、「削除」を選択します。
💡ワークフローの「データを抽出」ステップの「ステップ設定」に移動して、データフィールドの改名/移動/コピー/削除することもできます。
2. データの再フォーマット
Octoparseには、データをクリーンアップする方法がたくさん用意されています。例えば、文字列を置き換えたり、余分なスペースを削除したり、接頭辞/接尾辞を追加したり、文字列を正規表現でマッチングしたり、日付/時刻を再フォーマットしたりすることができます。データが要件を満たすまで、複数の方法でフィールドをクリーンアップできます。正規表現で処理する場合は、Octoparse 正規表現ツールを使用できます。
データプレビューで、クリーンアップするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。
「ステップを追加」をクリックし、データをどのように処理するかを選択します。データが要件を満たすまで複数のステップを追加することができます。
- 置換:抽出されたデータ内の特定の文字列を、新しい文字列で置き換えます。
- 正規表現による置換:特定の正規表現を使って、抽出されたデータ内の一致した文字列を必要な文字列に置き換えます。
- 正規表現によるマッチング:特定の正規表現を使って、抽出されたデータから一致する文字列を取得します。
- スペースの削除:抽出されたデータの最初または最後から不要なスペースを削除します。
- 接頭辞の追加:抽出されたデータの最初に文字列を追加します。
- 接尾辞の追加:抽出したデータの最後に文字列を追加します。
- 日時のフォーマット:抽出された日付/時刻を特定のフォーマットに変更します。
- タイムスタンプの変換:タイムスタンプは、日付と時刻を識別するために使用されるストリングス、またはエンコードされたメッセージです。 タイムスタンプの変換を使って、ストリングスを正しい日時フォーマットに変更できます。
- HTML:特定のHTMLタグをプレーンテキストに変換します。たとえば、 ">"を ">"に、 " "をスペースにトランスコードします。
💡Octoparseでデータの再フォーマットと正規表現ツールの詳細については、下記の記事をご参照ください。
3. データタイプの変更
自動識別機能を利用すると、Octoparseは選択した要素のテキストとURLを自動的に抽出します。抽出されたデータフィールドのタイプを変更することができます。
データプレビューで、「ほかのオプション」アイコンをクリックし、「データタイプを設定」を選択します。「データタイプを設定」の画面から、抽出するデータタイプを選択することができます。
4. ページレベルのデータと日時を抽出する
Octoparseは、ページレベルのデータ、現在の時間、または任意の固定値を便利に抽出するには、事前定義された多数のデータフィールドを提供します。
- 現在の時刻:Webページからデータを抽出する日時
- 該当ページの情報:URL、ページタイトル、キーワード、メタデスクリプション、ソースコード
- カスタムフィールド:ユーザーが定義する固定値
データプレビューの右上隅にある+記号をクリックして、追加する定義済みのデータフィールドを選択することができます。
これまで、ワークフローの作成と調整に関するすべての手順を完了しました。次はテスト実行を開始します!
次へ
レッスン4:タスクをテスト実行する