取得したデータを統合する
フォローするこのチュートリアルでは、Octoparseで取得した様々なデータを一行に合併する方法を説明します。
例えば、ブログから記事を抽出します。記事全体を選択して抽出できない場合があります。しかし、以下のように記事全体を段落に分かれ、異なるデータフィールドに入れるの代わり、一行に入れたいことです。
異なる行を1行のデータに合併するには、抽出を設定する際にOctoparseの集合機能を使うのをお勧めします。
ここでは、https://philipyancey.com/a-view-from-abroad のブログコンテンツを例として、抽出したデータを合併するための集合機能を紹介します。
1. 抽出するデータを選択する
1) ページで1つの段落を選択し、「すべて選択」をクリックして、各段落を抽出できる「ループアイテム」を作ります。
2) 「選択した要素のテキストを抽出する」を選択します。
2. データを合併するためにデータ集をカスタマイズする
1) 「データを抽出」のステップ設定を開く、データフィールドをクリックしてカスタマイズします。
2) ボタンをクリックして、データフィールドをカスタマイズします。
3) 「データを再フォーマット」を選択します。
4) 「同じフィールドが数回に抽出されるとき、一行にまとめます。例えば、複数のページから抽出されたコンテンツを組み合わせることができます。」を選択します。
ここで、「Text」フィールドに抽出した段落は、実行時に1行に合併されます。
タスクを実行して結果を出力して、「Text」フィールドで抽出した段落が1行に合併されているのを見られます。
ヒント! 1. データ集は、記事の抽出に特に有用です。空白行、コメント、画像などを持たなく、記事を全体の塊として抽出できます。 2. データが1つの塊として集合される場合は、データの再フォーマットツール |
関連記事:
From: https://www.octoparse.jp/tutorial/conglomerate-data-extracted/