同一フィールドでの複数行のマージ
フォローするこのチュートリアルでは、Octoparseで取得した様々なデータを一行に合併する方法を説明します。
例えば、ブログから記事を抽出します。記事全体を選択して抽出できない場合があります。しかし、以下のように記事全体を段落に分かれ、異なるデータフィールドに入れるの代わり、一行に入れたいことです。
異なる行を1行のデータに合併するには、抽出を設定する際にOctoparseの集合機能を使うことをお勧めします。
ここでは、https://philipyancey.com/a-view-from-abroad のブログコンテンツを例として、抽出したデータを合併するための集合機能を紹介します。
1. 抽出するデータを選択する
1) ページで1つの段落を選択し、「すべて選択」をクリックして、各段落を抽出できる「ループアイテム」を作ります。
2) 「各要素のテキストを抽出する」を選択します。
2. データを合併するためにデータ集をカスタマイズする
1) データプレビューにデータフィールドをダブルクリックして名前を編集できます。
2) ボタンをクリックし、データフィールドをカスタマイズします。
3) 「同一フィールドでの複数行のマージ」を選択します。
ここで、「Text」フィールドに抽出した段落は、実行時に1行に合併されます。
タスクを実行して結果を出力して、「Text」フィールドで抽出した段落が1行に合併されているのを見られます。
ヒント! 1. データ集は、記事の抽出に特に有用です。空白行、コメント、画像などを持たなく、記事を全体の塊として抽出できます。 2. データが1つの塊として集合される場合は、「同一フィールドでの複数行のマージ」の機能を使用します。また、データの再フォーマットツール |
関連記事: