リスト一覧ページは、カテゴリページで絞り込んだ商品、サービスや記事が一覧として羅列されるページです。このページに表示されている情報を参考に、詳細ページへ移動することもできます。一覧ページの例をいくつか示します。
例えば、enライトハウスページの一覧ページから、各会社の会社名、業界種類、住所、平均年収、残業時間などを取得したいですが、どうすればいいのでしょうか?この記事では2つの方法を紹介します。
1. 自動識別機能を利用する
自動識別機能により、このような一覧ページのリストからデータを取得するのは簡単です。WebページのURLを入力し、自動識別を起動すると、Octoparseがデータを自動検出し、ワークフローを自動的に生成します。
詳しい操作は次の記事をご参照ください。
2. 手動で設定する
1. WebページのURLを入力したら、1つの項目の全体が水色で強調表示されるまで、項目にマウスを移動します。
2. その項目から抽出するすべてのデータが、この強調表示された領域に含まれていることを確認します。以下の画像では間違いました。
3. 項目全体が水色になったら、クリックして、その項目が選択され、中にあるデータも識別されます。それから「操作提案」の「すべての子要素を選択」を選択します。
4. そうすると、残り項目のデータも識別されるので、「類似グループをすべて選択」を選択します。
5. これで、すべてのデータが緑色で強調表示され、「要素データ」を選択すると、このリストを抽出するためのループアイテムが自動的に生成されます。
6. 「データプレビュー」ではフィールド名の変更、フィールドを削除することができます。