リスト内各項目のタイトル(リンク)をクリックし、新しいページに移動しデータをスクレイピングすることが多いでしょう。
この記事では、SUMMOの物件一覧と物件詳細ページを例として、抽出手順を説明します。
自動識別機能を利用する
1. WebページのURLを入力し、自動識別を起動すると、Octoparseがデータを自動検出し、ワークフローを生成します。
2. 「サブページのURLを選択」を選択し、クリックするリンクを選択し、詳細ページに移動します。
3. 詳細ページのデータをクリックし、「要素データ」を選択します。
手動で設定する
任意物件名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。
①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
他のタイトルを押し続けると、③「リンクが選択され、xx個の類似要素が見つかりました。」(上の図)の数と④ページ表示件数(下の図)が同じになるはずです。
⑤「各URLにループクリック」をクリックします。
これで物件ループの生成が終わりました。
5. 上記のステップが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作提案」にある要素データを選択します。
ダブルクリックでフィールド名を編集します。
ヒント:
クリックするには、リンクであるアンカー要素を選択することが重要です。Octoparseは選択した要素のタグを自動的に識別します。したがって、URLのある要素を選択すると、選択されたタグは「A」になります。これは通常、ページ間をリンクするアンカーを表します。