詳細ページ移動してデータを抽出する
フォローするリスト内各項目のタイトル(リンク)をクリックし、新しいページに移動しデータをスクレイピングすることが多いでしょう。
この記事では、SUMMOの物件一覧と物件詳細ページを例として、抽出手順を説明します。
自動識別機能を利用する
1. WebページのURLを入力し、自動識別を起動すると、Octoparseがデータを自動検出し、ワークフローを生成します。
2. 「リンクされたページを開く」を選択し、クリックするリンクを選択し、詳細ページに移動します。
3. 詳細ページのデータをクリックし、「選択した要素のテキストを抽出する」を選択します。
手動で設定する
- 任意物件名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。
- ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
- 他のタイトルを押し続けると、③「リンク○○件が選択され」(上の図)の数と④ページ表示件数(下の図)が同じになるはずです。
- ⑤「各リンクをループクリックする」をクリックします。
これで物件ループの生成が終わりました。
上記のステップが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作ヒント」にあるデータを抽出するを選択します。
ダブルクリックでフィールド名を編集します。
ヒント! クリックするには、リンクであるアンカー要素を選択することが重要です。Octoparseは選択した要素のタグを自動的に識別します。したがって、URLのある要素を選択すると、選択されたタグは「A」になります。これは通常、ページ間をリンクするアンカーを表します。 |