すべてのコレクション
応用例
都道府県から情報を集める方法(ネストループ)
都道府県から情報を集める方法(ネストループ)
一週間前以上前にアップデートされました

地域ごとに情報を閲覧できるポータルサイトがあります。詳細な情報にアクセスするためには、地域を絞り込むことが必要です。例えば、以下のサイトです。

mceclip0.png

どうやってすべての情報を一度に集めることができるのか? octoparseでは、ネストループを使用します。

  1. まず、北海道をクリックします。 一度クリックすると、似たようなレイアウトのリンクを自動的に検出します(例:同じ場所にある他の6つの都道府県)。

mceclip1.png

2.次に、関東の茨城県をクリックします。 北海道と茨城県はともに表の最初のセルに位置しているため、octoparseはすべての表の最初のセルを強調し、これが北海道と茨城県の類似要素であることを私たちに示唆しています。

mceclip2.png

3.次に、栃木県をクリックします。 操作提案からわかるように、octoparseは47都道府県のリンクをクリックする必要があることを理解しました。サイトのレイアウトによってクリック数は異なりますが、原理は同じです。つまり、クリックすることで、octoparseは47のリンクの間にある共通点を見つけます。

mceclip3.png

4.そして、ループクリックを作ることができます。

mceclip4.png
  • クリックすると、octoparseは自動的にステップを生成します。

mceclip6.png
  • 「アイテムをクリック」を選択するとページが開き、octoparseは自動的に最初のリンク(つまり北海道)をクリックします

mceclip7.png

5-6.すべてのリンクがoctoparseで認識されるまで、ステップ1~3を繰り返します。

mceclip8.png

7.クリックすると、octoparseは自動的にネストループを生成します。

mceclip9.png

プロセスが生成されると、octoparseは自動的にループアイテムの最初のリンクをクリックします(つまり道央)

mceclip10.png

8-9.二回クリックすると、もう最終的クリニック情報が表示されます。 各カードのタイトル(またはクリックすると詳細ページにジャンプするボタンや画像)をクリックする。

10.octoparseがページ上のすべてのカードを認識するまで、すべての類似したアイテムをクリックしてください。最後に[各要素をループクリックする]をクリックして、ネストループを作成します。

※ページめくりボタンがある場合は、ページめくり処理を追加する必要がある。

mceclip11.png
  • プロセスが生成されると、octoparseは自動的にループアイテムの最初のリンクをクリックします(つまり一番目のクリニック)

mceclip12.png

11.抽出したいフィールドをクリックすると選択できます(連続クリック可能)。

12.選択が完了したら、抽出ステップを作成します。

mceclip13.png

※テーブルからデータを抽出する方法がわからない場合は、こちらの記事をご覧ください。XPath応用編 - 2.テーブルデータを指定する

要約すると、トップページから詳細ページまで、2回エリアを選択する必要があるため、2層のループを作りました。 最後のループは、一覧ページに使用されます。もし、ターゲットサイトが詳細ページを表示するために3回エリアを選択する必要がある場合、結局4層のループを作る必要があるかもしれません。

mceclip14.png
こちらの回答で解決しましたか?