ワークフローとは
フォローするこの記事では、Octoparseのスクレイピング原理と、Octoparseの使い方を理解するのに役立つワークフローのロジックについて説明します。
1) Octoparseのスクレイピング原理
-
人間の行動をシミュレートする
Octoparseは、内蔵ブラウザーで人間の行動をシミュレートすることができます。例えば、Webページを開く、要素をクリックする、ページ送りボタンをクリックする、ページを下にスクロールするなどのアクションは、すべてOctoparseで実行できます。スクレイピングプロセスは、通常のブラウザでWebページとのやり取りと同じです。
-
ワークフローに従って実行する
OctoparseでWebサイトからデータを抽出するには、ワークフローを設計する必要があります。Octoparseはワークフローのステップに従い、スクレイピングを実行します。例えば、ページのテキストを抽出する場合は、ワークフローに「データを抽出」のステップを作成します。複数のページに移動する場合は、ページネーションループを作成する必要があります。
2) ワークフローのロジック
ワークフローには、特定のスクレイピングニーズを達成するステップが含まれ、常に「上から下へ、内から外へ」の順番に動作します。
【ワークフロー】は【青いステップ】と【グレーボックス】の2つの部分で構成されています。【青いステップ】は実行されるステップで、Webページとやり取りします。 【グレーボックス】はWebページを記録する役割を果たします。
理解を深めるためにいくつかの例を見てみましょう。
-
一覧ページからデータを取得する
ステップ1:【Webページを開く】Webページに移動して、ターゲットのWebページを開く
ステップ2:【ページネーション】ページ上のページ送りボタンを見つける(現在はページ1)
ステップ3:【ループアイテム】ページ上の一覧リストを見つける
ステップ4:【データを抽出】一覧リストからデータを抽出する
ステップ5:【次のページをクリック】ページ送りボタンをクリックしてページ2に移動する
ステップ6:ループアイテムからデータを抽出し続け、最後ページまでページ送りボタンをクリックする
ステップ7:最後のページにページ送りボタンがなく、ワークフローが終了する
-
一覧ページのリストをクリックし、詳細ページからデータを取得する
ステップ1:【Webページを開く】Webページに移動して、ターゲットのWebページを開く
ステップ2:【ページネーション】ページ上のページ送りボタンを見つける(現在はページ1)
ステップ3:【ループアイテム】ページ上の一覧リストを見つける
ステップ4:【アイテムをクリック】リスト要素をクリックし、詳細ページに移動する
ステップ5:【データを抽出】詳細ページからデータを抽出する
ステップ6:【次のページをクリック】ページ送りボタンをクリックしてページ2に移動する
ステップ7:ループアイテムからリスト要素をクリックし続け、詳細ページからデータを抽出し、最後ページまでページ送りボタンをクリックする
ステップ8:最後のページにページ送りボタンがなく、ワークフローが終了する
-
「もっと見る」ボタンをクリックし、すべてのデータを取得する
ステップ1:【Webページを開く】Webページに移動して、ターゲットのWebページを開く
ステップ2:【ページネーション】ページ上の「もっと見る」ボタンを見つける
ステップ3:【次のページをクリック】消えるまで「もっと見る」ボタンをクリックし続ける
ステップ4:【ループアイテム】読み込まれた一覧リストを見つける
ステップ5:【データを抽出】一覧リストからデータを抽出する
ヒント!
|