ワークフローとは
一週間前以上前にアップデートされました

この記事では、Octoparseのスクレイピング原理と、Octoparseの使い方を理解するのに役立つワークフローのロジックについて説明します。

1) Octoparseのスクレイピング原理

  • 人間の行動をシミュレートする

Octoparseは、内蔵ブラウザーで人間の行動をシミュレートすることができます。例えば、Webページを開く、要素をクリックする、ページ送りボタンをクリックする、ページを下にスクロールするなどのアクションは、すべてOctoparseで実行できます。スクレイピングプロセスは、通常のブラウザでWebページとのやり取りと同じです。

  • ワークフローに従って実行する

OctoparseでWebサイトからデータを抽出するには、ワークフローを設計する必要があります。Octoparseはワークフローのステップに従い、スクレイピングを実行します。例えば、ページのテキストを抽出する場合は、ワークフローに「データを抽出」のステップを作成します。複数のページに移動する場合は、ページネーションループを作成する必要があります。

2) ワークフローのロジック

ワークフローには、特定のスクレイピングニーズを達成するステップが含まれ、常に「上から下へ、内から外へ」の順番に動作します。

【ワークフロー】は【青いステップ】と【グレー​​ボックス】の2つの部分で構成されています。【青いステップ】は実行されるステップで、Webページとやり取りします。 【グレーボックス】はWebページを記録する役割を果たします。

理解を深めるためにいくつかの例を見てみましょう。

  • 一覧ページからデータを取得する

ステップ1:【Webページを開く】Webページに移動して、ターゲットのWebページを開く

ステップ2:【ページネーション】ページ上のページ送りボタンを見つける(現在はページ1)

ステップ3:【ループアイテム】ページ上の一覧リストを見つける

ステップ4:【データを抽出】一覧リストからデータを抽出する

ステップ5:【次のページをクリック】ページ送りボタンをクリックしてページ2に移動する

ステップ6:ループアイテムからデータを抽出し続け、最後ページまでページ送りボタンをクリックする

ステップ7:最後のページにページ送りボタンがなく、ワークフローが終了する

  • 一覧ページのリストをクリックし、詳細ページからデータを取得する

ステップ1:【Webページを開く】Webページに移動して、ターゲットのWebページを開く

ステップ2:【ページネーション】ページ上のページ送りボタンを見つける(現在はページ1)

ステップ3:【ループアイテム】ページ上の一覧リストを見つける

ステップ4:【アイテムをクリック】リスト要素をクリックし、詳細ページに移動する

ステップ5:【データを抽出】詳細ページからデータを抽出する

ステップ6:【次のページをクリック】ページ送りボタンをクリックしてページ2に移動する

ステップ7:ループアイテムからリスト要素をクリックし続け、詳細ページからデータを抽出し、最後ページまでページ送りボタンをクリックする

ステップ8:最後のページにページ送りボタンがなく、ワークフローが終了する

  • 「もっと見る」ボタンをクリックし、すべてのデータを取得する

ステップ1:【Webページを開く】Webページに移動して、ターゲットのWebページを開く

ステップ2:【ページネーション】ページ上の「もっと見る」ボタンを見つける

ステップ3:【次のページをクリック】消えるまで「もっと見る」ボタンをクリックし続ける

ステップ4:【ループアイテム】読み込まれた一覧リストを見つける

ステップ5:【データを抽出】一覧リストからデータを抽出する

ヒント!

  • ワークフローの構築には基準がありません。動作ロジックが正しいなら問題がありません。

  • 複数のクリックアクションやループアイテムを設定することができます。

  • ワークフローのステップをドラッグして、適切な場所に移動することができます。

こちらの回答で解決しましたか?