ループアイテム
フォローするOctoparseで、ループアイテムは、リストまたはページネーションを処理するの重要なアクションです。この記事では、ループアイテムの機能について詳しく説明します。
1. ループアイテムとは
「ループ」とは、特定の条件下において特定の処理を繰り返すこと、あるいはそのように作られた制御構造のことを言います。Octoparseの「ループアイテム」はループに似ています。ループアイテムには通常、1つまたは複数の要素が含まれ、その中には特定の処理があります。Octoparseはループアイテムの要素に対してその処理を繰り返し実行します。
たとえば、ページを開いてデータを取得するためのURLリストがあります。URLリストをループアイテムに導入し、ループアイテム内に「Webページを開く」と「データを抽出」という処理を設定することができます。ワークフローは次のようになります。
Octoparseはループ内の最初のURLを開いてデータを抽出し、次に2番目のURLに移動し、最後のURLからデータを取得するまでループは停止します。
2. ループアイテムの設定
ループアイテムをクリックし、ワークフローの下側に設定画面が表示されます。その画面では2つの部分があります。
「基本設定」
1)ステップ名:ループアイテムの名前を変更できます。ワークフローに複数のループアイテムがある場合に役立ちます。
2)ループモード:必要に応じてループモードを変更し、選択したモードに応じてXPath / URL / テキストなどを入力できます。
3)ループの終了条件:ループを強制的に停止する条件を設定できます。
「詳細設定」
1)実行前の待機:ループアイテムを実行するまでの待機時間を設定できます。
3. ループモードとその機能
Octoparseには、「単一要素」、「定数リスト」、「変数リスト」、「URLリスト」、「テキストリスト」、「ページをスクロール」という6つのループモードがあります。
「単一要素」は、ページ上の特定の1つ要素を見つけることであり、その要素が消えるまで特定の処理を繰り返し続けます。通常は、ページ送りボタンをクリックしたり、「もっと見る」ボタンをクリックしたりするなど、ページネーションを設定するのによく使われます。
「定数リスト」は、固定のXPathリストを使用い、1つのXPathが1つの要素を検索します。一覧ページ上のリスト要素の数が固定されている場合によく使われます。
「変数リスト」は、共有HTMLパターンに基づいて、1つのXPathですべての同じ要素を取得するために使用されます。例えば、画面の一番下までスクロールし続けると、さらに多くのコンテンツが表示されます。新しいコンテンツが表示されるたびに、Octoparseはそれらをループアイテムに追加します。
「URLリスト」は同じページ構造を共有する複数のページURLを持っている場合、URLを導入してループを設定することができます。Octoparseは、URLを1件ずつ開き、各ページからデータを抽出します。
詳細記事:URLの一括インポート
「テキストリスト」は、検索ボックスにキーワードを入力するなど、異なるテキスト値を入力する必要がある場合に使用されます。
詳細記事:テキストを入力
「ページをスクロール」は、ページをスクロールしながらデータを抽出する必要がある場合に使用されます。スクロールタイプ、回数、実行間隔などをご要望に応じて設定することができます。
詳細記事:無限スクロールでの読み込み