Octoparseにある5つのループモード
フォローするOctoparseには、「単一要素」、「定数リスト」、「変数リスト」、「URLリスト」、「テキストリスト」という5つのループモードがあります。本記事では簡単にご説明します。
「単一要素」は、XPathに一致する単一のアイテムを定めます。特に「次へ」ボタンをループクリックすることでページネーションを行うことによく使われます。
「定数リスト」は、固定のXPathリストを使用させて、各XPathに対応する要素を見つけて抽出させます。新しいアイテムを自動的に追加することはできず、ボックスに入力したXPathの固定リストに従ってアイテムを追加するだけなので、変数リストとは逆です。リストに追加されたアイテムは、動的ページでも変更されません。一覧ページでよく使われます。
「変数リスト」は、Octoparseで最も頻繁に使われるループモードです。「定数リスト」とは異なり、「変数リスト」は、共有HTMLパターンに基づいて、1つのXPathですべての同じ要素を取得するために使用されます。例えば、画面の一番下までスクロールし続けると、同じtwitterページにさらに多くのツイートが表示されます。そのため、ページに表示される新しいツイートをループリストに追加し続ける必要があります。それが、変数リストモードでできることです。新しいコンテンツが表示されるたびに、Octoparseはそれらをすぐにリストに自動的に追加します。
「URLリスト」は、複数のページからデータを抽出するために、ページURLをリストに作成するモードです。同じページ構造を共有する複数のページからデータを抽出する場合、OctoparseにこれらのページのURLを入力してループを設定することができます。Octoparseは、URLを1つずつ読み込み、各ページからデータを抽出します。
「URLリスト」については、「複数のURLからデータを抽出する」と「URLの一括インポート」を参照してください。
「テキストリスト」は、「URLリスト」ループと非常に似た方法で動作しますが、検索ボックスに異なるキーワードを入力するなど、異なるテキスト値を入力する必要がある場合に使用されます。
「テキストリスト」ループの詳細については、「テキストを入力」を参照してください。
関連記事:クラウド「タスク分割」とは何ですか?(クラウド抽出の高速化)