レッスン4:データ取得 - リストの内容を抽出する
フォローする前のレッスンでは、簡単なテキストを抽出する方法を学びました(レッスン3:ページからテキストを抽出する方法を参照してください )。今回では、より進化したスクレイピング技術、つまりリストの内容を抽出する方法を学びます。
![]() |
![]() |
ご参考頂けるために、文字の他に、ビデオも作っております。こちらへクリックしてください。
1. リストの定義を行い「ループアイテム」を作成する
「ループアイテム」を作成するために、リスト要素を2つを選択することで定義を行います。
· 最初の2つの製品をクリックします(残りの同じ構えのリスト要素は自動的に選択され、緑で強調表示され、要素内の情報は赤で強調表示されます)。
· 「選択したデデータを抽出する」をクリックします。そして、リストの内容を抽出するための 「ループアイテム」が自動的に作成されます。(Octoparseは選択した内容を自動的に抽出します。削除して必要なデータを追加できます。)
ヒント! 1. すべての製品情報を正しくスクレイピングするには、最初の2つのリスト要素は全く同じエリアを選択することを確認してください。エリアを拡大するには、「操作ヒント」の下部にある他のタグ(DIV、A、LIなど)をクリックしてください。 2. リスト内の一部の製品が見つからない場合は、リスト内のすべての製品が緑色で強調表示されるまで、ほかの製品情報をクリックしてみてください。 |
2. サブ要素をクリックしてスクレイピングする
1つ目の製品のサブ要素をクリックして抽出します。「ループアイテム」が作成されたので、1つ目の製品に抽出データを指定するだけで、残りはOctoparseより処理します。
· 「ループアイテム」にある1つ目の製品のサブ要素をクリックします。
· サブ要素の選択が終了したら、「選択した要素のテキストを抽出する」をクリックします。
3. すべてのサブ要素が自動的にスクレイピングされる
サブ要素をスクレイピングする別の方法があります。 Octoparse 7.Xでは、Octoparseは 「ループアイテム」で選択された各項目のすべてのサブ要素を検出し、自動的にデータフィールドを生成することができます。
最初の2つの項目を選択したら、「すべてのサブ要素を選択する」をクリックします。
すべてのサブ要素が選択され、「操作ヒント」パネルに表示されます。
· 不要な列を削除するには、「X」をクリックします
· 「データを抽出する」を選択します(抽出するデータは「データフィールド」パネルに表示されます)
レッスン5:データ取得 - 各アイテムのページからデータを抽出する
From: https://www.octoparse.jp/tutorial/capture-a-list-of-items/