リストからデータを抽出する
フォローするリストとは?
リストは、同じHTMLコンテンツを持つ要素の集合です。例えば、一般的な会社、店舗のリストや、レビュー、商品画像などです。
Webページでリストは広く使われるので、リストの構成を学ぶことはより快適にスクレイピングすることができます。このチュートリアルでは、リストを設定してデータを抽出する方法を説明します。
1.リストから簡単なデータを抽出する
選択されたリストからテキスト/ URL / HTMLなどのデータを直接取得することは、最も基本的なリスト抽出手法です。以下の手順に従って抽出します。
1) 対象リストにある任意の要素をクリックします。
2) 「操作ヒント」にある「すべて選択」をクリックします。
3) 必要なデータの種類に応じて、「操作ヒント」の指示に従って抽出操作を完了します。

ヒント!
|
リストにある類似の各部分から取得したい情報がある場合、部分のリストを作って、リストから詳細情報を直接取得できます。
例えば、下の画像では、記事のタイトル、投稿日、執筆者などの詳細情報を含むさまざまなニュース記事のリストがページに表示されます。

リストの各部分から詳細情報を抽出するために、2つのステップがあります。
1) 対象部分のリストを作る
2) 各部分から取得するデータフィールドを指定する
操作は以下の手順に従ってください。
1) 対象部分のリストを作る
- 対象リストの任意部分をクリックします。 対象部分の全体が緑色になり、すべてのサブ要素が赤色になります。
ヒント!
|
対象リストの別の部分をクリックします。 Octoparseは自動的にすべての同じ部分を選択します(強調表示されます)。
ヒント!
|
操作ヒントパネルから「各要素のテキストを抽出する」を選択します。それについて、対象部分のリストを生成します。
2) 各部分から取得するデータフィールドを指定する
- 記事のタイトルをクリックします。
- 操作ヒントパネルから「選択した要素のテキストを抽出する」を選択します。
- 執筆者、投稿日、記事の要約など、他のデータフィールドも同じ手順で実行します。

ヒント! Octoparseがデータフィールドを対応するページ上の要素に正確に関連付けることができるように、強調表示されたセクションからデータフィールドを選択していることを確認するのが重要です。 |
データプレビューで、フィールドの名前をダブルクリックし、必要に応じてフィールドの名前を変更できます。不要なデータフィールドを削除したいと、フィールドの右側のをクリックし、「削除」を選択します。
ヒント!
ループから異なるアイテムを選択してから、「データを抽出」をクリックして、各ループアイテムに対応するデータが正しく抽出されるかどうかを確認できます。
![]() |
リストの各部分には情報の制限があります。詳細情報が必要な場合は、リストからリンクをクリックし、詳細ページから情報を取得する必要があります。
次の例を見てみましょう。

これを行うには、2つのステップがあります。
1) 対象リンクのリストを作る
2) 詳細ページから取得するデータフィールドを指定する
操作は以下の手順に従ってください。
1) 対象リンクのリストを作る
- リストにあるリンクをクリックします。
操作ヒントパネルで、「すべて選択」をクリックします。
「各要素をループクリップする」をクリックします。クリックしてから、詳細ページへ移ります。
2) 詳細ページから取得するデータフィールドを指定する
例として、詳細ページから製品のタイトル、価格、サイズ、カラーなどの情報を抽出したい場合:
- 製品のタイトルをクリックします。
- 操作ヒントパネルで、「選択した要素のテキストを抽出する」をクリックします。
- 価格、サイズ、カラーなど、他のデータフィールドも同じ手順で実行します。
データプレビューで、フィールドの名前をダブルクリックし、必要に応じてフィールドの名前を変更できます。不要なデータフィールドを削除したいと、フィールドの右側のをクリックし、「削除」を選択します。
4.図表をスクレイピングする
表は、Webデータの最も一般的な表示形式の1つです。Octoparseを使って表からデータを取得するには、表の個々の行をリストの1つのセクションとして扱い、各行から抽出するデータフィールドを指定ことで、全表を抽出することができます。

操作は以下の手順に従ってください。
1) 表の任意行をクリックします。
ヒント!
|
2) 同じ表の別の行をクリックします。
3) 操作ヒントパネルで「各要素のテキストを抽出する」をクリックします。それについて、対象部分のリストを生成します。
4) 強調表示された行から、抽出したいデータをクリックします。
5) 操作ヒントパネルで、「選択した要素のテキストを抽出する」をクリックします。
6) 他のデータも同じように抽出します。

ヒント!
テキスト以外、選択した要素のURL/HTMLの内容が必要な場合は、操作ヒントパネルから対応するオプションをクリックしてください。
|
7) データプレビューで、フィールドの名前をダブルクリックし、必要に応じてフィールドの名前を変更できます。不要なデータフィールドを削除したいと、フィールドの右側の
をクリックし、「削除」を選択します。


8) ワークフローのアクションをクリックして、異なる行にデータが正しく抽出されるかどうかを確認します。
