Webページ上ではリストでデータを表示するのが一般的です。例えば、このように並んでいるリストを見たことありませんか。
このようなサイトからリストとなる部分のデータを取得したかったり、またリンクが含まれた部分を巡回してクリックしたかったりする時はどのようにXPathを書けばいいでしょう。
<URL例>:商品リスト(新しいタブで開いてから、URLをコピーしてください)
上記サイトからリンクが含まれた各商品のタイトルを自動巡回クリックするXPathをFireBugを使って書きます。つまり、各商品のタイトルを指定します。
a) XPathツールパネルの左上にあるボタンをクリックしてから、まずは「ブランド」をクリックします。それに応じて以下のHTMLと表示されます。
b) 指定されたのはspanタグですが、すべての商品タイトルを巡回クリックする必要があるので、aタグを指定します。(「a」タグとは、リンクの出発点や到達点を指定するタグです。)
商品タイトルのaタグには「class="_2EW-04-9Eayr"」という属性が含まれています。
XPathの書き方(2) ー 構文の組立で紹介したように、『@』を使ってXPathを下記のように書くことができます。
//a[@class="_2EW-04-9Eayr"]
c) 上記のXPathをOctoparseのループアイテムのXPath入力ボックスに入れ替えます。
これで、リストページで新しいものが増えてきても、すべてのリストを全部指定することができます。
以上はOctoparseを使う中でリストで表示されるデータを指定する方法です。
ぜひ試してみてください!
関連記事:
XPath応用編(2) ー テーブルで表示されるデータを指定する方法