XPathによる特定データの指定
フォローするWebスクレイピングでは、XPathは重要な役割を果たしています。XPathの書き方が分かれば、データをより正しくて効率的に取得できます。この記事ではOctoparseでXPathによる特定データの指定方法を紹介します。
XPathとは?
XPath (XML Path Language)とは、ツリー構造となっているXML/HTMLドキュメントからの要素や属性値などを指定するための簡潔な構文(言語)です。
Webページは通常HTMLで記述されるから、XPathはWebページの情報を取得する時によく利用します。ブラウザ(Chrome、Firefoxなど)でWebページのHTMLを表示するする場合、F12キーを押すことで、対応するHTMLドキュメントに簡単にアクセスできます。
いつ使うの?
ほとんどの場合、OctoparseはXPathを自動的に生成し、自分で書く必要はありません。しかし、ページネーションが突然機能できなくなったり、取得したデータの位置がずれてしまったりする場合があります。例えば、以下の場合、XPathを変更して、データをより正しく見つける必要があります。
- データの位置がよく変わる
- ページ送りボタンが正しくない
- 一覧リストのリンクをクリックできない
- ドロップダウンメニューの特定データが必要
どこで変更できるの?
- 「ループアイテム」と「ページネーション」の場合
該当ステップの設定画面で「基本設定」の「要素のXPath」入力ボックスがあり、正しいXPathを入力すればいいです。
- 「アイテムをクリック」の場合
「アイテムをクリック」のステップをクリックし、該当ステップの「基本設定」に要素のXPathを設定できます。
- 「データを抽出」の場合
データプレビューで表題の右側の「ほかのオプション」をクリックし、「要素のXPathを設定」を選択します。それで、XPathの設定画面が表示されます。
XPathの書き方
XPathを書くには、まずHTMLの基本知識は不可欠です。XPathは、タグと属性に基づいて要素を指定します。初心者にとっては少し複雑ですので、XPathのシリーズではXPathの基本概念からXPathの書き方、応用まで詳しく紹介しました。ぜひご参考ください。
XPath応用編(2) ー テーブルで表示されるデータを指定する方法
XPath応用編(3) ー リストで表示されるデータを指定する方法