XPathによる特定データの指定
フォローするWebスクレイピングでは、XPathは重要な役割を果たしています。XPathの書き方が分かれば、データをより正しくて効率的に取得できます。この記事ではOctoparseでXPathによる特定データの指定方法を紹介します。
XPathとは?
XPath (XML Path Language)とは、ツリー構造となっているXML/HTMLドキュメントからの要素や属性値などを指定するための簡潔な構文(言語)です。
Webページは通常HTMLで記述されるから、XPathはWebページの情報を取得する時によく利用します。ブラウザ(Chrome、Firefoxなど)でWebページのHTMLを表示するする場合、Windowの場合はF12キー(Macはoption + command + I)を押すことで、対応するHTMLドキュメントに簡単にアクセスできます。
いつ使うの?
サイトがシンプルに構築されている場合、OctoparseはXPathを自動的に生成し、自分で書く必要はありません。なお、以下の場合、XPathを変更して、データをより正しく見つける必要があります。
- データの位置がよく変わる
- ページ送りボタンが正しくない
- 一覧リストのリンクをクリックできない
- ドロップダウンメニューの特定データが必要
どこで変更できるの?
ループアイテム、ページネーション、アイテムをクリックなどのワークフロー
該当ステップの「基本設定」の「要素のXPath」ボックス
データを抽出
データプレビューで表題の右側の「ほかのオプション」をクリックし、「要素のXPathを設定」を選択します。
XPathの書き方
XPathを書くには、まずHTMLの基本知識は不可欠です。XPathは、タグと属性に基づいて要素を指定します。初心者にとっては少し複雑ですので、XPathのシリーズではXPathの基本概念からXPathの書き方、応用まで詳しく紹介しました。ぜひご参考ください。