リストを作成する際に広告アイテムを除外する方法は?
フォローするWebサイトをスクレイピングするアイテムのリストを作成するとき、リストには複数の広告アイテム(例のURL)が含まれることがあります。
広告以外のアイテムだけをスクレイピングしたらどうすればいいですか?
「ループアイテム」のXPathを変更して、広告以外のアイテムのみを検索する必要があります。
上記の例のアイテムのソースコードをfirebug(FireFox拡張機能)でチェックすると、広告アイテムと非広告アイテムの違いがわかります。
明らかに、class属性は異なっています。したがって、この違いを利用してXPathを編集する:
//div[@class="dui-cards searchresultitems"]/div[not(@class="dui-card aditem")]/div[2]/h2
OctoparseにXPathを入力すると、広告が除外されます。
ヒント! XPathの初心者はまずHTMLとXPathの基本知識を了解する必要があります。参考になるチュートリアルがあります:HTML | XPath |