すべてのコレクション
インテグレーション
Xpathと正規表現
リストを作成する際に広告アイテムを除外する方法は?
リストを作成する際に広告アイテムを除外する方法は?
一週間前以上前にアップデートされました

Webサイトをスクレイピングするアイテムのリストを作成するとき、リストには複数の広告アイテム(例のURL)が含まれることがあります。

広告以外のアイテムだけをスクレイピングしたらどうすればいいですか?

「ループアイテム」のXPathを変更して、広告以外のアイテムのみを検索する必要があります。

上記の例のアイテムのソースコードをChrome DevTools(F12を押す)でチェックすると、広告アイテムと非広告アイテムの違いがわかります。

明らかに、data-card-type属性は異なっています。したがって、この違いを利用してXPathを編集する:

//div[@class="dui-cards searchresultitems"]/div[not(@data-card-type="cpc")]/div[2]/h2

ループアイテムのループモードを変数リストに変更し、要素のXPathを入力すると、広告が除外されます。

ヒント!

XPathの初心者はまずHTMLとXPathの基本知識を了解する必要があります。参考になるチュートリアルがあります:HTML | XPath

こちらの回答で解決しましたか?