Webサイトをスクレイピングするアイテムのリストを作成するとき、リストには複数の広告アイテム(例のURL)が含まれることがあります。
広告以外のアイテムだけをスクレイピングしたらどうすればいいですか?
「ループアイテム」のXPathを変更して、広告以外のアイテムのみを検索する必要があります。
上記の例のアイテムのソースコードをChrome DevTools(F12を押す)でチェックすると、広告アイテムと非広告アイテムの違いがわかります。
明らかに、data-card-type属性は異なっています。したがって、この違いを利用してXPathを編集する:
//div[@class="dui-cards searchresultitems"]/div[not(@data-card-type="cpc")]/div[2]/h2
ループアイテムのループモードを変数リストに変更し、要素のXPathを入力すると、広告が除外されます。