画像スライダーから画像URLを抽出する
フォローする商品詳細ページでは、多く商品画像を表示するために、スライダーの技術を使います。そのため、スクレイピングが困難になります。この記事では、スライダーから画像を取得する3つの方法を紹介します。
1. 1枚画像を1つの列に取り込む
複数の画像を異なる列にスクレイピングするのは、画像1枚をスクレイピングするのと同じくらい簡単です。 次のURLをデモに使用します:https://www.ebay.com/itm/Lenovo-Legion-Y540-15-6-144Hz-i7-9750H-16GB-RAM-256GB-SSD-GTX-1660-Ti-Office/303553933195
Webページで1枚画像をクリックし、操作ヒントから「選択した画像のURLを抽出する」を選択し、その動作を繰り返してすべての画像のURLを取得するだけです。
取得したデータは下記のようになります。
2. すべての画像を1つの列に取り込む
すべての画像を1つの列にまとめるには、スライダーのHTMLコードをスクレイピングし、コードから画像のURLを抽出する必要があります。
スライダー全体を選択し、操作ヒントから「選択した要素のOuterHtmlを抽出する」を選択します。
「データプレビュー」では、抽出されたソースコードを再フォーマットすることができます。「データの再フォーマット」を選択します。
画像URLを抽出するには、「正規表現によるマッチング」というステップを追加する必要があります。
正規表現が必要なので、ここでは内蔵の正規表現ツールを利用します。正規表現の詳細はこの記事をご覧ください。
コードをチェックし、画像URLの開始値と終了値を見つけます。開始値と終了値を入力して正規表現式を生成し、適用します。
問題なければ、「すべてにマッチ」にチェックを入れ、保存します。
取得したデータは下記のようになります。
3. 画像を異なる行に取り込む
1つの列で、画像を異なる行に取り込むには、すべての画像要素を含めてるループを構成する必要があります。
Webページの最初の画像を選択し、引き続き2つ目の画像を選択し、操作ヒントから「各画像のURLを抽出する」を選択します。そうすると、ループアイテムが生成されます。
取得したデータは下記のようになります。