Octoparseとは
Octoparseは、数クリックでWebページを構造化されたデータに変換でき、コーディング不要のWebスクレイピングツールです。
以下の記事では、コンピュータークライアントを使用してAmazonのデータを収集する方法を紹介します。もし大量のAmazonデータの収集が必要な場合は、クライアントをダウンロードして、内蔵のスクレイピングプログラムを使用してください。いくつかのキーワードを入力するだけで、数百万のデータを収集できます。
このガイドで抽出するデータ
商品名
商品ページURL
商品画像(シングルまたは複数)
価格
ASIN
詳細ステップ
1.対象URLをバーに貼り付け、スタートを押す
ロボットでないことを確認させる画面が現れる可能性があります、ブラウザモードでご完了ください。
何回も要求される場合、設定でブラウザをSafari 15.1にご設定ください
アマゾンの画面が現れたら、詳細設定でCookieを保存しましょう。
このステップにより、ロボット確認画面をスキップことができます。
2.複数の検索キーワードを入力する
ASINを検索する場合は、複数のテキストを入力するオプションを選択できます。
次は検索ボタンをクリックし、操作パネルの「選択したボタンをクリックする」を選択します
現在のワークフローは下記のようになります。
複数テキストを入力した場合
3.ページループを作る
もし最初のページの商品のみを収集する必要がある場合は、このステップをスキップしていただいて構いません。
下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。
4.商品のクリックループを作る
任意商品名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。
①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
操作パネルの下、③ A をクリックします。
④「類似要素をすべて選択」➡「各要素にループクリック」をクリックすることより、⑦のループアイテムが生成されます
これで商品ループの生成が終わりました。
もしフローが⑦と異なる場合、ドラッグアンドドロップで調整することができます。
5.抽出データを選択する
商品のクリックループを作るが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作提案」にあるテキストを選択します。
ダブルクリックでフィールド名を編集します。
デフォルトで生成されたXpathは全商品をカバーできないため、手動でXpathを修正しましょう。
ワークフローの「データを抽出」を選択した状態で、データプレビューの所でデータの表示方法を縦向きにし、ダブルクリックでXpathを調整します。
参考
タイトル
//span[@id="productTitle"]
ASIN
//th[text()[contains(., 'ASIN')]]/following-sibling::td
価格
//span[@class='a-price-whole']
ページURLの取得
URLは、クライアント内蔵の機能を使用して取得できますので、特別に設定する必要はありません。
画像URLの取得
続けて、画像を抽出するために新しいループを作成する必要があります。ループのアイテムは次の通りです:
//div[@id="altImages"]/ul/li[@data-csa-c-action="image-block-alt-image-hover"]//img
次に、データを抽出ステップ設定を調整し、新しい「画像URL」フィールドを追加します。
XPathとデータタイプの設定は次のとおりです。
ページに再度アクセスすると、画像のアドレスがすでに収集されているのが確認できるはずです。
アマゾン側のスクレイピング防止対策がかからないように、ワークフローを調整します。
最適化方向:各ステップ間の待機時間を増やす
7.実際の抽出結果
保存➡実行、ブラウザと実行ログから現在の実行状況が確認できます。
実際の抽出結果: