ログインが必要なWebページからデータ取得
フォローする
対象サイトがログインする必要がある場合でも、Octoparseでデータをスクレイピングできます。
以下はAmazonを例として操作手順を紹介します。
方法一:ワークフロー内でログイン手順を構築する
-
注意事項
-
この方法を使用すると、各タスクの起動時にアカウントがサイト上でログインされます。高頻度でのデータ収集を行うために複数のクラウドサービスを利用する予定がある場合は、この方法を推奨しません。代わりに、方法二:ログイン状態を保持し、定期的に手動で更新する方法が適しています。
- タスクをエクスポートすると、タスクに保存されたパスワードは自動削除されます。
-
-
ワークフローチェックポイン
-
詳細手順
- Octoparseを使用してAmazonのログインページを開いてください(ログインページのリンクは頻繁に変更されるため、具体的なURLを提供することができません)。
- ログインテキストボックスをクリックし、パネルから「テクストを入力する」を選択します。
3. ユーザー名をテキストボックスに入力した後、「はい」を押してください。
4.ログインの手順に従い、「次に進む」を選択してください。
5.次に、パスワードのテキストボックスをクリックし、「」をパネルから選択してください。
6.ログインの手順に従い、「次に進む」を選択してください。
方法二:Cookieをクローラ内保存する
Cookieとは
Cookieは、ブラウザとウェブサイトのサーバー間で情報をやり取りするための小さなテキストファイルです。ウェブサイトにログインすると、サーバーはブラウザにCookieを送信し、その中にはログイン情報が含まれています。ブラウザはこのCookieを保存し、一定期間内は再ログインする必要がなくなります。なぜなら、サーバーはCookieを通じてあなたを認識できるからです。Cookieには有効期限があり、期限が切れると新しいCookieを取得するために再度ログインする必要があります。
詳細手順
-
- 取得したいAmazonの商品ページをクライアント内で開き、ブラウジングモードを開始し、ログインを完了してください。
- 次に、ログイン状態をワークフローに保存します。「Webページを開く」ステップの詳細設定の「特定のCookieを使用」を選択し、「該当ページのCookieを取得する」をクリックします。
- 取得したいAmazonの商品ページをクライアント内で開き、ブラウジングモードを開始し、ログインを完了してください。
クッキーの取得に成功しました。保存することを忘れないでください。
これでデータ抽出へ進むことができるようになりました。