ログインが必要なWebページからデータ取得
フォローする対象サイトがログインする必要がある場合でも、Octoparseでデータをスクレイピングできます。
以下はInstagramを例として操作手順を紹介します。
1.まずはログイン情報を入力し、ログインする(①-⑥)
- ①ユーザー名入力用のテキストボックスをクリックします。
- ②「操作ヒント」から「テクストを入力する」を選択します。
- ③テキストボックスにユーザー名を入力します。
- ④「はい」をクリックすると、入力されたユーザー名がWebページのユーザー名ボックスに自動的に入力されます。
- 同じ手順に従ってパスワードを入力します。
- ⑤ページの「ログイン」ボタンをクリックします。
- ⑥「操作ヒント」から「選択したボタンをクリックする」を選択します。
これでInstagramに正常にログインしました!
2.クッキーを使い認証成功の情報を保存する
1. クッキーを保存する
ほとんどの場合、ログイン後、認証情報を持っているクッキーをタスク内に保存できます。サイトを再度アクセスする時、Octoparseはクッキーをサイトに送信し、ログインをスキップすることができます。 (ただし、クッキーの有効期限が過ぎた後、再度ログインし生成する必要があります)。
- ①ブラウザーモードで、②「喫茶店」を検索します
- ③新しいURLをコピーします
- ワークフローのログインステップの下に⑥「Webページを開く」を追加し、「URL」の入力ボックスに③URLを入力します。
- ⑦詳細設定タブの「特定のCookieを使用」を選択し、「該当ページのCookieを取得する」をクリックします。
- ログインステップをスキップするようになりました、保存済みクッキーがありますので、前作ったログインステップを削除します。
- これでCookieの設定が終わり、データ抽出へ進むことができるようになりました。
ヒント! 保存されたクッキーは有効期限が切れる前に有効です。 クッキーには有効期限があり、有効期限が切れたクッキーは消滅し、リクエストに載りません。更新されたクッキーを取得して保存するために、適切なアクションを追加して、再度ログインする必要があります。 ご入力のパスワードは十分に保護されています。 · Octoparseでは、パスワードを入力すると、自分のOctoparseアカウントでのみアクセスできます。タスクを出力すると、タスクに保存されたパスワードは自動削除されます。 · タスクを削除すると、保存されたログイン情報はすぐにアカウントから永久に削除されます。 |
2. クッキーをクリアする
新しいユーザー情報でログインする場合、以前保存したクッキーをクリアしなければなりません。
- ログインページの「Webページを開く」をクリックします。
- 「ほかのオプション」で「ブラウザのキャッシュをクリア」を選択します。
ヒント! ローカル抽出を実行しながらキャプチャ認証を手動で入力する · キャプチャ認証が出た場合は、ローカルで実行するときにキャプチャを手動で入力できます。なお、現在クラウド抽出はキャプチャ認証の処理をサポートしていません。 |