広告ブロック&キャッシュクリア
フォローするOctoparseでスクレイピングは、Webページを開くことから始まります。Webページをより早く読み込みため、「広告ブロック」と「キャッシュクリア」という2つの機能を提供しています。これらの機能を適切に活用することで、Webスクレイピングの効率を大幅に上げることができます。
広告ブロック
クローラの抽出速度は、ページの読み込み速度に影響します。バナーやポップアップなど多くの広告がページに表示された場合、ページの読み込みは遅くなり、時間がかかります。 広告をブロックすると、読み込み時間は速くなります。
広告をブロックする方法
Octoparseには広告ブロックを設定する方法が2つあります。
1. 「Webページを開く」のステップを選択して、「詳細設定」の「ポップアップをブロック」を選択します。
2. または「設定」ボタンをクリックすると、「広告をブロックする」オプションがあります。
ヒント! 広告ブロック技術を使うと、Webページの構造が変更されることがあります。その場合は、要素の位置を定めるためにXPathを直してください。 |
キャッシュクリア
「Webページを開く」のステップを選択すると、「ほかのオプション」で「ブラウザのキャッシュをクリア」を簡単に見つけられます。
特定のCookieを利用する
- 「特定のCookieを使用」をクリックします。
- 「該当ページのCookieを取得する」をクリックします。
そうすると、新しいCookieはOctoparseに保存されました。
ヒント! 1. Cookieはさまざまなので、有効期間も異なります。ブラウザを閉じた後すぐに無効になるのがあり、長く滞在するのもあります。Octoparseでは、保存されたCookieは有効期限が切れたら無効になります。ですから、キャッシュをクリアしてCookieを再度読み込む必要があります。 2. キャッシュ設定は、特にログインが必要なウェブサイトにとっては非常に重要です。ログインした後のデータ取得ご覧ください。 |