ユーザーエージェント(UA)とは
スクレイピングでは、ユーザーエージェント(以下はUA)を単純に「デバイス+ブラウザ」と考えることができます。 ブラウザやデバイスによってUA値は異なり、ブラウザ、バージョン、使用言語、現在のデバイスなどが含まれます。
UA値は、ページが要求されたときに、ターゲットウェブサイトのサーバーに一緒に送信されます。 そして、サーバーは適切なUAを判断し、情報を返します。
例えば、お客様が携帯電話のブラウザで訪問された場合、サーバーはUA値のデバイス情報に基づいて、携帯電話に適したウェブページのレイアウトを返します。 コンピュータのブラウザで閲覧した場合、サーバーはコンピュータのレイアウトに適したウェブページを返します。
応用場面
1.モバイルレイアウトでWebサイト情報をクロールする必要がある
2.サイトには厳しいクロール対策が施されています。 特定のブラウザのみアクセス可能(通常は旧バージョンのブラウザ)
変更方法
プリセットされたUAを使用する
Octoparseはあらかじめ主流のUA値を設定していますので、特別なニーズがない場合、それを選ぶだけでよいでしょう。新しいサイトではsafari 15.1、古いサイトではChrome 78.0 for Linuxの使用を推奨します。
1. タスク設定を開き、実行設定に入ります。
Octoparseは各プラットフォームのモバイルブラウザに対応したUAを用意しています。
また、Googleのロボットを模擬したgoogle botもあります。
2. 切り替え後、保存を押して編集画面に戻ると、新しいUA値が対象サイトのサーバーに送信され、ページも自動的に更新されます。
カスタムUAを追加する方法
UAを取得する
Chromeの場合
アドレスバーに「chrome://version/」と入力すると、以下の情報が表示されます。黄色い枠の[User-Agent]以降の情報をコピーして、オクトパースに貼り付けることができます。
他のブラウザの場合
1. ウェブサイトを開き、ウェブページを右クリックして「検証」を選択してコンソールにアクセスすることもできます。
2. ウェブページをリロードします。
3. ネットワークオプションをクリックすると、以下のインターフェイスが表示されます。
「ネットワーク]タブには、ブラウザから送信されたさまざまな要求が表示されます。
①リクエストの一つをクリックし、右の部分をスクロールして、②ヘッダーの中の三User-Agentを探します。
ヘッダーとは、メッセージのヘッダーを意味します。この部分にUser-Agentの情報が記載されています。メッセージヘッダの中にUAが含まれていないものがあれば、リクエストを変更して検索を続けます。
4. User-Agentの行からUAをコピーします。
UAをタスクに適用する
タスク設定を開き、設定ボタンをクリックして設定ページに入る
1. 「実行設定]、「カスタマUser-Agentを追加する」をクリックします。
2. User-Agentに好きな名前を付けます。
3. User-Agent値にUAを貼り付け、「追加」をクリックして保存します。
4. 内蔵ブラウザボックスから、追加したUAを選択します。
5. 「保存」をクリックします。