「もっと見る」ボタンを対応する方法(8.2.2バージョン)
フォローする多くのWebサイトでは、リストなどのコンテンツを読み込むために「もっと読む」、「もっと見る」や「さらに表示」のボタン、或いは無限スクロール技術を使用しています。より良いユーザー体験を提供することができるので、現在のWebサイトをよく使われています。
以前のバージョンでは、すべてのデータを抽出する前に、「もっと見る」ボタンをクリックして、ページの内容を全部表示してから、データを抽出します。
例として、「実行が次の回数に達する」が 20 に設定されている場合、Octoparse は、「もっと見る」ボタンを 20 回クリックしてからデータを抽出するようになっております。ある時は、タスクが「もっと見る」ボタンを長時間クリックした後にデータをスクレイプできない場合に、ユーザーに混乱させるケースもよくあります。また、アイテムの読み込むを待たさないと抽出できないので、スクレイピングの効率も下げられています。
Octoparse 8.2.2 では、「もっと見る」ボタンをクリックしながらデータを抽出することができるようになりました。
Octoparse 8.2.2 はこちらからダウンロードできます。

「もっと見る」ボタンをクリックする
一部のWebページでは、AJAXを介してより多くのコンテンツを継続的にロードするため、「もっと見る」ボタンをクリックする必要があります。
ページから利用可能なコンテンツをスクレイピングするために、すべての情報が読み込まれるまで「もっと見る」ボタンを繰り返しクリックするようにOctoparseを設定します。
https://itp.ne.jp/genre/?genre=9&subgenre=233&area=13101&sort=01&sbmap=falseを例として説明します。
1.自動識別機能でボタンを指定する
1) URLを入力し、「抽出開始」をクリックします。
ページを自動的に識別します。
※自動識別が機能しない場合は、操作ヒントで「Webページを自動識別する」をクリックしてください。
2) 識別された内容の確認・編集
「プレビュー」をクリックすると、Octoparse が正しいボタンを選択したかどうかを確認できます。


操作ヒントの「ワークフローを生成」をクリックすると、ワークフローが生成されます。下記画像のように、ワークフローが設定されています。
必要に応じて、ループアイテムの設定から「ループの終了」をクリックして、クリック数を編集することもできます。


2.手動で「もっと見る」ボタンを指定する

- ワークフローから「次のページをクリック」をクリックします。
- 「クリックオプション」から「AJAX読み込み」を選択し、タイムアウトを設定します(通常、1秒または2秒)。

|


関連記事: