すべてのコレクション
ヘルプ
ページめくり
ページネーションの処理(「もっと見る」ボタンがある場合)
ページネーションの処理(「もっと見る」ボタンがある場合)
一週間前以上前にアップデートされました

多くのWebサイトでは、リストなどのコンテンツを読み込むために「もっと読む」、「もっと見る」や「さらに表示」のボタン、或いは無限スクロール技術を使用しています。

このチュートリアルでは、Octoparseで「もっと読む」(「もっと見る」や「さらに表示」とも言います)のボタンがあるページを処理し、すべてのデータを読み込んで、抽出する方法を説明します。

「もっと見る」ボタンをクリックする

一部のWebページでは、AJAXを介してより多くのコンテンツを継続的にロードするため、「もっと見る」ボタンをクリックする必要があります。

ページから利用可能なコンテンツをスクレイピングするために、すべての情報が読み込まれるまで「もっと見る」ボタンを繰り返しクリックするようにOctoparseを設定します。

https://news.yahoo.co.jp/flashを例として説明します。

1.自動識別機能でボタンを指定する

1) URLを入力し、「スタート」をクリックする

ページを自動的に識別します。
※自動識別が機能しない場合は、操作ヒントで「ウェブページのデータを自動検出」をクリックしてください。

2) 識別された内容の確認・編集する

「プレビュー」をクリックすると、Octoparse が正しいボタンを選択したかどうかを確認できます。

正しいボタンが選択されていないと思われる場合には、「編集」をクリックして、手動でボタンの位置を指定することができ、ご要望に応じて、クリックの回数を指定することもできます。

なお、「スクロールダウンを設定する」の下にある「編集」をクリックすると、ご要望に応じて重複回数を設定することができます。

3) ワークフローを生成する

操作ヒントの「ワークフローを生成」をクリックすると、ワークフローが生成されます。下記画像のように、ワークフローが設定されています。


必要に応じて、「ループアイテム」をクリックして「基本設定」にクリック数を編集することができます。

mceclip5.jpg

4) タスクを実行してみます

「保存」と「実行」を順次にクリックします。「ローカル抽出」を選択します。タスクの実行効果と抽出結果を確認できます。

2.手動で「もっと見る」ボタンを指定する

1) 対象タスクの編集画面を開きます。

2) 「もっと見る」ボタンをクリックします。

3) 操作提案で「ループクリップ」をクリックします。

これはOctoparseにボタンを繰り返しクリックするように指示します。

4) AJAXタイムアウト時間を設定します。

  • ワークフローから「次のページをクリック」をクリックします。

  • 「詳細設定」から「AJAX読み込み」を選択し、タイムアウトを設定します(通常、1秒または2秒)。

mceclip8.jpg

ヒント!

「もっと見る」ボタンを7回クリックしたい場合は、ワークフローから「ページネーション」ループを選択し、「基本設定」に実行回数を7に設定します。

5) 各データフィールドを指定します。(レッスン4を参照)。

6) 「ローカル抽出」でタスク実行して、抽出結果を確認します。

Webサイトの構造は異なるので、すべてのステップが正しく実行されているかどうかを確認することが重要です。

こちらの回答で解決しましたか?