複数のWebページ(URLリスト)からデータを抽出する
フォローする応用シーン
同じ構造である複数のページからデータを取得したい場合です。例えば、食べログからリスト情報をスクレイピングする時、すべてのページは同じページ構造を使えているため、一回設定されたらすべてのページからデータを抽出することができます。
別の例として、ニュース記事などの場合、各記事ページは同じページ構造を使う可能性も高いです。
複数のURLからデータを抽出するには、すべてのURLをループに入力して、その後データ抽出ステップを追加します。Octoparseは、URLを1つずつ読み込み、各ページからデータをスクレイピングします。
「URLリスト」の使うタスクがクラウド内で行う場合、タスクは複数のサブタスクに分割され、いくつかのクラウドサーバ上で同時に実行されて、抽出効率も上げられます。
「URLリスト」モードでは、入力したWebページが連続であるかどうかは関係なく、同じページ構造がある限り、リストに追加できます。
Q:ページ構造が異なるURLは使えますか?
A:欲しいデータ、設定方法によって異なります。 各ページの見出しやソースコードなどの情報が必要な場合は、可能です。
Q:一度に追加できるURLの数に制限はありますか?
A:はい。手動で入力する場合は一度に追加できるURLは10,000件です。ファイルからインポートする場合は、最大100万件で追加できます。ただし、URLが長すぎる場合は、インポート可能な数が少なくなりますので、ご注意ください。
Q:Octoparseは自動的にURLを収集して追加できますか?
残念ながら、URLを手動で収集してリストに追加する必要があります。Octoparseを使ってURLを抽出した後「URLリスト」に追加できます。また、APIより、クライアントを起動しなくてもURLリストを変更できます。
操作方法
1. 新規タスクの場合
1) 「+新規作成」をクリックして、「カスタマイズモード」を選択して新しいタスクを作ります。
2) テキストボックスにURLのリストを貼り付け、「URLを保存する」をクリックします。
「保存」をクリックすると、ワークフロー内に「URLループ」(リストをループして開く)が自動的に作成されました。
「URLループ」のステップ、もしくはをクリックすれば、入力したURLが「ループアイテム」に見えます。
3) ニーズに合わせてステップを追加
2. 既存タスクから調整する
すでに特定のページのワークフローを設計している場合は(左)、外部ループを追加するだけでよいでしょう(右)。
1) ワークフローで + をクリックして、「ループアイテム」を追加します。
2) 「ループアイテム」のステップをクリックし、基本設定で「ループモード」に「URLリスト」を選択します。
3) 鉛筆アイコンをクリックし、URLのリストを入力/貼り付け/インポートします。「保存」をクリックしてURLリストを保存します。
「ループアイテム」をクリックすると、追加されているURLのリストが表示されます。
4)残りのステップをすべてループアイテムに移動します。
移動後のイメージ
5)「ページを開くステップ」の設定を調整し、ループ内のURLを開くようにします。
(チェックを入れた後、保存ボタンがクリックできない場合は、タイムアウト時間をご調整ください。)