URLリストからデータを抽出することは、Octoparseで大規模なデータスクレイピングを達成するための最も効率的で強力な方法の1つです。URLのリストが多い場合、Octoparseはローカルファイル(テキストまたはスプレッドシート)から、別のタスクからURLのインポートをサポートしたり、あらかじめ定義されたパターンに基づいてURLを生成することさえできます。これらの機能により、Octoparseは大規模なデータ抽出に伴う退屈な作業負荷を削減することを目指しています。
単一のタスク/クローラにURLを一括してインポートするには、次の3つの方法があります(最大100万件のURL):
3. あらかじめ定義されたパターンに基づいてURLをバッチ生成する
ヒント! インポート/生成されたURLの数が100万に達すると、Octoparseはすぐにインポート/生成を停止します。 |
1. ローカルファイルからURLをインポートする
以下のファイル形式からURLをインポートできます。
- CSV
- TXT
- Excel (.xlsx & .xls)
· 「カスタマイズモード」を選択して「+タスク」をクリックし、新しいタスクを作る
· 「ファイルからインポート」を選択する
· 「ファイルを選択する」をクリックし、インポートするURLを含むファイルを選択する
OctoparseはファイルからすべてのURLを自動的に識別してインポートします。プレビューの目的で最初の100件のURLのみが表示されます。
· 「URLを保存する」をクリックしてインポートを完了する
2. 別のタスクからURLをインポートする
この機能により、URL抽出を別のタスクと別々に行う必要がある場合に、2つのタスクをシームレスに統合することができます。余分なURLのエクスポートとインポートは不要です。
· 「カスタマイズモード」を選択して「+タスク」をクリックすると、新しいタスクを作る
· 「タスクからインポート」を選択する
· ターゲットURLを含むタスクを選択し、適切なデータフィールドを指定する
· 「URLを保存する」をクリックしてインポートを完了する
選択したタスク(より多くのクロールに必要なURLを含むタスク)は親タスクと呼ばれ、作る新しいタスクは子タスクになります。2つのタスクは自動的に関連付けられ、お互いに関連して実行されます。
タスクが親タスクとして選択されると、Octoparseは自動的に選択されたタスク(クラウドとローカル)に抽出されたすべてのデータを取得します。
まだ実行され、URLを取得していないタスクを親タスクとして選択することもできます。テキストボックスにURLの1つを入力してから、子タスクを作り続けます。
- 関連付けられた実行
子タスクを実行するように設定すると、抽出を開始する基準を指定できます。
· タスク構成インターフェースの「抽出開始」をクリックするか、ダッシュボードの「オプション」をクリックする
· 「親タスク設定」/「スケジュール設定」を選択する
選択肢は4つあります。
· 親タスクにURLを抽出するとすぐに子タスクを実行する場合は、「親タスクが開始したらすぐにタスクを実行する」を選択します。
ヒント! 1. 親タスクの設定から任意のオプションを選択して関連する実行を設定すると、両方のタスクがOctoparse クラウドサービス 2. 関連する実行が設定されている場合、子タスクの実行にはタスクスケジュール |
3. あらかじめ定義されたパターンに基づいてURLをバッチ生成する
「バッチ生成」機能を使用すると、特定のURLのさまざまなパラメータを変更することで、特定のパターンに従った大量のURLを簡単に生成できます。
この機能は、特定のWebサイトからの多数の異なるページからのスクレイピングに特に役立ちます。URLジェネレータを使って、すべてのページURLをすばやく生成でき、ページごとに1つずつ通る必要はありません。
· 「カスタマイズモード」を選択して「+タスク」をクリックすると、新しいタスクを作る
· 「バッチ生成」を選択する
· バッチ生成のベースとするURLを入力する
· URLパラメーターをハイライトし、「パラメーターを追加する」をクリックする
· 4つの「パラメータータイプ」オプションから選択して、必要なパターンを定義する
· 「URLを保存する」をクリックしてインポートを完了する
- 4つの「パラメータータイプ」オプション
- Type 1 : 数
- Type 2 : 文字
- Type 3 : 日付
- Type 4: カスタムリスト
関連記事: