URLの一括インポート
フォローするURLリストからデータを抽出することは、Octoparseで大規模なデータスクレイピングを達成するための最も効率的で強力な方法の1つです。URLのリストが多い場合、Octoparseはローカルファイル(テキストまたはスプレッドシート)から、別のタスクからURLのインポートをサポートしたり、パラメーターを設定してURLを生成することさえできます。これらの機能により、Octoparseは大規模なデータ抽出に伴う退屈な作業負荷を削減することを目指しています。
単一のタスク/クローラにURLを一括してインポートするには、次の3つの方法があります(最大100万件のURL):
ヒント! インポート/生成されたURLの数が100万に達すると、Octoparseはすぐにインポート/生成を停止します。 |
1. ローカルファイルからURLをインポートする
以下のファイル形式からURLをインポートできます。
- CSV
- TXT
- Excel (.xlsx & .xls)
· 「カスタマイズタスク」をクリックし、新しいタスクを作る
· 「ファイルからインポート」を選択する
· 「ファイルを選択」をクリックし、インポートするURLを含むファイルを選択する
OctoparseはファイルからすべてのURLを自動的に識別してインポートします。ソフトに負担をかけないために最初の100件のURLのみが表示されます。
· 「保存」をクリックしてインポートを完了する
2. 別のタスクからURLをインポートする
この機能により、URL抽出を別のタスクと別々に行う必要がある場合に、2つのタスクをシームレスに統合することができます。余分なURLのエクスポートとインポートは不要です。
·「カスタマイズタスク」をクリックし、新しいタスクを作る
· 「タスクからインポート」を選択する
· ターゲットURLを含むタスクを選択し、適切なデータフィールドを指定する
· 「保存」をクリックしてインポートを完了する
選択したタスクは親タスクと呼ばれ、URLをインポートしたタスクは子タスクとなります。Octoparseはこの2つのタスクを連結させて実行します。
2つのタスクを連結させるには親タスクをクラウドでデータを取得しなければなりません。
親タスクでクラウドでデータが取得できたことを確認してから、親タスクのフィールドを選択します。
- 関連付けられた実行
子タスクを実行するように設定すると、抽出を開始する基準を指定できます。
· タスク構成インターフェースの「実行スケジュール」をクリックするか、ダッシュボードの「そのほか」をクリックする
· 「スケジュール設定」を選択する
選択肢は4つあります。
· 親タスクにURLを抽出するとすぐに子タスクを実行する場合は、「親タスクが開始したらすぐにタスクを実行する」を選択します。
ヒント! 1. 親タスクの設定から任意のオプションを選択して関連する実行を設定すると、両方のタスクがOctoparse クラウドサービス 2. 関連する実行が設定されている場合、子タスクの実行にはタスクスケジュール |
3. パラメーターを設定してURLをバッチ生成する
「バッチで生成」機能を使用すると、特定のURLのさまざまなパラメータを変更することで、特定のパターンに従った大量のURLを簡単に生成できます。
この機能は、特定のWebサイトからの多数の異なるページからのスクレイピングに特に役立ちます。URLジェネレータを使って、すべてのページURLをすばやく生成でき、ページごとに1つずつ通る必要はありません。
· 「カスタマイズタスク」をクリックし、新しいタスクを作る
· 「バッチで生成」を選択する
· バッチ生成のベースとするURLを入力する
· URLパラメーターをハイライトし、「パラメーター追加」をクリックする
· 4つの「パラメータータイプ」オプションから選択して、必要なパターンを定義する
· 「保存」をクリックしてインポートを完了する
- 4つの「パラメータータイプ」オプション
- Type 1 : 数字
- Type 2 : 英文字
- Type 3 : 日付け
- Type 4: カスタムリスト
関連記事: