URLの一括インポートとは?
URLの一括インポート機能は、大量のURLをOctoparseにインポートする機能です。Octoparseは、ローカルファイル(テキストまたはスプレッドシート)からの一括URLインポート、別のタスクからのURLインポート、または事前定義されたパターンに基づいてURLを生成することをサポートしています。
URLを一括でインポートする方法
サイドバーメニューから「+ 新規作成」をクリックし、カスタマイズタスクを選択すると、URLのインポートパネルが表示されます。
URLを一括してインポートするには、次の3つの方法があります(最大100万件のURL):
ヒント:インポート/生成されたURLの数が100万に達すると、Octoparseはすぐにインポート/生成を停止します。
1. ローカルファイルからURLをインポートする
以下のいずれかのファイル形式(CSV/ TXT/ Excel(.xlsxおよび.xls))からURLをインポートすることができます。
「ファイルからインポート」を選択します。
「選択」をクリックし、URLが含まれているファイルを選択し、その後、URLが含まれているシートと列を選択します。
インポートプロセスを完了するために、「保存」をクリックします。
注意:
プレビューの目的で表示されるのは最初の100個のURLのみです。
CSVファイルからインポートする場合は、ファイルにURLが含まれる列が1つだけであることを確認してください。ファイルに複数の列がある場合、URLはインポートされず、無効なURLとして認識されます。
2. 別のタスクからURLをインポートする
この機能を使用すると、URLの抽出を別のタスクで個別に行う必要がある場合に、2つのタスクをシームレスに統合することができます。手動でのURLのエクスポートやインポートは不要です。
「タスクからインポート」を選択します。
対象のURLを含むタスクを選択し、適切なデータフィールドを指定します。
インポートプロセスを完了するために、「保存」をクリックします。
なお、選択されたタスク(必要なURLを含むタスク)は親タスクと呼ばれ、新しいタスクはそのURLで設定される子タスクとなります。2つのタスクは自動的に関連付けられ、連携して実行することができます。
ヒント:
1. 親タスクの設定から任意のオプションを選択して関連する実行を設定すると、両方のタスクがOctoparse クラウドサービスを介してクラウド内で実行されます。関連付けられた実行はローカル抽出を使えません。
2. 関連する実行が設定されている場合、子タスクの実行にはタスクスケジュールを使えません。
3. 別のタスクからのインポートでは、100万以上のURLをインポートすることができます。
3. パラメーターを設定してURLをバッチ生成する
「バッチで生成」機能を使用すると、特定のパターンに従って大量のURLを簡単に生成することができます。与えられたURLのさまざまなパラメータを変更することで、特定のパターンに従ったURLを生成することができます。
「バッチで生成」を選択します。
一括生成の基となるURLを1つ入力します。
「パラメーターを追加」をクリックします。
4つのパラメータタイプオプションから選択し、必要なパターンを定義し、「保存」をクリックしてリストを保存します。
4つのパラメータタイプオプション:
1. 数字
初期数値を入力し、毎回数値を増やす(+)または減らす(-)ように選択し、繰り返し回数または終了値を入力することができます。たとえば、異なるページのURLを生成する場合、ページ番号のパラメータを1から100まで設定する必要があります。初期数値を1とし、毎回+1と入力し、100回繰り返すように設定します。終了値は自動的に100と入力されます。
2. 英文字
開始文字と終了文字を入力することができます。
3. 日付け
4. カスタムリスト
検索キーワードや製品番号のような独自のリストを入力することができます。
ヒント: 複数のパラメータを設定してURLを生成することができます。例えば、ベースURLがwww.octoparse.com/[パラメータ1]/[パタメータ2]である場合、
パラメータ1={A, B}, パラメータ2={1, 2}
最終的なURLリストは以下のようになります: