パラメータを使用してバッチURLを生成する
フォローするパラメータとは
以下の例は、オンラインショッピングサイトの商品検索ページのURLです。
https://example.com/products/search?category=electronics&brand=Sony&price_range=1000-5000&sort_by=popularity
このURLには複数のパラメータが含まれており、以下のように説明できます:
products/search
この部分は、商品検索ページを示すパス(URLの一部)です。これは商品を検索するための特定のページにアクセスすることを意味します。
category=electronics
このパラメータは、商品のカテゴリを指定します。この例では、「電子製品」のカテゴリが指定されています。
brand=Sony
このパラメータは、商品のブランドを指定します。この例では、「Sony」ブランドの商品を検索するように指定されています。
price_range=1000-5000
このパラメータは、商品の価格範囲を指定します。この例では、価格が1,000円から5,000円の商品を検索するように指定されています。
sort_by=popularity
このパラメータは、商品の並び順を指定します。この例では、「人気順」に商品を並び替えるように指定されています。
これらのパラメータを組み合わせることで、ユーザーはオンラインショッピングサイトで特定のカテゴリの商品を特定の価格範囲で、特定のブランドで、人気順に検索することができます。このように、複数のパラメータを使ってURLを構築することで、ユーザーは特定の要件に基づいて目的の結果を得ることができます。
パラメータよりバッチURLを生成することの利点
もしOctoparseのクラウドサーバーを使用してデータ収集を行う場合、タスクを分割して実行することで、収集速度が大幅に向上します。
その他、以下のような利点があります。
-
自動化処理
パラメータを使用してURLを生成することで、多数のURLを簡単に自動化できます。大規模なデータ処理、バッチ操作、またはテストの際に特に有用です。
-
柔軟性
パラメータ化されたURLを使用すると、特定の部分を簡単に調整できます。全体のURLを変更する必要がありません。異なる環境、シナリオ、または目的間で切り替える際に非常に便利です。 -
エラーの回避
多数のURLを手動で記述する際には、スペルミス、フォーマットの問題、または欠落が発生する可能性があります。パラメータを使用してURLを生成することで、これらの潜在的なエラーを減らし、データの正確性と一貫性を向上させることができます。 -
データ処理と分析
データ処理や分析の過程では、異なる条件で異なるデータセットを取得する必要がある場合があります。パラメータ化されたURLを使用すると、異なる条件のURLを素早く生成でき、データの収集と分析が容易になります。 -
メンテナンスと更新
特定のURLを頻繁に変更する必要がある場合、パラメータ化された方法を使用すると、メンテナンスと更新がより簡単に行えます。各URLを1つずつ検索して変更する必要はありません。パラメータを変更するだけで済みます。
Octoparseクライアント内の設定
設定入口
事前にループステップを作成し、以下の数字順に従って、編集URLリスト画面にアクセスしてください。
パラメータを挿入する方法(複数挿入可能)
仮想のオンラインショッピングサイト「example.com」では、総数50件の商品があるとします。ページネーションを使用して、1ページあたり10件の商品を表示し、ユーザーが異なるページに移動できるようにします。
- ページ番号(Page Number)
商品リストの各ページを識別するためにページ番号を使用します。例えば、ユーザーが「?page=2」というリンクをクリックした場合、2ページ目の商品リストが表示されます。
https://example.com/products?page=1
https://example.com/products?page=2
https://example.com/products?page=3
- オフセット(Offset)とページサイズ(Page Size):
商品リストを表示する際に、オフセットとページサイズを組み合わせて指定します。例えば、1ページあたり10件の商品を表示したい場合、「?offset=0&limit=10」というリンクを使用します。
https://example.com/products?offset=0&limit=10 (1ページ目の商品:1~10件)
https://example.com/products?offset=10&limit=10 (2ページ目の商品:11~20件)
https://example.com/products?offset=20&limit=10 (3ページ目の商品:21~30件)
一般的なパラメータ
クエリパラメータ(Query Parameters)
クエリパラメータはURLの末尾に追加されるキーと値のペアで、追加の情報を渡すために使用されます。クエリパラメータの値を変更することで、異なるURLを生成することができます。
https://example.com/search?keyword=apple
https://example.com/search?keyword=orange
この例では、クエリパラメータ"keyword"の値はそれぞれ"apple"と"orange"であり、異なるキーワードに基づいて異なる検索URLを生成できます。
パスパラメータ(Path Parameters)
パスパラメータはURL内のプレースホルダー形式のパラメータで、リソースを識別したり特定の操作を指定するために使用されます。パスパラメータの値を変更することで、異なるURLを生成することができます。
https://example.com/users/{user_id}
https://example.com/posts/{post_id}
この例では、"{user_id}"と"{post_id}"はパスパラメータであり、それぞれ異なるユーザーIDや投稿IDに置換して異なるURLを生成できます。
ページネーションパラメータ(Pagination Parameters)
ページネーションパラメータは、ウェブアプリケーションやウェブサイトにおいて、大量のコンテンツを複数のページに分割して表示するために使用されるパラメータです。これにより、ユーザーは簡単にページ間を移動し、コンテンツを効果的にナビゲートできます。ページネーションは、特に記事、商品リスト、検索結果、コメントなど、長いリスト形式のデータを表示する際に非常に便利です。
ページネーションパラメータは、以下のような一般的なパラメータを含みます:
- ページ番号(Page Number)
ページ番号は、表示したいページの番号を指定するためのパラメータです。例えば、URLに「?page=2」というクエリパラメータがあれば、ユーザーはページ番号2のコンテンツを表示できます。これにより、ユーザーはページを切り替えて欲しいページにアクセスできます。 - オフセット(Offset):
オフセットは、表示したいコンテンツの開始位置を示すためのパラメータです。ページネーションが1ページあたりのコンテンツ数を決定する際に使用されます。例えば、「?offset=20&limit=10」というクエリパラメータがあれば、21番目から30番目までのコンテンツが表示されます。 - ページサイズ(Page Size):
ページサイズは、1ページあたりに表示するコンテンツの数を指定するためのパラメータです。例えば、「?limit=10」というクエリパラメータがあれば、1ページに10件のコンテンツが表示されます。
https://example.com/products?page=1
https://example.com/products?offset=20&limit=10
ここでは、"page"と"offset"がページネーションパラメータであり、表示するページ番号またはデータのオフセットを指定します。
時間パラメータ(Time Parameters)
時間パラメータは、特定の時間範囲やタイムスタンプを指定して、時間に関連するデータを取得するために使用されます。
https://example.com/events?start_date=2023-01-01&end_date=2023-12-31
この例では、"start_date"と"end_date"が時間パラメータであり、イベントの開始日と終了日を指定します。
これらは一般的なパラメータの例ですが、具体的な要件に応じて独自のパラメータタイプを定義し、URLの構造と組み合わせてバッチで生成することができます。