Webページを開く
一週間前以上前にアップデートされました

スクレイピングするターゲットWebサイトがある場合、最初に開始する特定のURLが必要です。 Octoparseの「Webページを開く」では、特定したURLを開きます。一般的なウェブサイトのドメインリンクではなく、抽出したいデータを含むダイレクトウェブページのURLを使用することをお勧めします。

「Webページを開く」からOctoparseを始めましょう!

1.単一のWebページを開く

単一のWebページURLを開く場合は3つの方法があります。

  • Octoparseのホームページ

検索バーにURLを直接入力し、「スタート」を押して開始できます。

  • サイドナビゲーションメニュー

サイドナビゲーションメニューに「+新規作成」ボタンがあります。それをクリックし、最初のカスタマイズタスクを選択します。

すると、「新規タスク」設定ページで「URLプレビュー」に手動でURLを入力し、「保存」を押せばページが開けます。

mceclip7.jpg

「Webページを開く」がワークフローで自動的に生成されます。

  • タスクワークフロー

ワークフローに新しいページのURLを追加する場合、ワークフロー内でマウスを動かすと、各ステップの間に「+」アイコンが表示され、それをクリックすればステップを追加できます。

「+」アイコンをクリックすると、ドロップダウンメニューにいくつかのオプションが表示されます。「Webページを開く」を選択します。

「Webページを開く」という新しいステップが生成されます。ステップをダブルクリックしてアクション設定を開き、新しいページのURLを入力できるようにします。「保存」をクリックして設定を保存します。

mceclip9.jpg

2.ループで複数のURLを開く

同様のウェブ構造を共有する複数のウェブページURLがある場合、タスクを1つずつ作成する必要はなく、一度にURLを入力できます。

複数のURLを開く方法は、実際には単一のWebページを開く方法と同じです。

  • Octoparseのホームページ

URLのリストがある場合は、直接(たとえば、Excelファイルから)コピーして、検索バーに貼り付けることもできます。有効なURLが検出されたら、「スタート」ボタンを押して開始できます。

入力したすべてのURLを含む「URLループ」ボックスが生成されます。 「URLループ」ボックスをダブルクリックして、ループアイテムのURLを確認または変更できます。

mceclip11.jpg

  • サイドナビゲーションメニューと4つのURL入力方法

サイドナビゲーションメニューに「+新規作成」ボタンがあります。それをクリックし、最初のカスタマイズタスクを選択します。

すると、「新規タスク」設定ページが開きます。URLの一括インポートという記事でURLを入力する4つ方法についた説明があります。状況に応じて適切な方法をご利用ください。

URLを手動で入力する場合は、必ず1行に1つずつURLを入力するか、URLのリストを含むExcelシートから直接コピーできます。

mceclip10.jpg

  • タスクワークフロー

ワークフローにURLのリストを追加する場合は、「+」アイコンをクリックして、必要ないくつかの手順を追加できます。

まず、ドロップダウンメニューから「ループアイテム」を追加する必要があります。次に、追加された「ループアイテム」をクリックし、「基本設定」に入力したいURLを入力します。

ループアイテム」の下で、ループモードを「URLリスト」として選択し、鉛筆アイコンをクリックしてURLを入力します。

mceclip14.jpg

設定を保存すると、「Webページを開く」を含む「ループアイテム」が生成されます。

3.「Webページを開く」の設定

ワークフローの「Webページを開く」をクリックすると、Webサイトの状態とインターネット接続に基づいて、このステップの設定を調整できます。

  • 「基本設定」と「詳細設定

Webページのロードにかなり時間がかかる場合は、「タイムアウト」を調整できます。 URLバーでWebページのURLを変更することもできます。

mceclip12.jpg

「詳細設定」で、待機時間とCookieをこのステップに設定できます。 「実行前に数秒を待機」を設定して、各URLを開く間隔を制御できます。Cookieの設定については、Webページへのアクセスにログインが必要な場合によく使用されます。

mceclip13.jpg

「ほかのオプション」の中で、最も頻繁に使用されるのは、スクロールダウン設定です。ページをスクロールダウンしてコンテンツをロードする必要がある場合は、これを選択できます。

まず、「一番下までスクロール」または「1画面ずつスクロール」のスクロール方法を選択する必要があります。

次に、「回数」(必要なスクロールダウン回数)と「実行間隔」(各スクロール間の間隔時間)を設定して、新しいデータをスクロール後にロードできるようにします。

mceclip23.jpg

  • 再試行

再試行」を設定すると、現在のページに必要なテキスト/要素が含まれているか含まれていない場合に、ページを再ロードできます。

4. Webページが読み込まれない

Octoparseの組み込みブラウザーでは、Webページをうまく読み込めない場合があります。空白のページのみが表示されます。

この場合、左上隅の設定アイコンをクリックして、タスク設定を変更できます。

内蔵ブラウザ」で別のブラウザに切り替えます。

内蔵ブラウザ」には多くのオプションがあります。 1つ選択して「保存」をクリックすると、前のページに戻ります。

次に、「Webページを再読み込む」のアイコンをクリックしてページを更新し、Webページが適切に読み込まれるかどうかを確認します。

ご不明な点がございましたら、Octoparseサポートチームまでお問い合せください。

こちらの回答で解決しましたか?