Webページを開く
フォローするスクレイピングするターゲットWebサイトがある場合、最初に開始する特定のURLが必要です。 Octoparseの「Webページを開く」では、特定したURLを開きます。一般的なウェブサイトのドメインリンクではなく、抽出したいデータを含むダイレクトウェブページのURLを使用することをお勧めします。
「Webページを開く」からOctoparseを始めましょう!
1.単一のWebページを開く
2.ループで複数のURLを開く
3.「Webページを開く」の設定
4.Webページが読み込まれない
1.単一のWebページを開く
単一のWebページURLを開く場合は3つの方法があります。
例のURL:https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2540003.m570.l1311&_nkw=motorcycle&_sacat=0
- Octoparseのホームページ
検索バーにURLを直接入力し、「抽出開始」を押して開始できます。

- サイドナビゲーションメニュー
サイドナビゲーションメニューに「+新規作成」ボタンがあります。それをクリックし、最初のカスタマイズタスクを選択します。

すると、「新規タスク」設定ページで「URLプレビュー」に手動でURLを入力し、「保存」を押せばページが開けます。

「Webページを開く」がワークフローで自動的に生成されます。

- タスクワークフロー
ワークフローに新しいページのURLを追加する場合、ワークフロー内でマウスを動かすと、各ステップの間に「+」アイコンが表示され、それをクリックすればステップを追加できます。

「+」アイコンをクリックすると、ドロップダウンメニューにいくつかのオプションが表示されます。「Webページを開く」を選択します。

「Webページに移動」という新しいステップが生成されます。ステップをダブルクリックしてアクション設定を開き、新しいページのURLを入力できるようにします。「保存」をクリックして設定を保存します。

2.ループで複数のURLを開く
同様のウェブ構造を共有する複数のウェブページURLがある場合、タスクを1つずつ作成する必要はなく、一度にURLを入力できます。
複数のURLを開く方法は、実際には単一のWebページを開く方法と同じです。
- Octoparseのホームページ
URLのリストがある場合は、直接(たとえば、Excelファイルから)コピーして、検索バーに貼り付けることもできます。有効なURLが検出されたら、「開始」ボタンを押して開始できます。

入力したすべてのURLを含む「ループURL」ボックスが生成されます。 「ループURL」ボックスをダブルクリックして、ループアイテムのURLを確認または変更できます。

- サイドナビゲーションメニューと4つのURL入力方法
サイドナビゲーションメニューに「+新規作成」ボタンがあります。それをクリックし、最初のカスタマイズタスクを選択します。

すると、「新規タスク」設定ページが開きます。バッチURL入力という記事でURLを入力する4つ方法を紹介しています、そちらの状況に応じて自由に選んでください。
URLを手動で入力する場合は、必ず1行に1つずつURLを入力するか、URLのリストを含むExcelシートから直接コピーできます。

- タスクワークフロー
ワークフローにURLのリストを追加する場合は、「+」アイコンをクリックして、必要ないくつかの手順を追加できます。

まず、ドロップダウンメニューから「ループアイテム」を追加する必要があります。次に、追加された「ループアイテム」をクリックし、「基本設定」に入力したいURLを入力します。

「ループアイテム」の下で、ループモードを「URLリスト」として選択し、
をクリックしてURLを入力します。


設定を保存すると、「Webページを開く」を含む「ループアイテム」が生成されます。
3.「Webページを開く」の設定
ワークフローの「Webページを開く」をクリックすると、Webサイトの状態とインターネット接続に基づいて、このステップの設定を調整できます。
「基本設定」と「詳細設定」
Webページのロードにかなり時間がかかる場合は、「タイムアウト」を調整できます。 URLバーでWebページのURLを変更することもできます。

「詳細設定」で、待機時間とCookieをこのステップに設定できます。 「実行前に数秒を待機」を設定して、各URLを開く間隔を制御できます。Cookieの設定については、Webページへのアクセスにログインが必要な場合によく使用されます。

「ほかのオプション」の中で、最も頻繁に使用されるのは、スクロールダウン設定です。ページをスクロールダウンしてコンテンツをロードする必要がある場合は、これを選択できます。
まず、「一番下までスクロール」または「1画面ずつスクロール」のスクロール方法を選択する必要があります。
次に、「回数」(必要なスクロールダウン回数)と「実行間隔」(各スクロール間の間隔時間)を設定して、新しいデータをスクロール後にロードできるようにします。
- 再試行
「再試行」を設定すると、現在のページに必要なテキスト/要素が含まれているか含まれていない場合に、ページを再ロードできます。

4. Webページが読み込まれない
Octoparseの組み込みブラウザーでは、Webページをうまく読み込めない場合があります。空白のページのみが表示されます。
この場合、左上隅の設定アイコンをクリックして、タスク設定を変更できます。

「内臓ブラウザ」で別のブラウザに切り替えます。

「内蔵ブラウザ」には多くのオプションがあります。 1つ選択して「保存」をクリックすると、前のページに戻ります。

次に、「Webページの再読み込み」のアイコンをクリックしてページを更新し、Webページが適切に読み込まれるかどうかを確認します。

ご不明な点がございましたら、Octoparseサポートチーム
までお問い合せください。
