スクレイピングするターゲットWebサイトがある場合、最初に開始する特定のURLが必要です。 Octoparseの「Webページを開く」では、特定したURLを開きます。一般的なウェブサイトのドメインリンクではなく、抽出したいデータを含むダイレクトウェブページのURLを使用することをお勧めします。
「Webページを開く」からOctoparseを始めましょう!
1.単一のWebページを開く
単一のWebページURLを開く場合は3つの方法があります。
例のURL:https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2540003.m570.l1311&_nkw=motorcycle&_sacat=0
Octoparseのホームページ
検索バーにURLを直接入力し、「スタート」を押して開始できます。
サイドナビゲーションメニュー
サイドナビゲーションメニューに「+新規作成」ボタンがあります。それをクリックし、最初のカスタマイズタスクを選択します。
すると、「新規タスク」設定ページで「URLプレビュー」に手動でURLを入力し、「保存」を押せばページが開けます。
「Webページを開く」がワークフローで自動的に生成されます。
タスクワークフロー
ワークフローに新しいページのURLを追加する場合、ワークフロー内でマウスを動かすと、各ステップの間に「+」アイコンが表示され、それをクリックすればステップを追加できます。
「+」アイコンをクリックすると、ドロップダウンメニューにいくつかのオプションが表示されます。「Webページを開く」を選択します。
「Webページを開く」という新しいステップが生成されます。ステップをダブルクリックしてアクション設定を開き、新しいページのURLを入力できるようにします。「保存」をクリックして設定を保存します。
2.ループで複数のURLを開く
同様のウェブ構造を共有する複数のウェブページURLがある場合、タスクを1つずつ作成する必要はなく、一度にURLを入力できます。
複数のURLを開く方法は、実際には単一のWebページを開く方法と同じです。
Octoparseのホームページ
URLのリストがある場合は、直接(たとえば、Excelファイルから)コピーして、検索バーに貼り付けることもできます。有効なURLが検出されたら、「スタート」ボタンを押して開始できます。
入力したすべてのURLを含む「URLループ」ボックスが生成されます。 「URLループ」ボックスをダブルクリックして、ループアイテムのURLを確認または変更できます。
サイドナビゲーションメニューと4つのURL入力方法
サイドナビゲーションメニューに「+新規作成」ボタンがあります。それをクリックし、最初のカスタマイズタスクを選択します。
すると、「新規タスク」設定ページが開きます。URLの一括インポートという記事でURLを入力する4つ方法についた説明があります。状況に応じて適切な方法をご利用ください。
URLを手動で入力する場合は、必ず1行に1つずつURLを入力するか、URLのリストを含むExcelシートから直接コピーできます。
タスクワークフロー
ワークフローにURLのリストを追加する場合は、「+」アイコンをクリックして、必要ないくつかの手順を追加できます。
まず、ドロップダウンメニューから「ループアイテム」を追加する必要があります。次に、追加された「ループアイテム」をクリックし、「基本設定」に入力したいURLを入力します。
「ループアイテム」の下で、ループモードを「URLリスト」として選択し、鉛筆アイコンをクリックしてURLを入力します。
設定を保存すると、「Webページを開く」を含む「ループアイテム」が生成されます。
3.「Webページを開く」の設定
ワークフローの「Webページを開く」をクリックすると、Webサイトの状態とインターネット接続に基づいて、このステップの設定を調整できます。
「基本設定」と「詳細設定」
Webページのロードにかなり時間がかかる場合は、「タイムアウト」を調整できます。 URLバーでWebページのURLを変更することもできます。
「詳細設定」で、待機時間とCookieをこのステップに設定できます。 「実行前に数秒を待機」を設定して、各URLを開く間隔を制御できます。Cookieの設定については、Webページへのアクセスにログインが必要な場合によく使用されます。
「ほかのオプション」の中で、最も頻繁に使用されるのは、スクロールダウン設定です。ページをスクロールダウンしてコンテンツをロードする必要がある場合は、これを選択できます。
まず、「一番下までスクロール」または「1画面ずつスクロール」のスクロール方法を選択する必要があります。
次に、「回数」(必要なスクロールダウン回数)と「実行間隔」(各スクロール間の間隔時間)を設定して、新しいデータをスクロール後にロードできるようにします。
再試行
「再試行」を設定すると、現在のページに必要なテキスト/要素が含まれているか含まれていない場合に、ページを再ロードできます。
4. Webページが読み込まれない
Octoparseの組み込みブラウザーでは、Webページをうまく読み込めない場合があります。空白のページのみが表示されます。
この場合、左上隅の設定アイコンをクリックして、タスク設定を変更できます。
「内蔵ブラウザ」で別のブラウザに切り替えます。
「内蔵ブラウザ」には多くのオプションがあります。 1つ選択して「保存」をクリックすると、前のページに戻ります。
次に、「Webページを再読み込む」のアイコンをクリックしてページを更新し、Webページが適切に読み込まれるかどうかを確認します。
ご不明な点がございましたら、Octoparseサポートチームまでお問い合せください。