レッスン2:タスクを最適化する
フォローするOctoparseを使ってデータを自動検出するのは便利ですが、必要なデータが正確に検出されない場合があります。 このレッスンでは、スクレイピングタスクを最適化するために適用できる簡単な修正について説明します。
1.必要なデータが検出されない場合
OctoparseがWebページ上のデータを検出し続けると、ページ全体をスクリーニングし、その機械学習アルゴリズムを使用して1つ以上のデータセットをフェッチします。最初の試行でターゲットデータが検出されない場合は、「識別結果を切り替える」をクリックして、2番目のデータセットに切り替えることができます。

💡必要なデータが検出されていない場合でも、データを選択する方法
をご参照ください。すべてのデータが直接取得できるというわけではありません。例えば、キーワード検索、ドロップダウンメニューなど、データの表示には何かをクリックする必要があります。こちらをクリックし
てチュートリアルをご参照ください。


2.自動検出された「次のページ」ボタンが正しくない場合
自動検出で「次へ」ボタンが正しく見つからない場合は、「編集」をクリックして簡単に修正し、「操作ヒント」の指示に従って正しい「次のページ」ボタンを再度選択します。

💡「次へ」ボタンまたは「さらに読み込む」ボタンが検出されない場合は、こちらをクリックしてチュートリアルをご参照ください。(完了予定) Webページに「次のページ」ボタンがない場合は、ページ送りボタンを指定する方法
をご参照ください。

3.スクロールダウンする必要がある場合
無限スクロールでWebページが検出されるたびに、Octoparseはページを下にスクロールする回数を自動的に指定します。データを取り込む前にさらにスクロールしたい場合は、「編集」をクリックしてスクロール回数を簡単に調整し、設定を完了することができます。

4.ワークフローを直接操作する
Octoparseでスクレイピングタスクを作成すると、Webページを開いたり、ページ要素/ボタンをクリックしてデータを自動的に抽出したりするなど、実際の人間がWebページを閲覧していることをシミュレートします。抽出プロセス全体は、ワークフローで自動的に定義され、個々のステップ/アクションはスクレイピングタスクの特定の指示を表します。
Octoparseは自動検出を通じてワークフローを自動生成することで、物事をより簡単にしようとしますが、技術的に最初からワークフローを構築するか、自動生成ワークフローを編集して、タスクが必要なことを確実に実行できるようにすることができます。
ワークフローに追加できるアクションにはさまざまなタイプがあります。 各ステップ/アクションには、スクレイピングタスクを微調整するために変更できるさまざまな設定があります。
1.適切な場所にドラッグアンドドロップして、ワークフローの手順を並べ替えます。

2.ステップをクリックして、設定内容を確認して変更します。

3.ワークフローにステップを追加するには、ステップを挿入する場所にマウスを置きます。
アイコンが表示されるまで待ち、それをクリックして、追加するアクションを選択します。


4.表示された「他のオプション」ボタンをクリックして、ステップの名前を変更、コピー、または削除します。


次へ
レッスン3:データフィールドを調整する