レッスン1:自動検出機能でデータを抽出する
フォローするOctoparseには、爬虫初心者でも簡単に使える自動検出機能があります。本機能は、Webページの構造を分析し、類似の要素を自動で認識します。クリックした要素と同様の要素を候補として表示するため、手間が省けます。
①類似した要素の認識
自動検出機能は、Webページのすべての構造を分析し、類似の要素を認識します。例えば、ウィキペディアのページのように、似たような構造を持つ要素を認識できます。
②ページネーションの認識
ウェブページのデータを収集する場合、全ての情報を得るためにページをめくる必要があることがあります。Octoparseでは、ページ内のリンクを解析することで、次のページのデータを取得できます。ページを自動的にめくることができ、10ページでも1000ページでも大丈夫です。
③ワークフローの作成
Webサイトがスクロールする必要がある場合や、リストページと詳細ページの収集が必要な場合でも、自動検出機能を使用することができます。Octoparseを使えば、多くのWebページからデータを収集することができます。 なお、自動検出機能は、Webページの構造に大きく依存しています。特殊なWebサイトや非常に複雑なWebページの場合は、認識精度が低下することがあります。その場合は、Octoparseのカスタマーサポートにご連絡いただければ、サポートが対応いたします。
次へ
レッスン2:タスクを最適化する