カスタマイズモードとは
フォローするカスタマイズモードとは?
カスタマイズモードは自由度の高く強力なWebスクレイピングモードです。複雑なサイトからスクレイピングしたい人にとって、カスタマイズモードを強くお勧めします。
Octoparse カスタマイズモードでは、
· ほとんどWebページからデータをスクレイピングできる;
· テキスト、URL、画像、HTMLなどのデータを抽出できる;
· ログイン認証、キーワードの検索、ドロップダウンメニューの開きなど、Webページとのやり取りを設計できる;
· 待ち時間の設定、XPathの変更、データの再フォーマットなど、ワークフローをカスタマイズできる;
このチュートリアルでは、カスタマイズモードでタスクを作る3つのステップとカスタマイズモードユニークな機能について説明します。
1) カスタマイズモードで新しいタスクを作る
1. 新規作成で「カスタマイズタスク」をクリックします。
2. URLを入力し、「保存」をクリックします。
2) ワークフローの設計とカスタマイズ
「URLを保存する」をクリックすると、タスク設定画面に入ります。タスクの最も重要な部分は、特定のデータ抽出要件のワークフローです。Octoparseは、ワークフローで設定されたすべてのアクションを実行して、データ収集を完了します。カスタマイズモードでは、タスク設定画面は、選択モードとワークフローモード の2つのモードに切り替えることができます。通常、Octoparseはデフォルトで選択モードに入りました。右上隅のオン/オフボタン を使ってワークフローモードを開きます。ワークフローモードを開くと、作ったタスクをよりよく把握でき、ステップを間違いないようにできます。それでは、ワークフローを一緒に構築しましょう。
1. 内蔵ブラウザでWebページとやり取る - 簡単なクリックでデータを取得する1.1操作ヒント新しいタスクを作る際には、通常、Webページから取得したいデータを選択してスクレイピングします。カスタマイズモードでは、内蔵ブラウザでWebページでの反応が表示されます。Octoparseの「操作ヒント」はガイドのように、次に内臓ブラウザで行える操作を表示されます。それに従って、次の動きを選択することができます。
3. ワークフローを設計する - 抽出するデータの位置と順番をOctoparseに伝える
3.1 ワークフローにおけるタスクアクション
内蔵ブラウザでページから任意の要素をクリックすると、Octoparseはスクレイピングしたいデータを予測して検出し、利用可能な操作を「操作ヒント」から選択できます。必要なアクションを選択すると、対応するタスクアクションがワークフローで自動的に生成されます。
ワークフローを構成するタスクアクションは10種類あります。
例えば、「操作ヒント」から「選択したリンクのテキストを抽出する]をクリックすると、「データを抽出する」アクションがワークフローに追加されます。「要素をクリックする」を選択すると、「要素をクリックする」がワークフローで生成されます。
クリックするだけでなく、タスクアクションを引きずってワークフローに追加できます。したがって、ワークフローを設計する際に自由度を高めることができます。
ヒント! 1.「分岐判断」アクションは、手動追加のみです。「分岐判断」の詳細はこちら。 2. 「ページネーション」は「ループアイテム」の一種で、「次のページをループクリップする」は「アイテムをクリックする」の変形です。ページ遷移を扱い複数のページを抽出する 3. ワークフロー内のすべてのタスクアクションの概要をご覧にたい方は、ここをクリックしてください。 |
3.2 ワークフローの実行順序
ワークフローで追加されたアクションは、上から下に実行されます。「ループアイテム」中のアクションはループで実行されます。ワークフローの順序を変更するには、アクションを上下に引きずることができます。
4. ワークフローをカスタマイズする - ワークフロー内の各アクションを設定する
4.1 タスクアクションをカスタマイズする
今、ワークフロー設計が完了しました。ワークフロー内の各ステップをクリックすると、Octoparseがサイトとどのようにやりとりしているか、対象データを期待どおりに抽出できるかを簡単に確認できます。
カスタマイズモードでは、効果的なデータスクレイピングを実現するために、さまざまなカスタマイズオプションを用意しています。
各ステップをリックすれば、ワークフローの下側にステップの設定が表示されます。
タスクの設定を確認したら、「実行」をクリックしてタスクを実行します。
関連記事: