テキスト/URL/画像/HTML/属性値を抽出する方法
フォローする始める前に、Octoparseが必要なデータをどのようにスクレイピングするかを見てみましょう。
新しいタスクを作る際に、Webページで必要なデータを選択してスクレイピングします。ページ上の要素を選択するには、選択を作る必要があります。一般に、選択を作るには2つのステップがあります。
1. 対象データをクリックします。
2. 「操作ヒント」から適切なアクションを選択します。
対象要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。これは、Octoparseがページ上の選択された要素のパターンを識別し、同じ構えがある他の要素を自動的に選択するためです。
選択を作ると、複数のページにわたるすべての同じ要素が検出され、選択アイテムに追加されます。Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。
これから、 Octoparseで特定の4種類のデータを選択して抽出する方法を見てみましょう!
1) テキストを抽出する
ほとんどのデータは、ニュース記事、製品情報、ブログなどのような読めるテキストとしてWeb上に表示されます。ですから、テキストデータを抽出する方法を身につければ、ページの遷移やリストの作りなどの他のテクニックと組み合わせると、ほぼすべてのWebページからデータを取得できます。
Octoparseでテキストデータを抽出する方法を見てみましょう。
1. 対象データをクリックする
対象要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。
2. 選択を作る
「操作ヒント」にある「すべて選択」をクリックして、赤色要素の類似要素はすべて緑色になります。 Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。
3. テキストを抽出する
「選択した要素のテキストを抽出する」をクリックして、選択を終了し、抽出を始めます。
2) リンクや画像のURLを抽出する
簡単にいえば、URLはハイパーリンクです。URLをクリックするだけで、新しいWebページを開いたり、新しいWebサイトに移動することができます。
Webページ以外、URLを使うと、画像など特定のファイルにもアクセスできます。URLを取得したら、インターネットからファイルや画像をダウンロードできます。
Octoparseを使ってリンクや画像のURLを抽出する方法を見てみましょう。
1. 必要なリンク/画像をクリックする
必要なリンク/画像をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。
ヒント! URLを含む要素を選択すると、「操作ヒント」の下部にあるタグは「A」になります。「A」タグはあるページから別のページにリンクするアンカーを表します。正しい要素を選択するのを確認してください。 |
2. 選択を作る
「操作ヒント」にある「すべて選択」をクリックして、赤色要素の類似要素はすべて緑色になります。 Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。
3. URLを抽出する
「選択した要素のURLを抽出する」/「選択した画像のURLを抽出する」をクリックして、選択を終了し、抽出を始めます。
ヒント! URLではなく画像をWebページから直接取得できますか? 残念ですが、画像を直接抽出できません。画像を抽出する場合は、まず画像のURLを抽出し、「download from URL」ツールを使って画像を一括ダウンロードできます。 |
3) Inner/Outer HTMLを抽出する
テキストやURLとは異なり、アイコンのようなデータは直接抽出できません。星の評価のような非テキストコンテンツを抽出する場合は、これらの内部/外部HTMLを抽出しなければなりません。
アイコンのほかに、要素のHTMLを抽出することで、Webページから隠されたテキスト、グラフをスクレイピングもできます。
アイコンに埋め込まれたデータを取得するには、正規表現を適用してデータを処理する必要があります。
OctoparseでInner/Outer HTMLを抽出する方法を見てみましょう。
1. 対象データをクリックする
必要な要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。
2. Inner/Outer HTMLを抽出する
「操作ヒント」の「選択した要素のInner/Outer HTMLを抽出する」をクリックして、選択を終了し、抽出を始めます。
ヒント! Octoparseは、正規表現を適用するための便利な機能とツールを提供します。 関連記事: |
4) 属性値を抽出する
属性はHTMLコード内にあり、HTML要素に関する追加情報を提供します。 例えば、星の評価はよく属性に保存されます。 一般的に、「name = "value"」などの名前/値の形式で表示されます。 Octoparseで、直接的に属性値を取得できます。
1.要素を選択します(星の評価を例として取り上げます)
2.要素のテキストまたはHTMLを抽出します
3. 名前フィールドにカーソルを合わせると、 ・・・が見えます。それをクリックし、「データタイプを設定」と「要素の属性値」に移動します。
ヒント! 1.「データタイプを設定」を利用して要素から違う情報を抽出できます。 例えば、テキストを抽出することを選択したが、また要素のHTMLを取得したい時、 「データタイプを設定」に移動して「要素のOuterHtml」を選択していいです。
2.ファイルにエクスポートする時、各種類のデータがテキストの形式で保存されます。
|