すべてのコレクション
ヘルプ
テーブルデータを抽出する
テーブルデータを抽出する
一週間前以上前にアップデートされました

テーブルデータは、金融、スポーツなどに関連するWebサイトでよくみられる表記です。このチュートリアルでは、テーブルデータをスクレイピングする方法について説明します。

テーブルデータの各行をリストデータのブロックとして取得できます。次に、各テーブルセルは、リストデータのブロック内のサブ要素と等しくなります。

Octoparseでテーブルデータを収集する方法このチュートリアルを続行してください!

untitled.png

1.自動検出する

Octoparseはリストで表示されているウェブサイトの自動検出をサポートしています。この機能を使用すると、WebページのURLを入力して必要なデータを取得し、ワークフローを自動的に作成するだけです。

自動検出の詳細については、「レッスン1:自動識別機能でデータを抽出する」をご参照ください。


2.手動で設定する

自動検出が失敗した場合、または完全なテーブルデータが収集されない場合はどうなりますか?この場合、タスクを手動で設定する必要があります。手順は次のとおりです。

ステップ1:URLを入力する

ホームページの検索ボックスにWebページのURLを入力します。「スタート」をクリックして新しいタスクを開きます。

「設定」で「新しいカスタムタスクの自動認識を有効にする」をオフにしてください。

ステップ2:データを抽出する

1.1行目の1番目のセルを選択し、1行全体が選択されるまで「選択範囲を拡大」アイコンをクリックします。それから、操作提案で「子要素が見つかりました」と表示されます。

子要素」は、Octoparseがデータの各行で検出されたデータフィールドです。その表示は、これらのサブ要素を選択するかどうかを確認するためのものです。

2.それから、操作提案で「すべての子要素を選択」を選択します。1行目のすべてのサブ要素が選択され、Octoparseは他の同様の要素を赤枠のハイライトで表示されます。

3.操作提案で「類似グループをすべて選択」を選択します。すべての類似要素が選択され、緑色の枠で表示されます。

4.操作提案で「要素データ」を選択します。これでOctoparseはテーブルのすべてのデータフィールドを抽出します。

ステップ3:データフィールドを編集する

これで、すべてのデータフィールドが選択されました。「データプレビュー」でデータフィールドの名前を変更、削除できます。

  • データフィールドをダブルクリックして名前を変更する

  • 「ほかのオプション」をクリックしてその他のアクションを選択する:データの削除、コピー、再フォーマットなど。

ステップ4:タスクを実行する

1. 「保存」と「実行」をクリックし、「ローカル抽出」の「通常モード」を選択します。抽出ウィンドウがポップアップし、ウィンドウでタスクの進行状況を確認できます。

2.データをエクスポートします。 Excel、CSV、HTML、データベースなどにエクスポートされたデータをサポートします。

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

こちらの回答で解決しましたか?