テーブルデータを抽出する
フォローするテーブルデータは、金融、スポーツなどに関連するWebサイトでよくみられる表記です。このチュートリアルでは、テーブルデータをスクレイピングする方法について説明します。
テーブルデータの各行をリストデータのブロックとして取得できます。次に、各テーブルセルは、リストデータのブロック内のサブ要素と等しくなります。
Octoparseでテーブルデータを収集する方法このチュートリアルを続行してください!
URLの例:https://money.cnn.com/data/hotstocks/index.html
1.自動検出する
Octoparseはリストで表示されているウェブサイトの自動検出をサポートしています。この機能を使用すると、WebページのURLを入力して必要なデータを取得し、ワークフローを自動的に作成するだけです。
自動検出の詳細については、「レッスン1:自動識別機能でデータを抽出する」をご参照ください。
2.手動で設定する
自動検出が失敗した場合、または完全なテーブルデータが収集されない場合はどうなりますか?この場合、タスクを手動で設定する必要があります。手順は次のとおりです。
ステップ1:URLを入力する
ホームページの検索ボックスにWebページのURLを入力します。「抽出開始」をクリックして新しいタスクを開きます。
「設定」で「自動検出」をオフにしてください。
ステップ2:データを抽出する
1.1行目の1番目のセルを選択し、1行全体が選択されるまで「選択領域を拡大」アイコンをクリックします。それから、操作ヒントで「サブ要素が見つかりました」と表示されます。
「サブ要素」は、Octoparseがデータの各行で検出されたデータフィールドです。その表示は、これらのサブ要素を選択するかどうかを確認するためのものです。
2.それから、操作ヒントで「サブ要素を選択する」を選択します。1行目のすべてのサブ要素が選択され、Octoparseは他の同様の要素を赤枠のハイライトで表示されます。
3.操作ヒントで「すべて選択」を選択します。すべてのサブ要素が選択され、緑色の枠で表示されます。
4.操作ヒントで「データの抽出」を選択します。これでOctoparseはテーブルのすべてのデータフィールドを抽出します。
ステップ3:データフィールドを編集する
これで、すべてのデータフィールドが選択されました。「データプレビュー」でデータフィールドの名前を変更、削除できます。
- データフィールドをダブルクリックして名前を変更する
をクリックしてその他のアクションを選択する:データの削除、コピー、クリーンアップなど。
ステップ4:タスクを実行する
1. 「保存」と「実行」をクリックし、「ローカル抽出」を選択します。抽出ウィンドウがポップアップし、ウィンドウでタスクの進行状況を確認できます。
2.データをエクスポートします。 Excel、CSV、HTML、データベースなどにエクスポートされたデータをサポートします。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!