このチュートリアルでは、Google Scholarから検索結果をスクレイピングする方法を紹介します。
方法一:Octoparseタスクテンプレート
1.Octoparseのメイン画面の[タスクテンプレート]に移動
2.Google Scholarテンプレートを選ぶ
3.テンプレートを使う
[今すぐ使う]⇒検索キーワード入力⇒[保存して実行する]⇒[ローカル抽出]/「クラウド抽出]を選ぶ
方法二:Octoparseカスタマイズモード
以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする
]
1.「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
Octoparseのメイン画面の[カスタマイズモード]に移動します。
URLを入力して「URLを保存する」をクリックします。
2.「テクストを入力する」 – 検索キーワードを入力する
入力ボックスを左クリックして、「操作ヒント」の「テクストを入力する」をクリックします。
検索キーワードを入力して、「OK」をクリックします。
「検索」ボタンをクリックし、「操作ヒント」の「ボタンをクリックする」をクリックします。
3. ページ遷移のループを作る - 複数のページからデータを取得する
ページの下にある「次へ」ボタンをクリックし、「操作ヒント」パネルから「選択したリンクをループクリップする」を選択します。
4.「ループアイテム」を作る - 抽出したいデータをループに入れる
ステップ3では、2ページ目に移動しました。ですから、「Webページを開く」をクリックして1ページ目に戻ります。
マウスを1番目と2番目のアイテムのところに移動し、全体が青色の四角枠に囲まれた後にクリックします。
操作ヒントの「選択したデータを抽出する」をクリックします。
5.データカスタマイズ - フィールド削除・フィールド名編集
いらないフィールドを削除して、フィールド名を編集します。
6. 抽出タスクを始める - タスクを実行してデータを取得する
タスク作成画面で一番左上の「保存する」をクリックします。
それから、その右の「抽出開始」をクリックします。
[ローカル抽出]/「クラウド抽出]を選びます。
以下のように、無事にデータが抽出できました。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!