Google Scholarの検索結果をスクレイピングする
フォローするこのチュートリアルでは、Google Scholarから検索結果をスクレイピングする方法を紹介します。
方法一:Octoparseタスクテンプレート
1.Octoparseのメイン画面の[タスクテンプレート]に移動
2.Google Scholarテンプレートを選ぶ
3.テンプレートを使う
[今すぐ使う]⇒検索キーワード入力⇒[保存して実行する]⇒[ローカル抽出]/「クラウド抽出]を選ぶ
方法二:Octoparseカスタマイズモード
以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]
1. 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
3. ページ遷移のループを作る - 複数のページからデータを取得する
4. 「ループアイテム」を作る - 抽出したいデータをループに入れる
5.データカスタマイズ - フィールド削除・フィールド名編集
6. 抽出タスクを始める - タスクを実行してデータを取得する
1.「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
- Octoparseのメイン画面の[カスタマイズモード]に移動します。
- URLを入力して「URLを保存する」をクリックします。
2.「テクストを入力する」 – 検索キーワードを入力する
- 入力ボックスを左クリックして、「操作ヒント」の「テクストを入力する」をクリックします。
- 検索キーワードを入力して、「OK」をクリックします。
- 「検索」ボタンをクリックし、「操作ヒント」の「ボタンをクリックする」をクリックします。
3. ページ遷移のループを作る - 複数のページからデータを取得する
-
ページの下にある「次へ」ボタンをクリックし、「操作ヒント」パネルから「選択したリンクをループクリップする」を選択します。
4.「ループアイテム」を作る - 抽出したいデータをループに入れる
- ステップ3では、2ページ目に移動しました。ですから、「Webページを開く」をクリックして1ページ目に戻ります。
- マウスを1番目と2番目のアイテムのところに移動し、全体が青色の四角枠に囲まれた後にクリックします。
- 操作ヒントの「選択したデータを抽出する」をクリックします。
5.データカスタマイズ - フィールド削除・フィールド名編集
- いらないフィールドを削除して、フィールド名を編集します。

6. 抽出タスクを始める - タスクを実行してデータを取得する
- タスク作成画面で一番左上の「保存する」をクリックします。
- それから、その右の「抽出開始」をクリックします。
- [ローカル抽出]/「クラウド抽出]を選びます。
以下のように、無事にデータが抽出できました。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!