Twitterからツイートをスクレイピングする
フォローするOctoparseを使うと、様々なソーシャルメディアのWebサイト(Twitter、Facebook、Quoraなど)から、トップニュース、最新の話題、世界的な動向などの情報を簡単に抽出できます。今回は、Twitterのニュース情報を例としてスクレイピングします。
例のURL:https://twitter.com/search?q=news&src=typd&lang=jp
以下は、このチュートリアルの主な手順です。
- 1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
- 2) 「ループアイテム」を作る - 各ツイートを抽出する
- 3) スクロールダウンを設定する - さらにツイートを読み込む
- 4) 抽出タスクを始める - タスクの実行を行いデータを取得する
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
URLを入力して「抽出開始」をクリックし、ページを開きます。

2) 「ループアイテム」を作る - 各ツイートを抽出する
- 一番目のツイートを全体として選択し、その背景色が緑色になります。
- それから二番目のツイートを選択し、「操作ヒント」から「すべてのサブ要素を選択する」、「データを抽出する」を選択します。
- いらないフィールドを削除して、フィールド名を編集します。
3) スクロールダウンを設定する - さらにツイートを読み込む
- 「操作ヒント」から「スクロールダウンを設定する」オプションを選択します。
- 「スクロール回数」と「間隔」を設定します。
保存すると、「Webページを開く」には設定したスクロールダウンを確認できます。
ヒント! 多くのSNSサイトはスクロールダウン技術を利用しています。そのようなサイトを対応するには、次の記事をご参照ください:無限スクロールでの読み込み より多くのデータが必要な場合は、「スクロール回数」の値を高く設定することをお勧めします。 |
4) 抽出タスクを始める - タスクの実行を行いデータを取得する
「保存」と「実行」をクリックし、データを抽出します。以下はデータのサンプルです。
ご注意:Twitter側では制限があるため、自作のタスクなら10件程度のデータはしか抽出できません。Twitterのテンプレートをお試しください。Octoparse 8.Xテンプレートモード