Instagramから投稿をスクレイピングする
フォローする
KOLという言葉をご存じですか?「Key Opinion Leader」の略で、SNS上で影響力の高いアカウントのことを指します。いわゆるインフルエンサーで、人気のあるKOLを商品のプロモーションにうまく利用すれば、大きな利益を上げることができます。中国でKOLはマーケティング上欠かせない存在となっており、中国のECサイトで商品を売りたい日本企業などの間では、KOLを使ったプロモーションが常識になっています。
「インスタ映え」の流行語に象徴されるように、すでに多くの人が楽しんでいる人気SNSのInstagram(インスタグラム)にも多くKOLがいます。今回はWebスクレイピングツールOctoparseを使って、KOLの投稿をスクレイピングしてみます。
このチュートリアルでは、Instagramから投稿をスクレイピングする方法を示すために、https://www.instagram.com/izkiz/ を例として使います。
以下はチュートリアルの主な手順です:[タスクファイルをダウンロードする]
1)「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
2)「ページネーション」 - 複数のページからデータを取得する
3)「データを抽出する」 - 抽出したいデータを選択する
4)「抽出開始」 - データ取得のタスクを実行する
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
- 「カスタマイズモード」を選択し、新規タスクを作ります。
- URLを「Webサイト」ボックスに貼り付け、「URLを保存する」をクリックして移動します。
そうすると、ページが内蔵ブラウザで開られます。Webページの内容を読み込めない場合は、「設定する」でブラウザを変更してください。
2)「ページネーション」 - 複数のページからデータを取得する
- 一番目の画像をクリックし、「操作ヒント」の下部にある「UL」タグから「A」タグに変更してください。(データ/ URL /画像/ HTMLを詳細に選択して抽出する方法をご覧ください。
)
- 「操作ヒント」にある「リンクをクリックする」をクリックします。
- 右側の「>」ボタンをクリックし、 「次のページをループクリップする」を選択します。
- 「高級オプション」パネルで「AJAX読み込み」にチェックを入れ、「AJAXタイムアウト」を設定します。
ヒント! AJAXとは「Asynchronous JavaScript + XML」の略で、簡単に言えばページを再読み込むことなくコンテンツの一部をWebページが更新できるようにする一連のWeb開発テクニックです。 AJAX技術を使ったページには「AJAX読み取り」を選択するほうがいいです。AJAXの詳細はこちら |
3) 「データを抽出する」 - 抽出したいデータを選択する
· 必要なデータをクリックし、「操作ヒント」にある「選択した要素のテキストを抽出する」を選択します。
· 必要に応じて、フィールド名を編集します。
ヒント! OctoparseはWebサイトから選択した画像のURLのみを抽出することができます。場合によっては、「操作ヒント」の下部にあるタグを調整し、正しい情報を得る必要があります。 |
4)「抽出開始」 - データ取得のタスクを実行する
· 「保存する」をクリックします。
· 「抽出開始」をクリックします。
もしOctoparseの習得に時間がなければ、Instagramのテンプレートがオススメです。
詳細はWebスクレイピングテンプレートをご参照ください。
From: https://www.octoparse.jp/tutorial/scrape-data-from-instagram/