IFrameとは?
IFrame(インラインフレーム)とは、HTMLタグの一つで、文書内にフレーム(枠)を作り、ページ内に別のページをコンテンツとして埋め込むことができます。
Octoparseを利用して、どうやってIFrameにある要素をスクレイピングしますか?
Octoparseの組み込みブラウザはIFrameを自動的に検出するので、IFrameがあることを気にせずに、IFrame内の要素を通常のように選択して抽出すればいいです。
IFrame内のデータを抽出したときは、Octoparseがすでに検出しているかどうかを確認し、自動生成された要素のXPathをチェックしてください。
ただし、OctoparseはIFrameのXPathと要素のXPathの組み合わせでIFrame内の要素を特定していることに注意してください。自動生成されたXPathが正確でない場合は、両方のXPathを書き換える必要があります。
OctoparseがIFrameを自動的に認識しない場合は?
慌てる必要はありません このような状況には2つの回避策があります。
任意のページ要素をデータフィールドのプレースホルダとして抽出し、そのXPathをIFrame要素を検出するように書き換えます。XPathを変更するときは、IFrameのXPathと要素のXPathの両方を入力することを忘れないでください。
ソースコードからIFrameのリンクアドレスを取得し、それを新しいタスクの開始URLとして使用します。
Chromeのデベロッパー ツールを開くには、F12キー、またはCtrl + Shift + Iキーを押します。ソースコードでIFrame要素を見つけます。ソースコードに複数のIFrameリンクがある場合は、必要なデータが含まれていることを確認してください。
iframeのsrcタグを右クリックし、リンクアドレスをコピーしてURLを取得します。
そのURLを使ってタスクを構築すると、IFrameがない通常のページをスクレイピングするのと同じくらい簡単です。
OctoparseはIFrame内のIFrameからスクレイピングできますか?
いいえ、OctoparseはIFrame内にIFrameがある場合はスクレイピングできません。しかし、ブラウザのソースコードからまずIFrameのリンクを取得し、それを新しいタスクの開始URLとして使用することはできます。