こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
最新版のOctoparseでは、ローカルデバイスにファイルや画像をダウンロードする機能が導入されました。これにより、ローカルフォルダから直接ファイルや画像を開くことができるようになりました。現在はjpg、png、gif、doc、pdf、ppt、txt、xls、zip形式のドキュメントのダウンロードがサポートされています。
このチュートリアルでは、Octoparseでのファイルと画像のダウンロード方法を説明します。ファイルのダウンロード機能は現在ローカル実行でのみ利用できることに注意してください。
ダウンロード設定のサンプルURLは以下の通りです:
ダウンロード設定のサンプル画像URLは以下の通りです:
1. ファイルをダウンロード
ダウンロードボタンの1つをクリックする - ダウンロードしたいドキュメントを1件選択します。選択した要素は緑色に、関連要素は赤色に変わります。
操作提案ボックスから「類似要素をすべて選択」をクリックする - 全ドキュメントが識別・選択され緑色に変わります。
「ファイル」をクリックする - リンクの抽出とローカルフォルダへのファイルダウンロードを実行します。
データフィールドは上図のように表示されます。右上の...アイコンからデータフィールドを編集できます。
ダウンロードされたファイルの命名: ダウンロードされたファイル命名する方法は4つあります。オプションは操作提案に表示されます。
元ファイルMD5: 元ファイルMD5を使用してファイルに名前を付けます。
元ファイル名: デフォルトの元ファイル名を使用します。
抽出時間: ファイルに名前を付けるために完了したダウンロード時間を使用します。
フィールド値: ファイルに名前を付けるためにデータフィールドの値を使用します。
フォルダ内でファイル名が既に存在する場合、次の3つの方法で対処することもできます。
ダウンロードスキップ: 現在のダウンロードされたファイルをスキップします。
元ファイルを上書きする: 既存のファイルを新しくダウンロードされたファイルで置き換えます。
自動変更: 新しいファイルのファイル名の末尾に「(1)」を付けて、新しい名前にします。
2. 画像をダウンロード
ローカルフォルダへの画像ダウンロードの手順はファイルと同様です。
1つの画像をクリックする - 1枚の画像を選択します。
操作提案ボックスから「類似要素をすべて選択」をクリックする - 複数の画像を選択します。
「画像ファイル」をクリックする - リンクを抽出するとともにローカルフォルダに画像をダウンロードします。
注意: Octoparseでは、完全な「https://」を含むURLのみを直接ダウンロードすることができます。スクレイプされたURLの値が完全なダウンロードリンクの一部の場合、データを再フォーマット機能の「接頭辞の追加」や他のデータを再フォーマ
ットを使用して、有効なダウンロードリンクを取得することができます。
3. ダウンロード設定
3.1 ファイルのダウンロードを設定
データフィールドの前の矢印アイコンをクリックします。
ここで、ダウンロードされたファイルの名前を変更したり、複数のURLを改行したり、ダウンロードをスキップしたいURLを入力したりすることができます。
3.2 ダウンロード保存先を設定
タスク設定画面の右上にあるタスク設定アイコンをクリックして、設定パネルを開きます。
保存先を選択ボタンをクリックして、ダウンロードされたファイルと画像のローカルフォルダを選択します。
ローカルでタスクを起動する場合の設定について、1つのモードを選択します。
保存をクリックして、すべての変更を保存します。