すべてのコレクション
ヘルプ
データのカスタマイズ
抽出したデータを再フォーマットする
抽出したデータを再フォーマットする
一週間前以上前にアップデートされました

Octoparseには、データをクリーンアップする方法がたくさん用意されています。例えば、文字列を置き換えたり、余分なスペースを削除したり、接頭辞/接尾辞を追加したり、文字列を正規表現でマッチングしたり、日付/時刻を再フォーマットしたりすることができます。データが要件を満たすまで、複数の方法でフィールドをクリーンアップできます。

どんな場合にデータを再フォーマットするのか?

特定のフィールドに対して望ましいデータ形式がある場合は、Octoparseの「データを再フォーマット」機能を使用して、データを再フォーマットすることができます。Octoparseはスクレイピングプロセス中に直接スクレイピングと再フォーマットを行いますので、データをエクセルファイルにエクスポートした後にフィールドを再フォーマットする必要はありません。


どこで編集できるのか?

データプレビューで、再フォーマットするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。

mceclip0.jpg

「ステップを追加」をクリックし、データをどのように処理するかを選択します。データが要件を満たすまで複数のステップを追加することができます。

mceclip1.jpg

再フォーマットの処理

1. 置換

抽出されたデータ内の特定の文字列を、新しい文字列で置き換えます。

2. 正規表現による置換

特定の正規表現を使って、抽出されたデータ内の一致した文字列を必要な文字列に置き換えます。

3. 正規表現によるマッチング

特定の正規表現を使って、抽出されたデータから一致する文字列を取得します。

4. スペースの削除

抽出されたデータの最初または最後から不要なスペースを削除します。

07.png

5. 接頭辞の追加

抽出されたデータの最初に文字列を追加します。

mceclip5.jpg

6. 接尾辞の追加

抽出したデータの最後に文字列を追加します。

mceclip6.jpg

7. 日時のフォーマット

抽出された日付/時刻を特定のフォーマットに変更します。

08.png

09.png

8.タイムスタンプの変換

タイムスタンプは、日付と時刻を記録するために使用される文字列、またはエンコードされたメッセージです。 タイムスタンプの変換を使って、文字列を正しい日時フォーマットに変更できます。また、日時を文字列に変更することもできます。

mceclip10.jpg
mceclip0.jpg

9. HTML

特定のHTMLタグをプレーンテキストに変換します。たとえば、 "&gt"を ">"に、 "&nbsp"をスペースにトランスコードします。

ヒント!

正規表現で処理する場合は、正規表現ツールをよく利用しています。下記の記事をご参照ください。


Octoparse 正規表現ツール

Octoparseには正規表現を自動生成する正規表現ツールも付いています。正規表現を生成し設定する方法を説明します。

例えば、外部HTMLから画像のURLを抽出したい場合:

  1. 正規表現ツールを起動します。

  2. 一致条件を入力:「src="」から始まり、「"」で終わります。

  3. 生成で正規表現を生成します。

  4. マッチングで一致文字列を選択します。

  5. 応用をクリックします。

  6. 保存で設定を保存します。

このリンクからは、正規表現ツールの使い方の詳細を見ることができます。

こちらの回答で解決しましたか?