重複行の特定と除外
Tableau Prepで作成するフローの中で、特定の項目の重複している値の判別と、その値の除外ができるようになりました。
この機能を使うことによって、Tableau Prepの処理の工程で発生する際に、マスタとの結合や欠落日付の保管処理などを行う際に発生しやすい重複データの処理を簡単に行うことができます。
以下のデータを例にご紹介します。
A列には数値が入っており、「2」「5」「9」と言った値が重複して存在しています。
一方B列にはアルファベットが入っており、こちらは全て一意(重複なし)のデータになっています。
今回はTableau Prepを使ってA列の重複特定と除外を操作します。
Tableau Prepに上記のデータを読ませ、クリーニングのステップに進みます。
該当の項目に対して、設定変更(・・・)ボタンを押すと、「重複行の特定」と言うメニューが選べるようになっているので選択してみます。
すると、その項目に存在する値が重複か一意かを判定してフラグを立てた列が新しく作成されます。
数値の列(重複あり)とアルファベットの列(重複なし)でそれぞれ「重複行の特定」を行った結果が以下です。
ソートがかかっていないので少しわかりづらいですが、それぞれ正しくフラグが立てられていることが確認できます。
また、このフラグに従って重複が存在する行を除外することも可能です。
実際に除外したデータを出力して見てみると、以下のようになっています。
新卒でソフトウェアベンダーに入社しBIツールを使ったシステム構築やデータ分析の他、顧客向けのトレーニングやセミナー講師を担当。
その後、WEB系事業会社のWEBマーケティングの担当として新規顧客獲得や広告運用の業務を担当した後ヴァリューズに入社。
現在はお客様が持っているデータを活用してマーケティングの支援を行う他、WEBマーケティングデータとBIツール「Tableau」を組み合わせた新たなサービスの開発にも従事。