2024/10/3にDataiku 13.2がリリースされました!
今回も新機能が目白押しなのですが、今回はその中でもColumn-level Data Lineageをご紹介します!
Dataikuを使って分析をしていると、ある列がどのデータセットのどの列から計算されているのか分からなくなってしまう場面が多くあると思います。
今回リリースされたColumn-level Data Lineage機能を用いることでデータセットの列がどこから計算されたものか特定することが可能になります。
本記事では、Column-level Data Lineageの基本的な使い方を解説します。
Column-level Data Lineageの使い方
Dataikuを用いてデータフローを構築していくとフローはどんどん複雑化していきます。
フローの中でレシピを適用して新しい列をどんどん作成していきますが、だんだんその列が何を用いて計算されたものなのかを特定することが困難になってきます。
例えば、クレジットカードのトランザクションデータを整形して人ごと、使用した店舗ごとにそれぞれ注文の平均、最大、最小のような集計計算をしている列が有るとします。
各列がどこから来たのか、どの列を基に計算されたかを一目で理解することは困難です。
そこで、Column-level Data Lineageの出番となります。
フローの任意のデータセットをクリックした際、[サイドバー] > [スキーマ]タブに新しく追加された以下の画像の赤枠の中で、追跡したい任意の列に対応するアイコンをクリックします。
すると、その列がどの列から生成されたものなのかが可視化されます。
今回の場合は、カード所有者ごとの1回の購買金額の最小値であるcard_parchase_amount_min列について調査しているのですが、直前のウィンドウレシピで購入日(purchase_date_parsed)とカード所有者(card_id)、購買金額(purchase_amount)の3列を用いて作成された列だということが一目で分かります。
さらにさかのぼると、使用している各列がどのデータセットに存在しているのかまで簡単に特定することが出来ました。
まとめ
フローの途中にある列の出自が簡単に追跡可能になるColumn-level Data Lineageという機能をご紹介しました。
他の人から引き継いだプロジェクトの列がどのように計算されたものなのか分からない、集計計算を行っている元の列を消しているので、どこを用いてテストすればよいか分からない、などのあるあるを解消する強力な新機能となっておりますので、みなさま是非ご活用ください!