Dataikuのはじめかた
Dataikuの導入を検討中の方、Dataikuを使ってデータ分析を社内に展開していきたい、という方向けに個人としてどのようにDataikuをはじめていくべきかを紹介します。
***本記事では、機械学習や統計に関する知識の取得方法については解説しておりません。Dataikuで分析をより深く行っていくにはこれらの知識が不可欠ですので、おすすめの書籍などを今後ご紹介できればと思っています。
Dataikuのインストール
まずは、Dataikuを使える状態にする必要が有ります。
こちらのリンクより、無料版の[いますぐインストール]のボタンからDataikuをインストールしてください。
参考資料
Dataiku使ってみた:
https://www.keywalker.co.jp/blog/dataiku-trial.html
製品の理解
Dataikuには、様々な学習用コンテンツが用意されています。
中でも、Dataiku Academyの無料のハンズオン動画と認定資格は体系的にDataikuを学ぶ上で最適なコンテンツだと言えます。
日本語字幕資料つきの動画資料とサンプルのデータ、プロジェクト、認定試験を通して簡単にDataikuの使い方を習得することができます。
各利用目的ごとの推奨資格を以下にまとめています。
ひとまず使いたい、という方はぜひコアデザイナーの取得を目指してください!
ここで詰まったら。。。
キーウォーカーでは、各種資格試験に対応した公式のトレーニングコースをご用意しております。
4時間×6の体験型のトレーニングを通してツール理解、データ分析の流れを丁寧に学習することが可能となっております。
もちろん必要な部分だけを受講することも可能です。
データ分析の流れを体験
基本的な使い方が理解出来たら、実際に分析してみたくなると思います。
自社に簡単に分析可能な整形済みデータが有れば最適ですが、なかなか難しいと思います。
そこで、即座に分析することができるデータセットをいくつかご紹介いたします。
DSS Samples
Dataiku DSSではデフォルトでTシャツの販売データやチャーン分析などのいくつかのデータセットが使えるようになっています。
プロジェクト画面右上にある[新しいプロジェクト]ボタンをクリックし、[サンプルプロジェクト]を選択することで、構築済みのプロジェクトを簡単に作成できます。このサンプルプロジェクトのあらかじめ構築されたフローの中身を確認してみたり、自分で同じものを作成してみたりすることで、フロー作成の練習ができます。
Kaggle
Kaggleとは、Googleが運営するデータサイエンスや機械学習の学習と実践を支援するための世界的なプラットフォームです。
常に賞金付きの様々なコンペティションが開催されており、データサイエンティストの戦場のようなイメージをお持ちの方も多いかと思いますが、初学者向けのコンテンツも充実しており、
その中でもTitanicは最適であると言えます。
Titanic
データ分析のHello Worldともいうべきタイタニックデータセットは、ほとんどのデータサイエンティストが触ったことがあるといっても過言ではない程、知名度、質ともに素晴らしいデータセットになります。チケットのタイプ、性別、年代などの情報からその顧客が生存したか、を予測するタスクですが、適度に欠損値などがあり分析しがいのあるデータセットです。
ここで詰まったら。。。
DataikuにはData Haikerというユーザーコミュニティが存在していますので、登録して質問してみてください。
Slackチャネルなどを通して、Dataikuに関するイベントなどの様々な情報を得ることができます。
また、キーウォーカーでは時々Dataiku体験会を実施しています。無料でDataikuのハンズオンに参加できるので、タイミングが合えばぜひ参加してみてください!
参考資料
KaggleでおなじみのTitanicのデータをDataikuで整形をしてみた:https://www.keywalker.co.jp/blog/dataiku-tinanic-01-2.html
KaggleでおなじみのTitanicの生存者予測をDataikuでしてみた:https://www.keywalker.co.jp/blog/dataiku-tinanic-02-2.html
最初に取り組む社内課題を決める
サンプルデータを使ってデータ分析の流れを体験した後は、いよいよ本番です!実際の社内の課題に対して、データ分析や機械学習の構築を進めて行きましょう。まずは取り組むべき課題の設定ですが、課題設定には主に以下の観点が必要です。
- 実現性
- データは有るか(準備できるか)
- 機械学習のモデルのアーキテクチャはイメージできているか(需要予測を行うモデル、ではなく、過去売上とキャンペーン有無、営業活動量などから製品、エリア別の週次売上個数を予測する回帰モデルを構築し、需要を予測する、のように具体的に解くべき課題やモデルが言語化できるか)
- ビジネス価値
- ROIなどの指標を出すことが理想ですが、取り組むことで得られるビジネスインパクトが大きい課題に取り組むことが必要です。
- 拡張性
- いきなり尖ったテーマに取り組むのではなく、単純な回帰、分類のモデルで実現可能だったり、様々な部署や業務に展開できるような拡張性の高いテーマを設定することが理想です。
- コスト
- 低コスト、短期でのスモールスタートが原則ですが、コストをかける必要が有るケースも考えられます。特に、大規模LLMやデータウエアハウスについては使う、使わないでかかる工数や精度に大きな差が出てくるため、使うことを前提にしている場合は検証段階から導入を検討する必要が有ります。
ここで詰まったら。。。
株式会社キーウォーカーではAI/MLユースケース創出ワークショップなどを通して、自社の課題からAI/MLのタスクに落とし込むフローを支援しています。
ぜひご相談ください。
参考資料
Dataikuで豆の葉の病状を自動判別してみた:
https://www.keywalker.co.jp/blog/dataiku-image_processing-01-1-1.html
Dataikuでマイコンの物体検知をしてみた:
https://www.keywalker.co.jp/blog/dataiku-image_processing-01-1-1-2.html
DataikuとTableauを連携:
https://www.keywalker.co.jp/blog/dataiku-tableau-2.html
Dataiku LLMメッシュをつかってRAGをつくってみた:
https://www.keywalker.co.jp/blog/dataiku-llm-mesh-rag.html
【Dataiku ハンズオン】Dataikuを使ってノーコードで東京都のマンション価格を推定をする ①前処理編:
https://www.keywalker.co.jp/blog/dataiku-handson-apart.html
【Dataiku ハンズオン】Dataikuを使ってノーコードで東京都のマンション価格を推定をする ②機械学習編:
https://www.keywalker.co.jp/blog/dataiku-handson-apart-2.html
他にも多くのDataikuを用いたユースケースを紹介しています!
ファーストユースケース
筋の良さそうなテーマが決まったら、実装のフェーズに移行します。
これまでの知識を活かして、実データを分析してみてください。
データ分析のプロジェクトの進め方については、CRISP-DMと呼ばれるフレームワークが一般的に用いられます。
ここで詰まったら。。。
株式会社キーウォーカーでは、伴走支援サービスを提供しています。
プロジェクトの成功を評価する項目設定からプロジェクトの実装、評価、今後の展開の検討までを伴走型でご支援いたします。
まとめ
今回は、Dataikuのはじめ方、というテーマでスムーズにDataikuを使ってデータ分析を始める方法を解説しました。
これに沿って皆さまも自社データでの最初の成功事例を作ってみてはいかがでしょうか?
また、株式会社キーウォーカーでは各フェーズに対して伴走型でご支援するサービスをご用意しております。進める中で困った際はお気軽にご相談ください!