Dataikuの使えるプラグイン5選

プラグインについて

Dataiku DSSはデータ分析のプロジェクトを支援する多機能プラットフォームで、既に多くの機械学習の前処理、モデルのステップが自動化されていますが、さらにその機能を拡張するプラグインやコードサンプルが豊富に提供されています。

この記事では、Dataiku DSSで利用できるプラグインの中で、実務に使えるプラグインをいくつかご紹介します。

今回紹介するプラグイン

【自然言語】

  • Text extraction and OCR
  • Text Analysis
  • Named Entity Recognition

【コネクタ】

  • Tableau Hyper Export Plugin
  • Excel sheet importer

Text extraction and OCR

Dataikuの「Text Extraction and OCR」プラグインは、TesseractまたはEasyOCRエンジンを使用してファイルからテキストコンテンツを抽出したり、光学文字認識(OCR)を実行するためのレシピを提供するツールです。このプラグインには、画像変換や画像処理のレシピも含まれており、PDFファイルからテキストを抽出する一連のフローを効率的に実行できます。

主な機能と使用法

  • テキスト抽出レシピ: 様々なファイル形式(PDF、DOCX、HTMLなど)からテキストを抽出し、ファイル名、抽出されたテキスト、エラーメッセージを含むデータセットを出力します。
  • OCRレシピ: PDFやJPGなどのファイルからテキストを抽出するために使用され、ファイル名と抽出されたテキストを含むデータセットを出力します。このレシピでは、複数ページのPDFを一つのテキストとして連結する機能や、複数のOCRエンジンの選択、言語指定が可能です。
  • 画像変換レシピ: PDFや画像をグレースケールのJPGに変換します。PDFが複数ページの場合は、ページごとに画像を生成します。

テキスト分析を行う際にほぼ必須のプラグインとなっております。弊社環境で最も活用されているプラグインです。

Text Analysis

Dataikuの「Text Analysis」プラグインは、テキストデータの深い分析を行うためのツールです。このプラグインは、テキストから有用な情報を抽出し、データサイエンスプロジェクトに適用するための複数の機能を提供します。特に、文書からのキーワード抽出やオントロジータギング(特定のキーワードに基づいたタグ付け)を行うことができます。

主な機能と使用法

  • キーワード抽出、タグ付け、カテゴリ分類: キーワードとタグ、カテゴリのリストを入力として、データセットからキーワード抽出を行い、キーワードに紐づくタグ、カテゴリを付与します。

大規模テキストデータをキーワードベースで分類するためには有用なプラグインですが、キーワードとタグ、カテゴリのリストを作成するのが大変です。LLMを使った方がより簡単に分類できそうですが、低コストで分類したいときはこのプラグインが役に立つでしょう。

Named Entity Recognition

Dataikuの「Named Entity Recognition」プラグインは、テキストデータから人名、日付、場所などの固有名詞を認識し、抽出するためのツールを提供します。このプラグインは、文書内の重要な情報を効率的に特定し、データ分析プロセスを強化するのに役立ちます。利用可能なモデルには、SpaCyとFlairがあり、SpaCyは多言語をサポートし、Flairは精度が高いですが処理速度は遅めです。

主な機能と使用法

  • 固有表現抽出: レシピで簡単に日付、人名、地名などの固有表現を抽出できます。入力した文書を固有表現抽出して返すWebAppもついています。

文章のタグ付けや特徴抽出、構造化に欠かせない固有表現抽出がノーコードで出来るのは非常に魅力的ですが、日本語のタグが下の画像のDate列のように、文字コードで出力されるのが少し面倒に感じました。ただ、実施した数行のサンプルに対しては抽出したい単語を抽出できているようだったので、十分実用出来そうです。

Tableau Hyper Export Plugin

Dataikuの「Tableau Hyper Export」プラグインは、Dataiku DSSからTableauにデータを効率的にエクスポートするためのツールです。このプラグインは特に、TableauのHyperファイル形式(.hyper)を利用してデータをエクスポートし、Tableau DesktopまたはTableau Serverで直接利用可能な形でデータを提供します。Hyperファイル形式は、高速なデータ分析を可能にするTableauのインメモリデータエンジン技術を活用しています。

主な機能と使用法

  • Hyperファイルへのエクスポート: Dataiku DSSから直接Hyperファイル形式でデータをエクスポートすることができます。これにより、Tableauでのさらなるデータ可視化と分析がスムーズに行えます。
  • Tableau Serverへの直接アップロード: このプラグインを使用して、エクスポートしたデータセットを直接Tableau Serverにアップロードできます。これにより、データセットの共有やチーム内でのアクセスが容易になります。

Dataikuで分析した結果や機械学習のモデルの出力をTableauでダッシュボード化したい、という要望は少なくありません。このプラグインはそのような要望を実現するために必要不可欠なものとなっています。

Excel sheet importer

Excelの複数シートのテーブルを構造化して読み込むためのプラグインです。

主な機能と使用法

  • Excelファイルのインポート: 複数シートにまたがるExcelファイルを、シートごとに別のデータソースとしてインポートすることが可能です。
  • 使用法: マネージドフォルダのアクションに、[Excel .xlsx sheets importer]というアクションが追加されます。クリックすることでマネージドフォルダ内のExcelファイルをシート別にインポートします。

複数シートのExcelファイルをインポートする、というよくあるケースを簡単に実現できる素晴らしいプラグインです。Tableau Prepユーザーからすると複数シートを1つのデータソースとしてインポートする機能や、データインタープリタ(以下画像のようにA1セルから始まらないテーブルの自動検出、読み込み)が欲しいと思いました!

まとめ

Dataiku DSSを活用する際に、私が実際に使用している便利なプラグインを5つご紹介しました。

これらのプラグインはデータサイエンスプロジェクトの効率を大幅に向上させることができます。Dataikuのマーケットプレイスには他にも多くの有用なプラグインが存在しているので、今後も継続的にご紹介させていただきます!

また、自身で開発した処理をDataikuのコミュニティに貢献するため、プラグインとして公開することも可能です。このような共有は、Dataikuが使いやすくなるのに加え、データサイエンスコミュニティ全体の知識拡散、成長につながります。

みなさまが使いたいプラグインはありますか?ぜひアイデアをお聞かせください。

今後は使う側ではなく、汎用的なプラグインをリリースしてみなさまに使っていただけるよう、頑張ります。

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください