Amazon Web Service
Amazon Web Service(AWS)は、アマゾンが提供するクラウドコンピューティングサービスです。
以前は高額な初期投資が必要だったインフラを、クラウド上で初期費用なしで入手できるようにしたサービスです。
60以上の複数のサービスで構成されており、代表的なサービスとしては仮想サーバーの「Amazon EC2」が挙げられます。
他にも、データベースやストレージ、仮想ネットワーク、ビッグデータ用のサービス、AIサービスなど、様々なサービスが提供されており、複数のサービスを組み合わせて、ひとつのシステムを構成することができます。
AWSは、顧客にサービスを提供するだけでなく、アマゾン自身もECサイトの運用基盤として利用しています。
世界有数のECサイトを支えられるだけの確かな実力があることを、身をもって証明していると言えるでしょう。
物理サーバーは、導入時点で必要な性能を見積もる必要がありますが、サービス開始前に需要を予測するのは困難でした。
クラウドコンピューティングであれば、需要に合わせて性能を容易にスケールできるため、需要の変動に柔軟に対応できるというメリットがあります。
これからさらにクラウドコンピューティングの導入が進んでいくでしょう。
Azure
Microsoft Azure(マイクロソフト アジュール)は、マイクロソフトが提供するクラウドコンピューティングサービスです。
以前は、Windows Azureという名称でした。
コンピュート、ネットワーク、ストレージ、データベースなどを含む70以上のサービスから構成されており、様々なコンピューティングリソースを初期費用なしで入手できます。
マイクロソフトが開発している統合開発環境である「Visual Studio」と、密に連携できることが大きな特徴です。
そのため、ソフト開発も盛んで、これまでの資産が数多くあり、クラウドに移行するにあたっては、Windowsの開発元であるマイクロソフトのクラウドが一番に検討されるでしょう。
特に、オンプレミスシステムとクラウドを併用するハイブリッドクラウドでは、既存のWindows Serverとの統合に役立つでしょう。
人工知能(AI)の一分野の機械学習は、高度な知識が求められるため導入が困難でした。
MLでは、GUIでコンポーネントを繋げていくことにより、プログラミング不要で機械学習を実行可能です。
売上予測や需要予測など、マーケティングに役立つ情報を予測するために活用できます。
BigData
ビッグデータとは、これまでのデータベースシステムでは記録や管理、保管、分析が難しいような巨大データ群のことで、それとともに多様な種類や型式が含まれている、非構造型データや非定型型データを含んだもの、と一般的には定義されています。
つまり、従来からの莫大な量の定型データを保有しているだけではビッグデータとは呼びません。
NoSQLで処理するような非構造型、非定型のデータを対象に含んでいることがその要件とされています。
また、このデータを即座に分析、利用できる仕組みやシステムのこともビッグデータと呼んでいます。
この構造がひとつひとつの異なるデータを短時間に複合的に分析し、データ間の相関を観察できることが、ビッグデータの最大のメリットです。
これまで一般企業では、物理的に分析不能とされてきた巨大なデータもIT技術の進化と、クラウドサービスなどの安価で大量のリソースを必要な時に必要なだけ安価に利用できるサービスが発達したことにより、分析可能となってきています。
BigQuery
Big Queryは、グーグルが提供するビッグデータ分析サービスです。
Google Cloud Platformの1サービスとして提供されています。
数テラバイトを超えるような非常に大きなデータを、SQLによく似た問い合わせ文でクエリ(問い合わせ)できます。
クエリは大量のサーバーで分散処理されるため、大規模データセットでも非常に高速に結果を得られます。
クラウドサービスのため、初期費用はかからず使用量に応じて従量課金されます。
このため、既存システムへの統合も比較的容易に行なえます。
たとえば、毎日売上データを自動的にBig Queryに格納し、分析した上で結果を各部署にメールで配信する、などといったような使い方が考えられます。
たとえば、毎分ごとに売上データを格納し、ほぼリアルタイムに結果を見ることができます。
また、Google Analyticsの有料サービスを使えば、アクセスデータをBig Queryでリアルタイム分析できます。
これにより、アクセスデータ以外も含めた複雑なデータ分析が可能になります。
1日限りのイベントなど、即時性を求められるシーンにも活用できるでしょう。
Bigtable
Big Tableは、Google社の主要な顧客サービスを支える独自の巨大分散データストアのことをいいます。
このBig Tableは2005年4月より本格的な事業上の運用がはじまり、主力の検索サービスをはじめ、Gmail、YouTube、GoogleMaps、日本語入力、App Engineなど多様な同社のプロジェクトで利用されている状況です。
スケーラビリティに制限がないことは大きな特徴といえます。
膨大なデータをテーブルに保存して膨大なユーザーが同時にアクセスしても個別ユーザーの読み書き処理は限定的になるようにできています。
また、可用性が高いのも特徴で、Big Tableのテーブルにデータ書き込みを行うと同時に複数のサーバーにコピーがされ異なるロケーションのサーバーも選択されることから、データセンターで大規模障害が発生しても短時間でサービス復旧ができるメリットをもっています。
Big Tableではデータの検索ができず、テーブルの結合機能を落とすことでスケーラビリティや高可用性を実現しており、非常にユニークな機能を持っているということができます。
DAMA
DAMAとはData Management Association Internationalの略号で、世界各地に70の支部を持ち、8,000名を越える会員を擁する全世界のデータ専門家のための国際的な非営利団体のことをさします。
この組織は、特定のベンダーや技術、手法に依存しないことを前提としながら、グローバルレベルでデータや情報、知識を各企業の重要な資産として管理する必要性の理解を促進し、世界的にこの分野の成長を推進することを大きな目的として設立され、活動を行っています。
この組織の日本での活動を2010年から行っているのがDAMA データマネージメント協会日本支部です。
DAMA データマネージメント協会日本支部設立の目的は、DAMAと同様に、データ、情報、知識を企業の重要資産として理解し、発展、管理することを国内において促進することを第一としています。
この組織は、データマネージメント分野における広範かつ最新の問題に対応するため、オープンなフォーラムを支援し、国内での教育機会を市場に与えることを目的としており、積極的な活動を展開しております。
Deep Learning
ディープラーニングとは、多層構造のニューラルネットワークを用いることにより、機械学習を行うことです。
ディープラーニングは深層学習とも言います。
これにより、神経回路を構成しているのです。
- 神経細胞をモデル化したものをニューラルネットワークと呼びます。
- ニューラルネットワークは、入力層、中間層、出力層などにより構成されています。
- ニューラルネットワークを使用することにより、入力パターンと出力パターンの対応関係を学習させることが可能になります。
- ニューラルネットワークは、非線形回帰分析、非線形判別分析(パターン認識)の有力な学習の方法です。
ニューラルネットワークが最も得意なのは、パターン認識、分類、およびノイズが混在しているデータの処理になります。
この技術は、例えば、画像認識や音声認識の分野に活用されています。
ニューラルネットワークに画像などのデータを入力すると、特徴量が自動計算されます。
特徴量とは、特定の概念を特徴づけたり、問題解決するのに鍵となる本質的変数です。
この階層的な特徴量の学習により、画像認識や音声認識が可能になるのです。
現在では様々な分野に急激に運用が進んでいます。
DFO (データフィード最適化)
DFOとは、Data Feed Optimizationの略号で、ECサイトにおける新規顧客を増やすためにアフィリエイトなどの集客チャネルに登録する商品データを最適化することをいいます。
近年ではECサイトが集客を高める手段として積極的にDFOに取り組むようになっています。
多くのECサイトは、SEOによって上位の検索結果に自社サイトが掲示されるのに加え、キーワード連動広告やアフィリエイト広告を利用するようになっており、こうした広告手法が多様化し検索結果と密に連動するようになっていることからDFOを利用して効率を上げる動きが盛んになっているのです。
DFOは人海戦術で手動でも設定可能ですが、効率性と機動力を発揮するため専門のツールが発売されていることから、大半のECサイトなどはこうした専門ツールを利用して最適化を実現しています。
・商品データベースから集客サイトで必要とされる商品データを抽出・集客チャネルに適合したデータフォーマットへの変換・キーワードの見直し実施・カテゴリーを適合させてデータを登録ツールを利用すれば価格の変化や在庫切れといった事態でも掲載を注視することができますので、機動力のあるDFOを実現することができるようになります。
DMP
DMP(データマネジメントプラットフォーム)とは、インターネット上のサーバーなどに蓄積されたユーザーデータを統一的に管理するための基盤です。
ウェブサービスからは、ユーザーの年齢、性別、職業など、多数の属性データを取得可能です。
それに、興味関心ごとを加えることで、統計的なデータ分析が可能となります。
類似のものには、DWH(データウェアハウス)が以前から存在していましたが、それをさらに拡張したものといえます。
オープンDMPは、ユーザーデータの収集を目的としている企業のDMPで、匿名化されたデータを必要とする企業に提供しています。
たとえば、Yahoo! DMPなどが一つの例です。
一方、プライベートDMPは、自社で保有するDMPで、自社に特化したデータを収集できる反面、大規模なオープンDMPに比べ、データ量が少なくなってしまうというデメリットもあります。
今やインターネットでは、どこもかしこも広告であふれています。
表示される広告は、それまでのユーザーの行動から最適なものが選択されます。
ユーザーが興味を持ちそうな広告を表示することにより、広告のパフォーマンスを最適化します。
それと同様に、ECサイトでのオススメ商品などでも、ユーザーに最適な商品を表示するために活用されています。
ELT
ETLとはExtract Transform Loadという英語の略号で企業内に点在する複数のシステムに蓄積されたデータを抽出し、ひとつのデータウエアハウス内で統合的に分析ができるように変換や加工することをいいます。
まずExtractは、日本語では抽出のことをいい、情報源となる社内のシステムから必要データを抽出するための工程をこのように呼んでいます。
Transformは、日本語では変換や加工を意味する言葉で、情報源から抽出したデータを一定の規則で加工し統合的なデータベースに取り込める形式に変換することをいいます。
さらにLoad工程は、Transformで作成したデータファイルとデータウエアハウス(DWH)にインポートするプロセスのことをいいます。
ETLではこの3つのプロセスを実行することになります。
しかしながら、それらのデータを統合的分析するという機能は今まで欠落していました。
しかしBI(ビジネスインテリジェンス)のツールが普及し、ビッグデータの分析にも時間と費用がかからなくなったことから、こうした既存データを統合的に分析できるように収集、変換することが重要になってきています。
- システム間連携アダプター(EAI)機能を備えている。
- 大量データの高速処理・データ変換・加工・フィルタリングのバリエーションが豊富・メタデータが管理できる
Google Cloud Platform
Google Cloud Platform(GCP)は、グーグルが提供するクラウドコンピューティングサービスです。
40以上のサービスから成り、コンピューティングやストレージ、データベース、ネットワークなど、クラウド上に抽象化されたハードウェアリソースを組み合わせてシステムを構成できます。
GCPは、グーグル自身も使用しており、誰もが知っているGoogle検索やYouTubeなどの有名サービスのインフラとしても使われています。
2019年には、市場規模が2014年の2.8倍にあたる5,404億円に達すると予想されており、グーグルやアマゾン、マイクロソフトなどの大手企業により、さらなる市場開拓が進むものと思われます。
実行環境をコードで記述できるため、手作業による環境構築の些細なミスをなくせます。
クラウドコンピューティングサービス各社は、Dockerコンテナの実行環境もサービスとして提供しています。
まさに湯水のように使えるクラウドは、Dockerと非常に相性のよいサービスと言えるでしょう。
また、Dockerは共通の技術基盤として複数のクラウドコンピューティングサービスで使えるため、ベンダロックインを防ぎ、特定のクラウドに依存しない柔軟性も持たせてくれます。
Hadoop
hadoop(ハドゥープ)は、Apacheソフトウェア財団が開発している、ビッグデータを分散処理するためのオープンソースミドルウェアです。
共有ライブラリのCommon、分散ファイルシステムのHDFS、リソース管理やスケジューリングを担当するYARN、高速な並列処理を実現するMapReduceの4つのモジュールで構成されています。
Googleが発表したGFSとMapReduceの論文に基づいて開発されました。
Hadoopでは、「クラスタ」という単位でコンピューター群を管理し、処理能力が不足しても、簡単にコンピューター(ノード)を追加できるようになっています。
ノードの追加はクラスタの停止を必要とせず、処理中でも追加が可能です。
また、データを格納するHDFSは、スキーマ定義が不要なため、とりあえず格納しておいて、後から意味づけすることができます。
そのため、高級な専用ハードウェアを必要としません。
故障も想定されているので、故障時もシステムは停止することなく、自動的にデータを復旧して処理を継続します。
にわかに期待が高まってきている「機械学習」もそのひとつです。
機械学習は、人工知能(AI)の一分野で、大量のデータを処理して、データの傾向を見つけ出す手法です。
膨大なデータを処理する必要があるため、Hadoopなどの並列処理が使われています。
IoT
IoTとは、モノのインターネット(Internet of Things)のことです。
言い換えると、あらゆる「もの」がインターネットにつながることです。
コンピュータなどの情報通信機器だけでなく、あらゆる「もの」に通信機能を持たせ、インターネットに接続します。
また、「もの」同志で相互に通信したりします。
これにより、自動認識、自動制御、遠隔計測、遠隔操作などが可能になります。
「スマホでタクシー配車サービス」は、「TAXI」を呼ぶ場合に、GPSで乗車位置を自動判定し乗車場所を決めます。
決済は、現金の他、クレジットカードでできます。
「Suicaを使った自動販売機」は、Suicaで購買データが取得されます。
この情報にもとづき、自動販売機の設置場所に応じた品揃えをします。
また、気温、時間帯、年齢や性別に応じたお勧め商品が提示されます。
KGI(経営目標達成指標)
KGIとは、英語のKey Goal Indicatorの略号のことで、経営目標達成指標などと呼ばれています。
与えられた目標達成のための指標をあらかじめ設定し、どのレベルに達すればその目標を達成することができるかを定義したものです。
一般的にKGI(経営目標達成指標)の目標は、最重要とされるものが数値化されて明確に設定されることになります。
企業などではKGIとKPIを両方利用して目標達成の指標に利用するケースもみられます。
たとえば、売り上げ前年比20%アップ、利益率10%アップといったものがKGIです。
KPIでも数値設定は行われますが、こちらはたとえば、特定商品の売り上げを40%増加させることで最終的な売り上げ20%を目指す、といったようなプロセスに対する定義も含まれていることが大きな違いとなります。
KGIは最終目標であり、そのKGIの達成に向かってプロセスが適切に履行されているかどうかを計測するのがKPIと考えればわかりやすくなります。
KPI(重要業績評価指標)
KPIとはKey Performance Indicatorの略号で、企業の目標設定に頻繁に利用される指標です。
企業経営においては多岐にわたる業績評価指標が利用されていますが、KPI(重要業績評価指標)はその名の通り、最もキーになる指標で、その目標の達成に向けて、プロセスが具体的かつ適切に実行されているかどうかを計測するものとなっています。
設定期間は、四半期、月次、週次、日次といった形で業態によって変化します。
期間ごとにパフォーマンスの結果が評価されるので、設定よりも悪い場合には改善案の策定や実施が求められることになります。
- たとえば新規顧客獲得でいえば、新規の顧客訪問回数や成約件数、売上金額など具体的な数値の設定を行って管理することができます。
- また人事部門などでは、従業員の離職率などをKPIとして設定利用するケースもあります。
LTV(顧客生涯価値)
LTVとは、Life Time Valueの略号で日本語では顧客生涯価値と呼ばれるものです。
ひとりの顧客が生涯を通じて特定企業にもたらす利益の総額のことをさします。
このLTV(顧客生涯価値)は企業が提供するサービスや役務に対するロイヤリティ(愛着)が強ければ強いほど高くなる傾向にあります。
一般的に、新規顧客を獲得するためのマーケティングコストは既存客への対応の5倍かかると言われていますので、効率的なマーケティングを実現するという意味でもLTVに注目が集まっているといえるでしょう。
LTVを最大化させるためには、購入単価の増加、購入頻度の増加、継続購買期間の延長、獲得費用の減少、維持費用の減少などを考慮していくことが重要となります。
MongoDB
MongoDBは、オープンソースのドキュメント指向データベースです。
「NoSQL」データベースに分類され、RDBMSとは違った特性を持っています。
RDBMSとは違い、データは「コレクション」という「ドキュメント」の集合体に格納されます。
ドキュメントは、JSONによく似た文字列で、複数の要素をひとまとめにして格納できます。
JSONをそのまま格納できるため、JavaScriptとの相性がよく、多くのウェブサービスで使われています。
シンプルな構造で、高速比較を得意とし、データの差分チェックなどを高効率に行えます。
データベースの人気ランキングでも5位を獲得しており、これからの成長にも期待が持てるNoSQLデータベースと言えるでしょう。
NoSQLは基本的にトランザクションがなく、厳格なデータ管理が苦手です。
そのため、整合性を求められる場面では、RDBMSのほうが適しています。
用途に合わせてどちらかを選択する、もしくは組み合わせて使う必要があります。
MongoDBの活用シーンとしては、大量のデータを分散処理する必要がある、ウェブサービスやソーシャルゲームなどが挙げられます。
RDBMSは水平スケールが苦手で、アクセス数の増加に対応することが困難です。
一方、MongoDBは分散処理が容易に行えるため、突発的なアクセス増にも対応できます。
NoSQL
NoSQLとはSQLを使用しないデータベース製品ということを表します。
NOという名称が就いていることから、SQLを否定した意味に見えますが、正確にはNot Onlyの略とされており、SQLだけではなくほかのデータベース製品であることを示しています。
NoSQLデータベースは従来から普及しているリレーショナルデータベースと比較するとスケーラビリティ、可用性、耐障害性の面で遥かに凌駕する機能を有しています。
大きな特徴は、柔軟なテクノロジーであり、スキーマの必要ないデータモデル、水平スケーラビリティ、分散アーキテクチャ、SQLに限定されない言語やインターフェースを利用することが可能であるという点です。
NoSQLデータベース環境は、分散アーキテクチャに基づいて構築されているため、単一障害点がなく、機能とデータの両方について冗長性を備えている点がさらに利用を加速させています。
OLAP
OLAPは、Online Analytical Processingの略語であり、データベース上に蓄積された大量のデータについて、複雑な集計や分析を実行し、短時間で結果を表示することのできるシステムのことをいいます。
OLAPは全体として、データサイエンティストのようなその道の専門家が使うというよりは初心者でも利用できるグラフィックユーザーインターフェースを実装しており、簡単に使えるところが大きな特徴といえます。
また、定期的な集計やレポーティングとは異なる1回かぎりの分析を行う場合や何度もトライアル&エラーを繰り返して精度をあげるような分析を行う場合には、大きな力を発揮してくれるものとなります。
PDCA
PDCAとは、英語のPlan、Do、Check、Actionの4つの言葉の頭文字をとったもので、この4つの順番でビジネスのサイクルをまわしていくことをいいます。
Plan
Planはその名のとおり、目標を設定し、そのために何をするべきかの仮説を構築し具体的なプランニングを行うことをいいます。Do
Doは実行を示したもので、Planのフェーズで作られた計画に基づいて実際にビジネスを実行してみることになります。Check
Check計画に基づいて実行してみた結果を評価するのがCheckのフェーズです。実際に行ってみた結果が、計画通りに進行してよかったのか、あるいは計画を大きく下回りパフォーマンスが出なかったのかといった部分を冷静に評価することになります。
このCheckは、業態によって量的評価と質的評価が伴うことがあります。
Action
Action アクションは計画、実施、評価を通じて判明した問題点を分析し、さらに改善して実行するか停止するかを判断するフェーズとなります。問題点を改善し新たなプランを立てる場合は、再度このPDCAをまわすことになりますが、そもそもの計画にまったく実効性がない場合にはこの段階で打ち切りという判断を下すことも考えられます。
PowerBI
Power BIは、マイクロソフトが提供するBI(ビジネスインテリジェンス)ツールです。
データの分析とビジュアライズ(視覚化)を一貫して行うことができ、ファイルやデータベースなど、さまざまな場所からデータを読み込めることが特徴のひとつです。
他サービスとの連携も可能で、Google AnalyticsやGitHub、JIRAなどの有名なウェブサービスからデータを取得できます。
データを読み込むだけで基本的なグラフやチャートが作成されるため、データの可視化に一役買ってくれます。
たとえば、Google Analyticsを例に挙げると、訪問ユーザー数と日時を組み合わせて、直近1週間のユーザー数の変化をグラフにすることが可能です。
複数のグラフを組み合わせることもでき、ドラックして簡単にレイアウトを整えられるため資料作成にも最適です。
ウェブサイトの成果を報告するプレゼンテーションなどに活用できるでしょう。
動作がやや異なり、使い勝手はブラウザ版のほうが上です。
基本的には同じことができますが、どちらか迷ったらブラウザ版を使うとよいでしょう。
一方、デスクトップ版にも「オフラインで使える」という利点があるため、状況によっては重宝します。
QlikView
Qliqviewは、数多くのビジュアライゼーションと分析機能を備えており、データサイエンティストの分析プラットフォームです。
ビジュアライゼーション機能には、経営層に見せるダッシュボード機能を含みます。
分析手順の特徴として、ツールを使用する人が、簡単かつ直感的に分析できるように分析画面にガイドをつけて使用しやすいものとしています。
例えば、SQL ServerのデータやOracleデータベース、Excel、XML、テキスト形式をQlikviewに取りこんでデータ分析することが可能です。
ビュー、ズーム、グループ化機能はもとより、アニメーションなどの機能によりデータの分析結果を直感的に把握することができます。
ビジュアライゼーションには、ダッシュボード、簡易シミュレーション、比較分析、ABC分析などの機能もあります。
図や表を印刷することができ、データをエクスポートして他のプログラムで加工することができます。
Redshift
Red Shiftとは、アマゾンが提供するAWSのクラウド型DWH・データウエアハウスサービスのことを指します。
Red Shiftはペタバイト級の高速DWHであり、大量のデータ処理、集計を可能としています。
BIツールの実装・連携も可能にしていることから、短時間で自在に分析を行うこともできます。
億単位の投資を必要としたものが、ごくわずかな金額から利用できるのでユーザーベネフィットとしても大きなものとなります。
- 用途に応じた段階的料金設定を利用できるRed Shiftはスモールスタートから本格的な利用まで、段階的な料金設定がされていますので、必要に応じて利用量を増やしていくことが可能です。
- フルマネージドサービスが可能Red Shiftはフルマネージドサービスに対応しているので、提供されるコンソールでモニタリングを行ったり、簡単に構成変更を実現できます。
- PostgreSQL8.0.2に準拠Red Shiftは、PostgreSQLとの互換性が高くPostgreSQL標準のクライアントコマンド、psqlも使用可能で、JDBCやODBCなどの接続もサポートしていることから使いやすさも特徴となっています。
- 管理作業の自動化ノード構成、設定、モニタリング、バックアップなど運用管理のほとんどが自動化されています。
こうしたことからRed Shiftは幅広いユーザーから支持を受けて広範な利用が進んでいる状況です。
R言語
R言語は、統計分析に特化したオープンソースのプログラミング言語です。
特徴的なのは、言語だけでなく開発環境や実行環境まで含まれている点です。
RStudioという開発環境上で、データの読み込みから加工、分析、ビジュアライズ(視覚化)まで一貫して行えます。
言語には、統計分析用のさまざまなメソッドが用意されており、統計処理を簡単に実行できます。
一般的なプログラミング言語とは考え方が異なっており、扱いには統計学の基礎知識が必要です。
データのままでは意味がないため、分析して結果をビジネスに反映させる必要があります。
そのため、データ分析を専門とするデータサイエンティストが注目を集めています。
主に統計分析を活用するため、分析にR言語を活用しています。
各種APIが最初から用意されているため、効率的に素早く分析できるためです。
AIの一分野である機械学習では、複雑な数値計算により、データを処理します。
データ処理を得意とするR言語には、標準ライブラリ以外にも複数のパッケージが用意されており、比較的容易に機械学習が行なえます。
学習結果もグラフとしてすぐに出力できるため、探索的な機械学習に向いていると言えます。
Schema
Schema(スキーマ)とは、もともと図や図式、計画といったものを示す言葉で語源はギリシャ語とされています。
- ITの世界での、Schemaはデータの論理構造の集合体と説明されます。
- わかりやすくいえば、データベースの構造定義を指すことが一般的です。
- Scheme(スキーム)は具体性を帯びた内容を示す言葉ですがShema(スキーマ)は、概要を示す大まかな内容という違いがあります。
まさにユーザーが組み立てたオブジェクトの市場の中身のことをこう呼んでいるというわけです。
Tableau
Tableau(タブロー)は、タブローソフトウェアが提供するBI(ビジネスインテリジェンス)ツールです。
用途に合わせて、Desktop、Server、Reader、Public、Onlineの5つのラインアップから製品を選択します。
企業では、売上データや契約件数、問い合わせ件数などさまざまなデータを集計していますが、数値データではわかりにくいため視覚化する必要があります。
Tableauを使えば、プログラミングをすることなく、ビジネスデータを素早く視覚化できます。
- その道のプロでもなければ、大量の数値データをそのまま分析するのは困難です。
- 数値をグラフとして視覚化すれば、一目するだけでデータの傾向が見えてきます。
- また、グラフ化したデータはプレゼンテーション用の資料としても役立ちます。
- 細かい数値を説明するよりも、直感的に理解でき、説得力も増すでしょう。
Tableauでは、位置情報を含んだデータを日本地図などにマッピングする機能を持っており、地理的なデータ分析も可能になっています。
地域ごとの差異を分析することで、より効果的なマーケティングにつなげることができるでしょう。
Talend
Talendは、アメリカに本社を置くビッグデータ関連のソフトウェアを提供している企業です。
市販製品だけでなく、ETLツールである「Talend Open Studio」をオープンソースで無償提供しています。
ETLツールとは、Extract(抽出)・Transform(変換)・Load(読み込み)を行うツールのことで、BI(ビジネスインテリジェンス)システムで重要な役割を果たします。
BIでは、さまざまな場所からデータを取得する必要があるため、それぞれのデータ形式を統一する必要があります。
それを担うのがETLツールです。
データを分析する前段階として、それぞれのデータソースからデータを適切な形式で読み込みます。
また、クロスプラットフォームであるためOSを選びません。
Java言語によるカスタマイズが可能で、任意のデータソースやデータ変換を定義できることが特徴のひとつです。
データクレンジングとは、無効なデータを除外したり、別のデータに置き換えたりすることです。
たとえば、空の項目を0に置き換えたり、重複している項目を一つにまとめたりします。
生のデータは分析しやすい形式とはいえないため、事前にさまざまな前処理を行う必要があるのです。
The four Vs
4 Vsとは、ビッグデータの4つのVという意味の言葉です。
4つのVはVolume(容量)、Velocity(頻度・スピード)、Variety(種類)、Veracity(正確性)からなります。
Volumeはデータ量、Velocityはデータの生成される速度、Varietyはデータの多様性、Veracityはデータの正確さを意味しており、ビッグデータではこうした4つの要素が重要とされています。
ビッグデータは単純に巨大でボリュームが大きいデータというだけではないのです。
Volume や Velocityの領域は様々なソフトやハードウエアの処理能力や処理方法の向上が寄与したことから大きく変化することになり、ビッグデータがより使いやすくなりました。
その一方で、 Variety(多様性) や Veracity(正確さ)の領域については解決のついていない部分もあり、今後さらに進化が求められています。
この領域をAI・人工知能がリードし、より精度を上げていくことが予測されています。
Treasure Data
Treasure Dataは、アメリカに本社を置くクラウド型のデータマネジメントサービスを提供する企業です。
トレジャーデータ株式会社として日本法人も構えています。
サービスでは、データ統合、分析、連携の3つが可能で、データの取り込みから保管、データ分析、視覚化、結果の通知まで一貫して行えます。
すかいらーくグループやグリー、ソフトバンクなど数多くの有名企業で利用実績があります。
そのようなサイロ化したデータを、「Treasure Data DMP」というプライベートDMP(データマネージメントプラットフォーム)に取り込むことで、企業全体でデータを共有できます。
また、Tableauも自動的に行うことができ、手作業の手間を削減してくれます。
fluentdは、アプリケーションから出力されるログデータを適切な形式に変換し、データベースやファイルなどに出力するためのツールです。
使用用途としては、複数のウェブサービスのログデータを集約したり、IoT(モノのインターネット)デバイスのデータ収集に使用したりします。
汎用性が高いため、アイディア次第でさまざまな用途に活用できます。
アクセス分析
アクセス分析はウェブサイトの運用で使われる用語の1つで、ウェブサイト内をユーザーがどう行動するかを分析し、より使いやすいウェブサイトに修正していくためのツールとなるものです。
ECサイトなど、ネットで商品販売やサービスを提供するサイトの場合には、ユーザーに達成してほしい行動というものがあります。
これはコンバージョンと呼ばれていますが、このコンバージョンを増加させるために行うのがアクセス分析です。
- サーバーログ型サーバーログ型はサーバーに記録として残されたアクセスログファイルベースでデータを取得する方法となります。
- Webビーコン型Webビーコン型はブラウザでページが表示されると各ページにあらかじめ設置されているJavascriptが作動して、読み込まれたページ情報を分析サーバーに送信しデータを取得するという方法をとります。
Googleが無料で提供しているGoogle Analyticsなどがこれに該当します。
パケットキャプチャリング型ウェブサーバーが置かれているネットワーク上に監視ツールを設置し、ユーザーからページリクエストがあるたびに発生するパケットデータをキャプチャリングしてアクセス分析サーバーに蓄積して分析を行うものです。
ガートナーリサーチ
Gartner Research(ガートナーリサーチ)は、アメリカに本社を持つガートナー社の一部門です。
同社が最も利益を上げている部門であり、IT企業や専門家に調査データを提供しています。
また、専門アナリストによるビジネスやIT関係のアドバイスも行っており、世界中の大手企業に顧客を持っています。
グローバル企業として世界90カ国に拠点を持っていますので、日本でもガートナージャパンにリサーチを依頼できます。
このため、顧客関係管理(CRM)やB2B電子商取引、セキュリティなどITに関連する幅広い分野のサポートを受けることができます。
たとえば、「日本のアプリケーション開発に関する調査」や「クラウドERPの利用動向に関する調査」、「IT人材に関する展望」などです。
こういった調査結果を利用することで、市場全体の動向を把握したり、人材確保の方針を決めるための参考にしたりできます。
概要はプレスリリースとして公開されているため、同社の顧客でなくともデータを参考にすることができます。
クラスタ分析
クラスター分析とは、異なる性質のものが混在する集団の中から相互に似たものを集めてクラスター(集落)をつくり、対象を分析しようとする方法のことをいいます。
判別分析は、あらかじめ標本に基づいて判別を行うものですが、クラスター分析は分類の基準は決まっていない中で、分析の中から分類を決めて行く点が大きな違いとなります。
特に注目すべき点は、ビッグデータを短時間で安価に分析できるようになったことから、抽出したサンプルだけでなく全数のサンプルに対してそのクラスターを分析することができるようになり、これまで以上に精度の高いクラスターを導き出すことができることです。
また、分類の種類や生成などの形式を、階層的方法にするか非階層的方法にするかもあらかじめ選択する必要があります。
分類に用いる対象間の類似度についても、ユークリッド距離、マハラノビス距離、コサイン距離などどの手法を選択するかが求められます。
設定したクラスター間の距離の測定方法にもウォード法、群平均法、最短距離法、最長距離法などがあり、この選択の仕方によって生成されるクラスターは微妙に異なるものとなります。
クロス集計
クロス集計分析とは、2つの項目に着目して集計する分析手法のひとつです。
たとえば、商品アンケートの項目として、年齢、評価、リピート回数の項目があるとします。
この場合、年齢と評価、評価とリピート回数など、2つの項目を縦軸・横軸に配置して集計します。
このように集計することで、各項目間の関連を調べることができます。
この例でいえば、20代の評価が特に高いとか、評価が高いほどリピート回数が多くなるなどの傾向が把握できるでしょう。
全体を見るだけでなく、特定の集団ごとの傾向を知ることで、より効果的なマーケティングが可能になります。
売上のデータを月ごとにまとめたり、地域ごとの売上の傾向を調べることができたりします。
データはExcelで管理していることが多いため、すぐに始められるというメリットがあります。
クロス集計をすることで、各項目の平均値も明らかになり、別の傾向が見えることも少なくありません。
全体の平均では高いのに、項目別に見ると低くなるなど、直感に反する結果が出ることもあります。
このようなデータを明らかにすることで、マーケティングが誤った方向に進むことを防ぎます。
シグナル分析
シグナル分析(ソーシャルシグナル分析)におけるソーシャルシグナルとは、ツイッターやフェイスブックなどのソーシャルメディア上でユーザーが提供したコンテンツに対してどのように反応したかを示す指数のことをいいます。
このシグナルを分析することを、ソーシャルシグナル分析と呼んでいます。
ソーシャルシグナルとして挙げられるのが、Facebookの「いいね」と押された数やTwitterのツイート数などということになります。
こうした指数を利用し、コンテンツマーケティング施策として実際に公開したコンテンツがどれだけターゲットとなる顧客に共感されたり、プラスの影響を与えたかを分析することが近年注目を集めています。
ほとんど使われていないようなソーシャルメディアではいくら反応があっても意味はないものになりますので、FacebookやTwitterなどの主要なメディアの反応を重視することになります。
たとえばFacebookではいいねの数、シェア数、コメント数などがその対象となり、またTwitterでそれをシェアしたり、リツイートした数なども分析の対象となります。
ダークデータ
ダークデータとは、価値があるかもしれないのに、収集と蓄積だけがされたまま取り残されて活用されていないデータのことを言います。
もともとこの名称の由来は、研究開発者が実験や調査、観測用に集めたデータでありながら実験に失敗したなどの理由から研究室の片隅で日の目を見ずに放置されとことから、ダークデータと呼ばれたのがはじまりとされています。
しかしビッグデータの活用が本格化し、膨大なデータの処理に時間とお金がかからなくなってきたことから、こうしたダークデータを有効活用する動きが出始めています。
しかし、AIを利用することにより人の力では到底分析できなかった中身を正確に認知、分析できるようになったことから、今後はダークデータをAIの力を借りて意味のあるものとして活用する動きが高まる可能性もでてきています。
ダッシュボード
Dashboard(ダッシュボード)とは、複数以上の情報ソースからデータを集め、その概要をまとめて一覧表示する機能、もしくはその実際の画面、それらの機能を提供するソフトウエアのことを言います。
もともとDashboardは、自動車の運転席で操作をするための計器板から来ている言葉とされています。
ITではBIツールにより生成されるものやソフトウエアのコントロールパネルとして機能するDashboardなど様々なシーンで同一名称のものが利用されるようになっています。
こうしたダッシュボードは、主にBIツールを利用して社内の業務システムから必要なデータを収集し、グラフや表などで可視化してみせるもので、データ自体を操作することは出来ませんが、一括して足もとの経営状況を即座にチェックできることから利用を進める企業が増えてきています。
データクレンジング
Data Clensing(データクレンジング)とは、別名Data Cleaning(データクリーニング)とも呼ばれるもので、データベース上に蓄積・保管されているデータの中から内容が重複している部分や間違って記載されている部分、既に古くなっているデータ、あるいは表記の誤りなどを検索し、修正や削除を行うことでデータとしてのクオリティを高め、使えるデータに整形する作業のことをいいます。
最近では、様々なところからデータが入手できるため、重複や記載の誤りといったものを取り除く必要があります。
さらに今後、AIなどを利用したデータマイニングを考える場合には、できるだけ正確かつ無駄のない内容にしておくことが利用効率を上げる大きなポイントとなるため、常に意識しておかなくてはならないプロセスといえるでしょう。
戦略的で効率的なデータ利用を考えるにあたっては、常に鮮度と正確度の高いデータを収集・統合することが重要になるのです。
データサイエンティスト
データサイエンティストとは、新分野のデータ分析のエキスパートをさします。
複雑な課題を分析し、どのような問題を解決しなければならないかを説明する事のできる技術を持ったエンジニアです。
企業や行政の意思決定には、ビッグデータが活用されるようになり、新しい分析技術や直感的に把握できるグラフィカルな表現などで、状況を共有し意思決定を支援することが、組織運営に欠かせない技術となってきています。
データ分析ニーズは多岐にわたり、顧客行動データ分析、購買データ分析、機器の保守点検などの産業分野を始め、社会インフラ計画など様々な領域での応用が期待されています。
また、分析結果で見せる出力の設計にも、ユーザインタフェースやデザイン能力も必須の能力です。
従来の情報分析のように統計処理だけではなく、AI や IoTなどの応用も期待される分野なので、幅広い知識を常に獲得できるエキスパートが求められます。
データマイニング
データマイニングとは、膨大なデータをコンピューターによって統計学、パターン認識やAIなどを使って分析し、有益な知見を得ることをいいます。
マイニングとは英語で採掘を意味する言葉ですから、まさにデータを採掘することで役立つ知見を見つけ出すことをいいます。
特に、クラウドサービスの発達で、先行投資なしに必要なときに必要な量だけITリソースを活用できるので、一般企業でもビッグデータの収集と蓄積が可能になり、蓄積したデータを使ったデータマイニングが盛んになっています。
ITの進化とともに、このような情報を複合的にかけ合わせてマイニングすることができるようになりました。
これまでのような部分的な分析では、顧客の大まかな姿しか分析できていませんでしたが、現在では一般企業でも収集した全データを活用し、マーケティング/営業戦略/経営判断など様々な人の意思決定をサポートするためのツールとしてデータマイニングが活用できるようになりました。
データ集約
Data Aggrigation(データアグリゲーション)は異なる多岐にわたる分野から収集されたデータを集約、統合し再利用することを言います。
このプロセスが今のITの世界では非常に大きな広がりを見せようとしています。
しかし、最近はIoTビジネスへの利用が本格化してきていることから、大量のIoTデータ収集、蓄積、分析とともにIoT以外の領域で生じるデータとの統合や加工、フィルタリングのためにアグリゲーションを進めることが重要になってきているのです。
これまでのIT領域では比較的地味な存在であったData Aggrigation というプロセスは、ビッグデータのさらなる活用やビジネスインテリジェンスの積極的な利用、IoTビジネスの実用化などを背景にして今後も非常に注目されるプロセスとして見逃すことができないものになってきています。
BI(ビジネス・インテリジェンス)
データを収集・蓄積・分析し、未来予測や経営の意思決定の手助けをするツール
あらゆるデータソースから利用者にとって有益な情報を自由に抽出することができる。また、利用者が自由にデータを分析できる機能も備えている。テキストデータをグラフに変換し視覚的に見やすくもできる。
レベニューマネージメント
レベニューマネージメント(RM)は、収益を最大化するための販売管理手法です。
小売業などでは、完売による機会損失や売れ残りによる在庫処分が起きます。
そこで、RMを行うことで、在庫量や価格を調整し、利益が最大になるようにします。
また、本来の発祥元である航空産業やホテル業、ゴルフ施設などの、サービスを在庫として繰り越せない現場でも活用されています。
繁忙期と閑散期で価格差をつけたり、早期購入割引をしたりするなどして、企業の収益を最大化することを目指します。
需要は多ければいいというわけではありません。
現実的には、施設で受け入れられる顧客数には限界があります。
そこで、商品の価格を調整するなどして、受け入れ可能な需要かつ利益が最大になるようなポイントを探します。
商品の需要を自らコントロールすることがRMの基本です。
誤差が3%ほどの正確な予測ができないとRM自体が成り立ちません。
そこで、需要予測に機械学習が取り入れられ始めています。
機械学習は、大量のデータから傾向を見つけることができ、将来を予測することが可能です。
これまでの販売データを活用でき、正確な需要の予測が期待できます。
因子分析
因子分析とは、ある質問項目への回答など、観測された変数がどのような変数から影響を受けているかを探る手法のことをいいます。
これは多変量分析の手法の一つであり、複数の変数の関係性をもとにして、その構造を探るようなときに多く用いられる分析手法ということができます。
マーケティングのデータ分析においては頻繁に利用される分析手法となっています。
- 検索的因子分析多くの観測変数間で確認できる複雑な相関関係が、どのような内容の因子を導入すれば説明できるかを調べる手法。
- 検証的因子分析(確認的因子分析)因子数や因子と観測変数の関係について、あらかじめ仮説的なモデルを容易し実際のデータによって検証する手法。
一方独自因子は、分析内容ごとに異なり、分析上の誤差として扱われることになります。
因子分析は、まず変数を選択し、因子抽出と因子数を決定することから始めますが、データがうまく解釈できるまで様々な手法を試してみて最終的に因子を特定し、その因子名を決定していくこととなります。
回帰分析
人間や多くの動物は、過去の経験から得られた知識や規則を行動に生かしています。
このような学習機能により、既知のデータから規則を導きだします。
そして、その規則により、未知の部分の説明を行ったり、データにもとづく予測を行ったりします。
回帰分析は過去の経験から得た、相関関係や因果関係があると想定される2つの変数の一方から将来的な値を回帰直線(予測式)として求めるための手法です。
2つの変数の将来的な傾向を分析する目的で行われます。
最初は、その具体的な関係性がわからないので、抽象的な関数記号fで、血圧=f(年齢)と表すことができます。
この式の中の年齢を説明変数とよび、血圧を目的変数と呼びます。
このようなデータから導いた導いた規則を統計モデルと呼びます。
この統計モデルをデータから導き出すデータ分析の方法を回帰分析と呼びます。
説明変数が一つの場合を単回帰分析、説明変数が複数の場合を重回帰分析と呼びます。
線形モデル以外のモデルを非線形モデルと呼びます。
非線形関数を用いる回帰分析には、ロジスティック回帰、多項式回帰などがあります。
その他に、一般化線形モデル(線形モデルとは異なる)、平滑回帰、加法モデルなどがあります。
また、データによっては、対数変換などの変換により、非線形のデータを線形関係に変換して線形モデルとして構築を行う方法も考えられます。
機械学習
機械学習とは英語のマシンラーニングから来た言葉で、データから反復的な学習を行い、そこに潜む一定のパターンを発見することをいいます。
機械学習により導き出された結果は、新たなデータ分析に利用することで将来予測を可能にします。
機械学習は、予測分析プロセスにおけるモデル構築の自動化を実現しデータサイエンティスト不足を大きく補う仕組みとして注目を浴びています。
コンピュータの処理能力が近年さらに高まり、その処理コストも過去とは比較にならないほど安くなったことが機械学習の利用を加速させているといえます。
このようなことから機械学習への期待はさらに高まりを見せており、実際の利用で大きな成果を上げるケースも増えてきています。
記述分析
Descriptive Analyticsとは、過去に起こったことをデータから読み取る分析作業のことをいいます。
日本語では、記述的アナリティクスなどとも呼ばれています。
多くの企業が行うアナリティクスの作業は、このDescriptive Analyticsということができます。
営業成績分析における受注率や売上達成率、売上増加率などは、Descriptive Analyticsのやり方のひとつということができます。
その基本的なものになるのが、Descriptive Analyticsです。
アナリティクスを先に進めていくためにも過去に何が起きたのかを正確に明らかにすることが重要となり、Descriptive Analyticsはあらゆる分析行為の入り口として正確に分析することが重要になるのです。
Descriptive Analyticsは、事業施策の様々なKPIを定めるためのベースとしても利用されており、企業にとっては基本でありながらきわめて重要な構成要素となっています。
空間分析
Spatial Analysis は日本語で、空間分析と呼ばれるものです。
これは位置情報を持つ空間データを利用して分析することをいいます。
Spatial Analysisでは、取り扱う空間データと分析の手法により様々な分析を行うことが可能になります。
例えば、不動産業であれば、駅やバス停からの一定以内の距離に立地する物件を抽出して表示するといったことがこれに当てはまります。
例えば、複数以上のポイントデータがあるときに、その密集度合いを分析する場合には空間を同一サイズのグリッドで分割し、各地域内にどのぐらいのポイントが含まれるのかを集計しなおすといったこともできます。
これは街の変化などを読み解く場合には非常に有意義なデータとなります。
このように空間という変数を入れることにより、データはより有益的、かつ視覚的にわかりやすいものとなって利用する事が出来るようになります。
探索的データ分析
探索的データ分析(EDA)は、英語ではExploratory Data Analysisと呼ばれています。
これは、統計学者J.W.Tukeyによって1960年ごろから提唱された手法で、あらかじめモデルを設定したり仮定したりする確証的データ分析とは一線を画し、データの示唆する情報を多面的に捉えて分析していく分析手法です。
探索的データ分析では視覚的にデータを捉え、データ自身が仮説を語るといった方法ともいえます。
ビッグデータの利用が進み、データマイニングが活用される中で効率的なデータマイニングの手法としても注目され、積極的に活用されている分析方法となっているのです。
そのため、分析における初期フェーズが極めて重要となる方法といえます。
可視化にあたっては、その目的と有効性を認識した上で最も効果的なグラフに示していくことも重要なポイントとなっています。
判別分析
判別分析とは、市場調査などの手法のひとつで、個体と呼ばれる対象者の特性(一般的には回答データと呼ばれる)からその対象者がどの群に属するのかを判別する手法のことをいいます。
どの群に属しているのかあらかじめわかっている標本を用意し、まだ分類されていない標本がどちらの群に属するのかを推定する方法です。
また、企業が実施したアンケート結果からそれぞれの消費者があらかじめ設定された2つの製品のうちどちらを選択するかを予測するといったものも判別分析になります。
学校の入学試験や企業の入社試験において、筆記、面接、作文などいくつもの複合的試験項目から合格者群と不合格者群を判別するといったものもこの判別分析のひとつです。
一般的には線形判別関数を用いるケースが多くなります。
・線形判別関数を用いて、値を直線的・平面的モデルに当てはめる方法・マハラノビス距離を用いて、確率を2次曲線モデルに当てはめる方法
予測分析
Predictive Analyticsは、日本語では、予測的アナリティクスとも呼ばれるもので、過去のデータをもとにしながら将来におけるある変数を予測する分析のことをいいます。
ビッグデータが急速に普及することによって、多くの企業、組織でも過去に何が起きたのかだけを分析するのではなく、このPredictive Analyticsを使って、未来予測を行うことが増えています。
こうしたことから、データの分析にあたっては既存のデータウエアハウスではなく非定型データの処理にも適したHadoopなどのオープンソフトウエアを利用した分析を行うことになります。
Predictive Analyticsは、実際に人間が分析した場合に気がつかなかったような事実の相関性といったものを見出すことができるため、アナリティクスの世界では積極的にこの領域に踏み出して利用をはじめる企業も多くなってきています。
Predictive Analyticsを利用すれば、人の手には負えないようなボリュームのデータをスピーディに処理、分析することができるのが大きな特徴です。