ブロンソンは穴を掘る、脇目もふらずに掘る。データマイニングは何を掘る?

脇目もふらずに掘る?

「マイニング」というワードはご存知ですか?英単語で「採掘」という意味ですね。私は数年前の仮想通貨バブルだった時によく耳にしたので辞書を引いてみました。コインを採掘することか、なるほど。と思ったことを覚えています。本日は仮想通貨のお話ではなく、データの採掘、データマイニングとはどういうものでしょう?というお話です。今回のタイトルは私の好きなみうらじゅんさんがブロンソンという俳優がひたすら穴を掘るお話をしていたことを記憶から掘り出して使わせていただきました。

1.データマインニングとは

さて、皆さんは「ビールとおむつ」という事例をご存知ですか?1992年12月23日、米紙「ウォールストリートジャーナル」に掲載された「Supercomputer Manage Holiday Stock」という記事がすべての始まりと言われています。

米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はビールとおむつを一緒に買う傾向があることがわかった。調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うよう父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した。

有名なお話なのでご存知の方もいらっしゃると思いますし、初めて聞いたけど、ビールとおむつ?買わないでしょ?その組み合わせ。と思った方もいらっしゃると思います。しかし、データを分析することで様々な事実が、紙おむつを購入したパパがついでにビールも買って帰るという事実が見えてくるのです。

2.情報を採掘すること

ビールとオムツ=データマイニング
これだけでは何がイコールなのか全くわかりませんよね。データマイニングとはデータのマイニング「データや事実情報の採掘」という意味になります。企業が収集する大量のデータを分析して、有益なパターンやルールを発見し、そこからマーケティング活動を支援していくための統計的手段、またはツールの集合体と言えるのでないでしょうか。広大な高山から金脈を勘で掘り当てるのではなく広大な高山から今まで掘り出てきた莫大なデータをもとに、さらに研ぎ澄ませてを探しだすというイメージかもしれません。近年の飛躍的なマシンパワーの増大、ネットワークの拡大、オープンデータの増大、情報収集・保持コストの低下は、多様な質、種類を含む膨大な量の情報、つまりビッグデータを企業、個人が収集し保持し分析することを可能にしたのです。

3.「データマイニング」と「分析」と

情報を発掘すること、それがデータマイニングだとご理解いただけたかと思います。ここでいう情報とは、”仮説”であり”事実”であり”関連性”であったりします。ならば、データマイニングと分析、なにが違うの?そう思われる方も多いでしょう。
分析は、data_mining ではなく、analysisと英訳します。分析の作業では、大量の情報の中から事実を発掘することはしません。分析とは、分析者がある仮説を立ててその仮説が正しいか間違っているか”検証する”ことを意味します。そのため、データマイニングは「仮説発見型」、分析は「仮説検証型」とも呼ばれています。データマイニングと分析は、似て非なるものとして、統計学では明確に分けられています。

4.データマイニングで出来ること「予測」「分類」「関連性」

膨大なデータの中から仮説を発見するデータマイニング。その仮説は「事象の発生確率の予測」「データの分類」「データの関連性」の3つの考え方になります。

「予測」には、「これから起きることを予め言い表す」という意味があります。予想にもこうした意味がありますが、予測の場合はさらに「合理的な説明が可能である」という条件がついてきます。
予測は、その要因をデータに基づき明らかにし、事象が発生する確率を算出します。そのため、営業先の受注率、DM経由の商品購入率、サービスの解約率などを算出するのに適しています。

似通った仲間同士に分けること、それが「分類」です。データマイニングにおける分類には2種類あります。例えば、1日の平均売上が5万円以上か/未満か」という明確な条件で分類し、カテゴリを見つける。これは、似たもの同士を集める分類になります。もう一方は、細かい情報で分けてから、共通点を持つもの同士をまとめる分類です。

「関連性」は冒頭のビールとオムツのお話がその代表例です。データベース上に大量に蓄積されたデータから、頻繁に同時に起こる事象を見つけ出すことを意味します。

5.データマイニングの手法

データマイニングを行う際に使用する分析手法は複数あり、分析目的により異なります。
よく使われる分析手法は、決定木分析、クラスター分析、回帰分析、ニューラルネットワーク、マーケット・バスケット分析、ロジスティック回帰分析などがあり、これらの手法は通常、組み合わせて使われます。

データの関係性がわかる:マーケット・バスケット分析

マーケット・バスケット分析とは、データ同士の関係性を分析するもので、どの商品とどの商品をどのような顧客が同時に購入したかを分析する手法です。
コンビニのPOSデータの分析でよく使われます。また、AmazonなどのECサイトで、レコメンド機能に応用をきかせることができます。

データを分類できるクラスター分析

クラスター分析は、データを分類する分析手法の一つです。
クラスター分析は、階層クラスター分析、非階層クラスター分析の2種類にわけられます。
階層クラスター分析は、最も似ている組み合わせから順にまとめていく方法です。
一番の長所は、近いものから順にまとめるため、クラスター数を事前に決めずに済むことです。しかし、分類の対象が数十個以下でなければ結果が不明瞭になることから、ビッグデータの分析には不向きです。
非階層クラスター分析は階層構造を持たないため、たくさんのデータがあっても分析が可能なことから、ビッグデータの分析に適しています。

データから将来を予測するロジスティック回帰分析

ロジスティック回帰分析は、発生確率を予測する手法です。企業ではマーケティング施策に対する顧客の反応を改善するためなどに使います

6.まとめ

いかがでしたか?データマイニングとは扱うデータは整形されておらずノイズも多い、混沌としたものです。 これらのビッグデータをいかに科学的アプローチによって、課題解決につなげるかです。再利用可能な知識を掘り起こす、マイニングするのです。

お問い合わせ

関連記事

おすすめ記事

Copyright © Rabo Inc. All Rights Reserved.