2008年1月16日水曜日

データマイニングのお話


今日はちょっと久しぶりに、神保町の国立情報学研究所でお勉強をしてきました。

ここでは市民講座という無料の勉強会を開催しているのだけど、進行役のI先生が若くてかっこいいのよ。ちょっとお仕事の関係でメールではお付き合いがある方なの。

市民講座の今年度のテーマは「社会と繋がる情報学」というシリーズで、今日の講座は「社会を探るデータマイニング~データの山から新たな発見!~」
講師は情報工学や人工知能が専門の先生でした。

あのね、データマイニングという言葉は知らなくても、たとえば毎日、スーパーやコンビニでお買い物をするとき、レジでPOSシステムという機械で商品をピッとするわよね。
あれは単にお金の計算を早くすると言うだけでなく、どんな商品が売れ筋なのか、どんな商品を組み合わせて買うお客さんが多いのか、というデータを取っているの。
特にコンビニだとお客さんの性別や年代も入力しているのよね。

つまりどんな年代の人が何時ごろ、どんな商品を購入する傾向にあるか、というのが一発で分かってしまうシステムです。

今日のお話では、スーパーでの買い物を具体的に例を挙げていたのだけど、たとえば、カレールーを買う人は、どんな商品を一緒に買うと思う?
ジャガイモとか、たまねぎだと思うでしょ?
ところがそれが大違いなのよ。
あるカレールー(辛口)を買う人は、カレールーの甘口を一緒に買う傾向にあるんですって。
つまり、自分でルーをミックスして別の味にするとか、子供用には甘口のを買うとか、そういう分析ができるらしいの。
だからスーパーでは大きな箱のカレールーを特売商品にするよりも、小さなのルーでいろんな味を特売にしたほうが、売れ行きがいいんですって。

そういうデータの分析をするのが、データマイニングということだそうです。

このような方法は抱き合わせ商品(「バスケット分析」というそうよ)を調べて、マーケティングに応用するというのがよくあるパターン。つまり相関関係を調べるのですね。そして安い目玉商品を買う人が、高い商品を買うというパターンが分かると、どんな商品をバーゲン商品にしたらよいかを決められるというわけ。
ふーん、なかなかうまい作戦だわね。


もうひとつの方法は、決定木(けっていぎと読むそうです)というデータ分析の方法があるそうです。
これはたとえば、性別や年齢、血圧や胴囲などの属性を調べ、その結果、健康であるとか不健康であるとか(メタボとか)の判断(「クラス」というそうです)をする手法で、それを木(ツリー)のようにして分けて考えていくので、決定木というんですって。

こういうデータがあると、病院などでどのような薬が効果的であるか、とかいう応用ができるのだそうです。


3つ目の方法は、時系列から得られるデータの分析方法。たとえば宇宙に浮かんでいる人工衛星のデータなどを時系列に集めると、その衛星の制御方法なども分かるとか。
ただし、これはデータに欠損があるとあまり有効ではないそうです。

私は通信販売が好きで、セシールとかで注文する時って、たとえばセーターを注文かごに入れると、そうすると、「この商品をお買い上げの方は、こちらのスカートもお買い上げになる方がとても多数いらっしゃいます」というメッセージが出てくるのよね。
そうすると、ついついスカートも買ってみようか、なんて気持ちになるのよね。
これもデータマイニングのなせるワザなんでそうです。


でもね、データってどうにでもなるでしょ。
アンケート結果もそうだけど、悪いように操作されると大変だわよね。
それで世論がどうにでもなりそうだしね。
「こういう商品を買う人はこんなに出世できる」なんていうデータが一人歩きすると、みんな振り回されそう。

コンピュータ社会に生きている私たちは、そういうデータの山に埋もれて生きているのだけれど、でも自分の目と耳と頭で判断するのも必要だろうなという感想を持ちましたわ。

でも、データマイニングという言葉は知っていて損はないと思いますよ。

0 件のコメント: