読者です 読者をやめる 読者になる 読者になる

once upon a time,

Iris Tradをビール片手に聞くのが好きなエンジニアが、機械学習やRubyにまつわる話を書きます

データ分析への向き合い方~Machine Learning Casual Talks #2を開催しました #MLCT

先週火曜日に Machine Learning Casual Talks #2 を開催しました。
発表は、グノシー関さん、PFI比戸さん(@sla)、@motivic_さん、カメリオから柴田さん、@SamuraiT01さんに発表頂きました。
発表していただいた皆さん、Yahoo!Japanの@qlutoさんはじめお手伝いいただいた皆さん、本当にありがとうございました!

togetterのまとめ()

[2014/08/30追記]
Gunosy関さんのスライドが落ちていたので追加しました。

tl;dr

  • 仮説なきデータ分析はやめよう
  • 施策の価値を人手で検証して、必要に応じて機械学習を使おう

詳細

今回は、@PENGUINANA_さんが「機械学習とKPI」というテーマを所望されていたので、それで各スピーカーにお話いただきました。
お互い示し合わせていなかったのに、Lean StartupのMVPの話を中心に話を組み立てていたのが非常に興味深かったです。
特に、グノシーの創業者の一人関さんが「B to Cサービスの現場から考える機械学習活用」という発表をされたのですが、

普段からクックパッド社内でも考える内容に非常にマッチしていて(機械学習をやるやらないは別にして)、データを活かす上での心づもりとして有益な情報でした。

ポイントとしては以下の三点です。

  • 機械学習の精度と、ユーザー価値は別物である
  • まずは施策の価値を人手で作って(MPV)、検証後機械学習を適用する
  • 仮説がなければKPIを追いかけても意味が無い

もう一つ、PFIの比戸さんの発表も、データを扱う人なら必見の内容です。

ビール大好きな人のコメントが的を射ています。

LT

@motivic_ さん「素人がDEEP LEARNINGと他の機械学習の性能を比較してみた」

どう見ても素人詐欺です、本当にありがとうございました

@samurai01T さん「カメリオの記事の本文抽出」

内容もさることながら、初心者向けの機械学習おすすめ本の提示がよかったです。わかパタは読みやすくていい本ですね。

本文抽出といえば、 @shuyo さんのExtractContent([slide](http://www.slideshare.net/shuyo/web-using-crf),Ruby1.9対応版)を使っていた記憶が蘇りました。

Akira Shibataさん「カメリオ精度向上に使った学習アプローチ」

最適化手法は古典的な方法を使っているそうなのですが、特徴的なのがクラウドワークスを使ってラベルを収集していること。
USだとAmazon Mechanical Turkを使うのが一般的に行われているのですが、日本でマイクロタスクを出して機械学習の正解データを作っているというのは感慨深いものを感じました。

まとめ

グノシー関さんの「数値は神である」、PFI比戸さんの「機械学習は苦しい」という話に表されるように、機械学習を「つかう」という点にフォーカスした会でしたが、機械学習をしない人にとっても、どうデータと向きあえばいいのか、というエッセンスが凝縮されていました。
僕自身も聞いていて"Lean Analytics"にあった、「行動に移せない指標は意味が無い」という話を具体的にした話を聞けて、局所最適解に陥らないデータ活用について考えさせられました。