once upon a time,

Iris Tradをビール片手に聞くのが好きなエンジニアが、機械学習やRubyにまつわる話を書きます

PyConJP 2015に参加した #pyconjp

はじめてPyConJPに参加してきました。

スライドまとめは以下が詳しいです。 techstars.jp

最近、会社ではJupyter notebookの伝道師として振る舞っており*1、その結果として空前のpandasブームを巻き起こしました。 データ分析/機械学習といえばPythonだよね、というのは1年以上も前からわかっていたのですが、pandas-tdを契機に使い始めてからかなり傾倒しています。*2

そんなpandas周りの話やデータ分析の他社事例が聞ければと思って参加したPyConですが、想像していた以上に参加者のdiversityを感じました。 海外からのスピーカーや参加者も多く、Ruby Kaigiのような国際カンファレンスに近いなという印象を受けました。 また、スタッフや登壇者含め会場の女性の割合が高いため、PyLadiesの効果が出ているんだろうなーという印象を受けました。もしかしたら、RailsGirlsよりもPyLadiesの方が範囲が広いからコミュニティとして長く続いていくのだろうか、とも思いました。

さて、参加して聞いた発表の中でも特に面白かったものを抜粋しようと思います。

pandasによるデータ加工時の注意点やライブラリの話

www.slideshare.net

pandasのDataFrameは便利だけど中のデータが保証されないから辛かったので、panads-validator作ったよというc-bataさんの話。 JSON schemaっぽいなと思いました。

Daskの話とpandas internal

speakerdeck.com

speakerdeck.com

pandasとDaskのコミッターであるsinhrksさんの発表。 pandasはSciPyの10倍以上のCythonの塊であるとかCategorical Value*3を使ったほうが速くなるよとか、pandasの速度出すためのtipsや背景がしれたのは良かったです。また、データ量が増えてきたらDaskのDataFrameを使うと並列処理できるよ、というのも知っていたけどマイクロベンチとともに提示されると使って見たい気持ちが高まりました。

この2つの発表だけで元が取れた感じがしました。

Pythonで作って学ぶ形態素解析

www.slideshare.net

IPADICを使って、pure pythonで実装されたMeCab互換の形態素解析janomeについて、作者のmoco_betaさんが丁寧に解説してくれました。特にFSTの話はなるほど、図解が分かりやすく良かったです。ただ、いつもフォントサイズが小さいのはなんでだろう...。

なお、janomeの話聞いて帰ってからテンションが上がったので一人sprintしてTinySegmenter.jlを作ってしまいました。

アドネットワークのデータ解析を支える技術

www.slideshare.net

Voyage groupでこの夏MLSSにも参加された hagino3000さんのデータ解析チームの話。

特に、14ページ目の広告の広告主、メディア、オーディエンス、Voyage groupのプレーヤーに応じた4つの取り組むべき問題が分かりやすかったので引用します。

また、BigQuery版のpandas-tdであるpandas.io.gbqの存在が分かったのも収穫でした。VoyageさんでもJupyter notebookをリポジトリで管理して情報を共有しているとのことなので、自分の選択は間違っていなかったなという気持ちです。

雑感

はじめていったPyConJPですが、600人近くの規模を少ないスタッフで取りまとめてくださっているのは感服しました。また、参加者・発表者の diversity が高かったのも良かったです。

また、普段Pythonを使わない人としてはaodagさんのPackaging最前線はありがたかったです。結構Webのドキュメントはバージョンばらばらで何をやればいいんだっけ、とかWheelなんで嬉しいの?とかわかっていなかったので、初心者には助かりました。

全般的にもう少し事例紹介よりもコアな技術的な話が増えるといいなぁという気もしていたのは、メインがPythonのユーザーじゃないからなのかな。

*1:同僚はpandasとdaruを使い分けています

*2:その辺りは近々会社のブログに書こうと思っている

*3:DataFrames.jlにはない!