Spark Meetup Tokyo #1 (Spark+AI Summit 2019)を聴講した話
Spark + AI Summitって?
米国Databricks社が主催するApache Sparkに関する世界有数のカンファレンス。 アメリカではSan Francisco市のMoscone West Convention Center(東京ドーム0.7個分くらい)を会場としている。 今年は5,000人以上世界から参加していて年々参加者が増えている。ちなみに、昨年は4,000人クラスだった。 APACからの参加者も増えていて120名近く今年は参加していて、内20名は日本からの参加者だそう。
いわゆるビッグデータ技術に関するカンファレンスだったけども、近年話題の機械学習との親和性もあって昨年から名前にAIを関するようになった。 元々、Apache SparkにはMLlibがあるので、急に機械学習が使えるようになったとかそういう話ではない。
Spark Meetup Tokyo
Connpassのイベントページからの抜粋。
Spark+AI Summit 2019で発表があったSparkの最新開発状況,ユーザからのユースケース報告, 関連OSSであるKoalas/MLflow/Delta Lakeなどに関する情報をお伝えします.
会場はコワーキングスペース的な雰囲気を醸し出していた。おしゃれ。 この一角だけそういう雰囲気なので浮いていないかというと嘘になる(最上階だしね)。 東京タワーも見えたらよりおしゃれ度が上がったろうに。田町駅に向かって帰ると綺麗に見えるからまぁいいか。
雑感
- 元が40分とかのセッションをサマって話してもらっている
- ここで語られた内容が全てという話ではないので注意
- 公開期間は定かではないが発表の様子はビデオで公開されているので全て知りたい人はそれも合わせて確認した方がいい
- 英語苦手な自分としては自分が理解することができた内容を改めて日本語で確認できるいい機会だった
- 以下のような人にはオススメな会だった
- Delta LakeはApache SparkでACID特性を持たせられるので発展しそう
- Pandasの知識をそのまま活かしつつSpark環境で大容量データを高速に分析できるのはアプローチとして良いと思った
- Koalas開発側はPandasを常に追いかけねばならず、しんどそうだなとも思った
- 現在、DataFrameやSeriesは30%ほど取り込めており、週次でリリースしているみたいなので取りあえずみんな試してみれば良いと思う
- MLflowもそうだけど、Databricksって先に広まったもののより良くするフォロワーなイメージ
最後に
APACでは三番目のDatabricksのオフィスが日本に出来たので、日本でのこれからどう広まってくかは注目。 日本はまだまだデータの活用が進んでいないので、商機はあるのかもしれない。 製品を売るのもそうだけどOracle DBのように資格ビジネス的な感じでロックインしたエンジニア(サイエンティスト)を増やすのが良いかもしれない。