カタベログ

IT技術に関するブログを書きたい.食べ物関連はInstagramをご参照の事.

Spark Meetup Tokyo #1 (Spark+AI Summit 2019)を聴講した話

f:id:tkm1988:20190612182303j:plain
開始前の風景

Spark + AI Summitって?

米国Databricks社が主催するApache Sparkに関する世界有数のカンファレンス。 アメリカではSan Francisco市のMoscone West Convention Center(東京ドーム0.7個分くらい)を会場としている。 今年は5,000人以上世界から参加していて年々参加者が増えている。ちなみに、昨年は4,000人クラスだった。 APACからの参加者も増えていて120名近く今年は参加していて、内20名は日本からの参加者だそう。

いわゆるビッグデータ技術に関するカンファレンスだったけども、近年話題の機械学習との親和性もあって昨年から名前にAIを関するようになった。 元々、Apache SparkにはMLlibがあるので、急に機械学習が使えるようになったとかそういう話ではない。

Spark Meetup Tokyo

Connpassのイベントページからの抜粋。

Spark+AI Summit 2019で発表があったSparkの最新開発状況,ユーザからのユースケース報告,
関連OSSであるKoalas/MLflow/Delta Lakeなどに関する情報をお伝えします.

会場はコワーキングスペース的な雰囲気を醸し出していた。おしゃれ。 この一角だけそういう雰囲気なので浮いていないかというと嘘になる(最上階だしね)。 東京タワーも見えたらよりおしゃれ度が上がったろうに。田町駅に向かって帰ると綺麗に見えるからまぁいいか。

雑感

  • 元が40分とかのセッションをサマって話してもらっている
  • ここで語られた内容が全てという話ではないので注意
  • 公開期間は定かではないが発表の様子はビデオで公開されているので全て知りたい人はそれも合わせて確認した方がいい
  • 英語苦手な自分としては自分が理解することができた内容を改めて日本語で確認できるいい機会だった
  • 以下のような人にはオススメな会だった
    • Apache Sparkについて興味関心がある
    • Apache Sparkについて最新の情報を手軽にキャッチアップしたい
    • 英語苦手
    • 参加費高い
    • 渡航費用も高い
    • それらを会社は払ってくれないから行けもしない
  • Delta LakeはApache SparkでACID特性を持たせられるので発展しそう
  • Pandasの知識をそのまま活かしつつSpark環境で大容量データを高速に分析できるのはアプローチとして良いと思った
    • Koalas開発側はPandasを常に追いかけねばならず、しんどそうだなとも思った
    • 現在、DataFrameやSeriesは30%ほど取り込めており、週次でリリースしているみたいなので取りあえずみんな試してみれば良いと思う
  • MLflowもそうだけど、Databricksって先に広まったもののより良くするフォロワーなイメージ
    • 後発品の方が劣っているとは限らないので悪いイメージを持つ必要性はないと思う(それもまた戦略だし)
    • とはいえ、OSSへの貢献度は高いと思うのでありがたい
    • MLflowも昨年ベータ版だったの1.0がリリースされ、そしてそれがアメリカの有名企業で使われたりと存在感自体は依然としてある

最後に

APACでは三番目のDatabricksのオフィスが日本に出来たので、日本でのこれからどう広まってくかは注目。 日本はまだまだデータの活用が進んでいないので、商機はあるのかもしれない。 製品を売るのもそうだけどOracle DBのように資格ビジネス的な感じでロックインしたエンジニア(サイエンティスト)を増やすのが良いかもしれない。