boscoworks.log

boscoworksのブログ的な

Hadoop Conference Japan 2013 Winter に参加してきました

昨年末にチーム間の異動がありまして、Hadoopを使ったデータマイニングが主業務になりました。
それまで(一応)Webアプリケーションエンジニアだったのですが、今は見習いデータマイニングエンジニア。
上司の方には「今までのノウハウをこれからに活かしてほしい」らしいですが、正直戸惑いと模索の日々が続いています(その上、年が明けてから解析業務1個もやってない)
そんな中、年に1回くらいのペースで開催されるというHadoop Conferenceが開催されるということで、見聞を広げる意味合いを込めて参加してきました。

概要

開催日時 2013年1月21日(月) 10:00-18:00
開催場所 東京国際展示場
MAP
大きな地図で見る
主催 Hadoopユーザ会 http://hcj2013w.eventbrite.com/

内容

1. Hadoop を取り巻く環境

2. LINEのHBaseを利用した大規模なメッセージストレージ

3. Hadoop meets Cloud with Multi-tenancy

4. Amazon Elastic MapReduceHadoopコミュニティの関わり

  • Volume, Velocity, Variery
  • yelp auto-suggest
  • DynamoDB
  • aws/big-data

5. Hadoop's Power to Transform Business

6. Introduction to Impala 〜Hadoop用のSQLエンジン〜

7. Hadoop上の多種多様な処理でPigの活きる道

8. スケーラブルなシステムのためのHBaseスキーマ設計

  • http://www.slideshare.net/Cloudera_jp/hbase-hcj13w
  • hdfsで動作するnosql
  • シャーディングをサポート
  • 書き込み可能、スケールアウト可能
  • rdbmsにある機能がhbaseにはない 大量のデータがある時のみhbase
  • rdbmsと論理設計まではほぼ同じ
  • 非正規化
  • カーディナリティは高い

9. いかにしてHadoopにデータを集めるか

10. トラブルシューティングのために欲しかった、Hadoopがまるっと分かる可視化ツール

感想

正直Hadoopを扱って正味2か月程度の僕には難易度の高いものでした。理解度2割ちょいってところ。
特にKeynoteが一番難しかったかな。何をメモったらいいか分からんかった。
Pigは業務で使っているから一番理解できたかなぁ。PigUnitってのは知らなかったな。
トレンドとしてはHive, Impala, fluentdあたりは熱い感じだった。どれもいまいち分からなかったけど。
これらをそもそも業務にフィードバックできるかっていうと、結局のところHadoopクラスタに対して結構大規模な改修をかけなきゃいけないはずで、そうなると社内政治的に厳しい気がする。

詳しくはTogetterあたりを見るとわかりやすかった気もする。
http://togetter.com/li/443400
現段階の実力では、理解できる人のツイートなりブログなりを見て、ようやく少し理解できる程度で、講演を聞いてそのままパッとわかるようになるには、まだまだ経験が足りなすぎるなぁ、という印象でした。

結局僕は自分の至らなさを痛感してベッコリ凹んで会社に帰っていきましたとさ。