Hadoop Conference Japan 2013 Winter に参加してきました

昨年末にチーム間の異動がありまして、Hadoopを使ったデータマイニングが主業務になりました。
それまで（一応）Webアプリケーションエンジニアだったのですが、今は見習いデータマイニングエンジニア。
上司の方には「今までのノウハウをこれからに活かしてほしい」らしいですが、正直戸惑いと模索の日々が続いています（その上、年が明けてから解析業務1個もやってない）
そんな中、年に1回くらいのペースで開催されるというHadoop Conferenceが開催されるということで、見聞を広げる意味合いを込めて参加してきました。

概要

	開催日時	2013年1月21日(月) 10:00-18:00
	開催場所	東京国際展示場
	MAP	大きな地図で見る
	主催	Hadoopユーザ会 http://hcj2013w.eventbrite.com/

内容

1. Hadoop を取り巻く環境

http://www.slideshare.net/hamaken/hadoop-conference-japan-2013-winter
今回で４回目
コミュニティレベルで運営するには、そろそろ限界の規模
講演を公募
経験者層も経験年数も増加　６ヶ月以上の経験を持つ方が+11.6%
Hadoop バージョンは複雑な状況
利用バージョン・ディストリビューション　CDH3 が多い　まだまだ 0.20系が多い
利用しているエコシステム　Hive HBase を多く利用

2. LINEのHBaseを利用した大規模なメッセージストレージ

http://www.slideshare.net/naverjapan/storage-infrastructure-using-hbase-behind-line-messages
１億ユーザー達成期間 LINE 19ヶ月　Twitter 49ヶ月
レプリケーション
IDC online migration
- New data: incremental migration
- Old data: Bulk migration
NNの切り替え、スクリプトでhostsファイルを切り替える

3. Hadoop meets Cloud with Multi-tenancy

http://www.slideshare.net/treasure-data/hadoop-meets-cloud-with-multitenancy-16107610
cloud+big data
everything with one-interface
100 billion records / month
Reporting にフォーカス
Mobfox 1週間後に全データのアップロード開始し、その1週間後にレポーティングのバックエンドがTreasure Dataに置き換わっていた。

4. Amazon Elastic MapReduceとHadoopコミュニティの関わり

Volume, Velocity, Variery
yelp auto-suggest
DynamoDB
aws/big-data

5. Hadoop's Power to Transform Business

http://www.slideshare.net/tdunning/hcj-20130121
old future: MR HDFS Ecosystem
new future: realtime processing, integration with traditional IT/new technologies
search abuse
web technology
realtime longtime analysis is seamless
apache drill

6. Introduction to Impala 〜Hadoop用のSQLエンジン〜

http://www.slideshare.net/Cloudera_jp/hcj2013winter-introduction-toimpala20130121
低レイテンシ・分析特価型
hadoop内部で直接実行されるSQLクエリエンジン
ハイパフォーマンス
hive: SQLライクなMR用クエリ
ローカルのデータを直接読み込んでクエリを実行
現時点ではSELECT, INSERTのみ
耐障害性なし

7. Hadoop上の多種多様な処理でPigの活きる道

http://www.slideshare.net/hadoopxnttdata/20130121-yamashitasnislideshare
自作MRジョブの適用
データの構造に関する永続的な仕組みは不要
分散キャッシュを利用可能
PigUnit PigLatin用のテストツール
JUnitのPig版として開発
PigStats Pigで実行した処理の統計情報を取得

8. スケーラブルなシステムのためのHBaseスキーマ設計

http://www.slideshare.net/Cloudera_jp/hbase-hcj13w
hdfsで動作するnosql
シャーディングをサポート
書き込み可能、スケールアウト可能
rdbmsにある機能がhbaseにはない大量のデータがある時のみhbase
rdbmsと論理設計まではほぼ同じ
非正規化
カーディナリティは高い

9. いかにしてHadoopにデータを集めるか

http://www.slideshare.net/frsyuki/how-to-collect-big-data-into-hadoop
ビッグデータをいかに集めるか
ストリーミングでデータを収集
apache flume , fluentd
plugin distribution platform

10. トラブルシューティングのために欲しかった、Hadoopがまるっと分かる可視化ツール

http://www.slideshare.net/acroquest/halook
halook
実行jobの一覧をガントチャートで表示

感想

正直Hadoopを扱って正味2か月程度の僕には難易度の高いものでした。理解度2割ちょいってところ。
特にKeynoteが一番難しかったかな。何をメモったらいいか分からんかった。
Pigは業務で使っているから一番理解できたかなぁ。PigUnitってのは知らなかったな。
トレンドとしてはHive, Impala, fluentdあたりは熱い感じだった。どれもいまいち分からなかったけど。
これらをそもそも業務にフィードバックできるかっていうと、結局のところHadoop クラスタに対して結構大規模な改修をかけなきゃいけないはずで、そうなると社内政治的に厳しい気がする。

詳しくはTogetterあたりを見るとわかりやすかった気もする。
http://togetter.com/li/443400
現段階の実力では、理解できる人のツイートなりブログなりを見て、ようやく少し理解できる程度で、講演を聞いてそのままパッとわかるようになるには、まだまだ経験が足りなすぎるなぁ、という印象でした。

結局僕は自分の至らなさを痛感してベッコリ凹んで会社に帰っていきましたとさ。

boscoworks.log

boscoworksのブログ的な

Hadoop Conference Japan 2013 Winter に参加してきました

概要

内容

感想