Cloudera World Tokyo 2013 に参加してきました

気が付けばHadoopを使ったログ解析基盤システムのエンジニアになって1年。ようやく少しは話についていけるようになりました。
Hadoopのバージョンアップなんかも視野に入れたりしてて、より一層知識欲しいところだし、ということで Cloudera World Tokyo 2013 に行ってきました。

概要

	開催日時	2013年11月7日(木) 10:00-18:30
	開催場所	目黒雅叙園
	MAP	大きな地図で見る
	主催	Cloudera株式会社 http://www.cloudera.co.jp/jpevents/cwt2013/

内容

1. Amebaにおけるログ解析基盤Patriotの活用事例

株式会社サイバーエージェント善明晃由氏飯島賢志氏
http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013
patriot = 全社共通ログ解析基盤(ユーザ行動分析・レコメンド)
Hive/MR HBaseで活用、flumeで収集
Hadoop CHD4.3
ジョブ数　2012/3:3154Jobs/day 2013/11:11639Jobs/day
ジョブスケジューラ cronで登録→管理はDB→workerで実行
バッチ設定はgithubで管理 pull request を受け付け
Jenkinsで簡単なレビューを実行（入力パーティション率・非効率なJOINなど）
flume: 80services log type: 160types host: 1000
flume aggregator: 4core MEM8GB RAID1*2 2台
final aggregator: 4core MEM24GB RAID1*2 5台
collectorなどを自作してflumeにアドオン

2. SQLで実現するバッチ処理とストリーム処理

LINE株式会社田籠聡氏
http://www.slideshare.net/tagomoris/batch-and-stream-processing-with-sql
data collecting, aggregation, analytics, visualization
6.8Billion lines /day
Hadoop CDH4.2
Master node: 3 Slave node: 20
Stream processing + Batch
SQLはすべてのプレイヤーが読み書き実行できるべきで、そのような環境が整備されているべき
Hive
shib (select only
ストレージを持たない（持つことによるリスクを軽減する
Norikra
スキーマレスなイベントストリーム処理をSQLで実現
jRubyで実装　オープンソース　1サーバにいれればよい
https://github.com/tagomoris/norikra
http://norikra.github.io/

3. AmebaにおけるRHadoopの活用事例

株式会社サイバーエージェント和田計也氏
RHadoop RからHadoopを簡単に使うためのRライブラリ
rmr -> RからMR実行
RandomForestを実装
RHadoopで全サービスを一気に分析
サービスごとのデータをRの関数に通し、それぞれの分析結果を出力させる
あるサービスのKPIを別のゲームの同等の機能から予測する
さくっとmodel構築した結果はShinyで魅せる

4. Hadoop コミュニティと YARN の現状

日本電信電話株式会社小沢健史氏
HadoopとRDBMSでデータ量により使い分け
NTTグループ内でサービス活用
より簡単に運用できるように　HA構成の運用をしやすいように改善
MapReduceの処理最適化
ログの出力内容を改善
足りないドキュメントを追加
YARN: Yet Another Resouce Negotiator
JTの役割を分割　リソース管理＝YARN　ジョブスケジュール＝各コンポーネントのマスター
NodeManager
Apache Mesos
Resource Managerが単一障害点になってしまった

boscoworks.log

boscoworksのブログ的な

Cloudera World Tokyo 2013 に参加してきました

概要

内容