気が付けばHadoopを使ったログ解析基盤システムのエンジニアになって1年。ようやく少しは話についていけるようになりました。
Hadoopのバージョンアップなんかも視野に入れたりしてて、より一層知識欲しいところだし、ということで Cloudera World Tokyo 2013 に行ってきました。
概要
開催日時 | 2013年11月7日(木) 10:00-18:30 | |
開催場所 | 目黒雅叙園 | |
MAP | 大きな地図で見る |
|
主催 | Cloudera株式会社 http://www.cloudera.co.jp/jpevents/cwt2013/ |
内容
1. Amebaにおけるログ解析基盤Patriotの活用事例
- 株式会社サイバーエージェント 善明晃由氏 飯島賢志氏
- http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013
- patriot = 全社共通ログ解析基盤(ユーザ行動分析・レコメンド)
- Hive/MR HBaseで活用、flumeで収集
- Hadoop CHD4.3
- ジョブ数 2012/3:3154Jobs/day 2013/11:11639Jobs/day
- ジョブスケジューラ cronで登録→管理はDB→workerで実行
- バッチ設定はgithubで管理 pull request を受け付け
- Jenkinsで簡単なレビューを実行(入力パーティション率・非効率なJOINなど)
- flume: 80services log type: 160types host: 1000
- flume aggregator: 4core MEM8GB RAID1*2 2台
- final aggregator: 4core MEM24GB RAID1*2 5台
- collectorなどを自作してflumeにアドオン
- LINE株式会社 田籠 聡氏
- http://www.slideshare.net/tagomoris/batch-and-stream-processing-with-sql
- data collecting, aggregation, analytics, visualization
- 6.8Billion lines /day
- Hadoop CDH4.2
- Master node: 3 Slave node: 20
- Stream processing + Batch
- SQLはすべてのプレイヤーが読み書き実行できるべきで、そのような環境が整備されているべき
- Hive
- shib (select only
- ストレージを持たない(持つことによるリスクを軽減する
- Norikra
- スキーマレスなイベントストリーム処理をSQLで実現
- jRubyで実装 オープンソース 1サーバにいれればよい
- https://github.com/tagomoris/norikra
- http://norikra.github.io/
3. AmebaにおけるRHadoopの活用事例
- 株式会社サイバーエージェント 和田 計也氏
- RHadoop RからHadoopを簡単に使うためのRライブラリ
- rmr -> RからMR実行
- RandomForestを実装
- RHadoopで全サービスを一気に分析
- サービスごとのデータをRの関数に通し、それぞれの分析結果を出力させる
- あるサービスのKPIを別のゲームの同等の機能から予測する
- さくっとmodel構築した結果はShinyで魅せる
4. Hadoop コミュニティと YARN の現状