boscoworks.log

boscoworksのブログ的な

Cloudera World Tokyo 2013 に参加してきました

気が付けばHadoopを使ったログ解析基盤システムのエンジニアになって1年。ようやく少しは話についていけるようになりました。
Hadoopのバージョンアップなんかも視野に入れたりしてて、より一層知識欲しいところだし、ということで Cloudera World Tokyo 2013 に行ってきました。

概要

開催日時 2013年11月7日(木) 10:00-18:30
開催場所 目黒雅叙園
MAP
大きな地図で見る
主催 Cloudera株式会社 http://www.cloudera.co.jp/jpevents/cwt2013/

内容

1. Amebaにおけるログ解析基盤Patriotの活用事例

  • 株式会社サイバーエージェント 善明晃由氏 飯島賢志氏
  • http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013
  • patriot = 全社共通ログ解析基盤(ユーザ行動分析・レコメンド)
  • Hive/MR HBaseで活用、flumeで収集
  • Hadoop CHD4.3
  • ジョブ数 2012/3:3154Jobs/day 2013/11:11639Jobs/day
  • ジョブスケジューラ cronで登録→管理はDB→workerで実行
  • バッチ設定はgithubで管理 pull request を受け付け
  • Jenkinsで簡単なレビューを実行(入力パーティション率・非効率なJOINなど)
  • flume: 80services log type: 160types host: 1000
  • flume aggregator: 4core MEM8GB RAID1*2 2台
  • final aggregator: 4core MEM24GB RAID1*2 5台
  • collectorなどを自作してflumeにアドオン

2. SQLで実現するバッチ処理とストリーム処理

3. AmebaにおけるRHadoopの活用事例

  • 株式会社サイバーエージェント 和田 計也氏
  • RHadoop RからHadoopを簡単に使うためのRライブラリ
  • rmr -> RからMR実行
  • RandomForestを実装
  • RHadoopで全サービスを一気に分析
  • サービスごとのデータをRの関数に通し、それぞれの分析結果を出力させる
  • あるサービスのKPIを別のゲームの同等の機能から予測する
  • さくっとmodel構築した結果はShinyで魅せる

4. Hadoop コミュニティと YARN の現状

  • 日本電信電話株式会社 小沢 健史氏
  • HadoopRDBMSでデータ量により使い分け
  • NTTグループ内でサービス活用
  • より簡単に運用できるように HA構成の運用をしやすいように改善
  • MapReduceの処理最適化
  • ログの出力内容を改善
  • 足りないドキュメントを追加
  • YARN: Yet Another Resouce Negotiator
  • JTの役割を分割 リソース管理=YARN ジョブスケジュール=各コンポーネントのマスター
  • NodeManager
  • Apache Mesos
  • Resource Managerが単一障害点になってしまった