昨年末にチーム間の異動がありまして、Hadoopを使ったデータマイニングが主業務になりました。
それまで(一応)Webアプリケーションエンジニアだったのですが、今は見習いデータマイニングエンジニア。
上司の方には「今までのノウハウをこれからに活かしてほしい」らしいですが、正直戸惑いと模索の日々が続いています(その上、年が明けてから解析業務1個もやってない)
そんな中、年に1回くらいのペースで開催されるというHadoop Conferenceが開催されるということで、見聞を広げる意味合いを込めて参加してきました。
概要
開催日時 | 2013年1月21日(月) 10:00-18:00 | |
開催場所 | 東京国際展示場 | |
MAP | 大きな地図で見る |
|
主催 | Hadoopユーザ会 http://hcj2013w.eventbrite.com/ |
内容
1. Hadoop を取り巻く環境
- http://www.slideshare.net/hamaken/hadoop-conference-japan-2013-winter
- 今回で4回目
- コミュニティレベルで運営するには、そろそろ限界の規模
- 講演を公募
- 経験者層も経験年数も増加 6ヶ月以上の経験を持つ方が+11.6%
- Hadoop バージョンは複雑な状況
- 利用バージョン・ディストリビューション CDH3 が多い まだまだ 0.20系が多い
- 利用しているエコシステム Hive HBase を多く利用
2. LINEのHBaseを利用した大規模なメッセージストレージ
- http://www.slideshare.net/naverjapan/storage-infrastructure-using-hbase-behind-line-messages
- 1億ユーザー達成期間 LINE 19ヶ月 Twitter 49ヶ月
- レプリケーション
- IDC online migration
- New data: incremental migration
- Old data: Bulk migration
- NNの切り替え、スクリプトでhostsファイルを切り替える
3. Hadoop meets Cloud with Multi-tenancy
- http://www.slideshare.net/treasure-data/hadoop-meets-cloud-with-multitenancy-16107610
- cloud+big data
- everything with one-interface
- 100 billion records / month
- Reporting にフォーカス
- Mobfox 1週間後に全データのアップロード開始し、その1週間後にレポーティングのバックエンドがTreasure Dataに置き換わっていた。
4. Amazon Elastic MapReduceとHadoopコミュニティの関わり
- Volume, Velocity, Variery
- yelp auto-suggest
- DynamoDB
- aws/big-data
5. Hadoop's Power to Transform Business
- http://www.slideshare.net/tdunning/hcj-20130121
- old future: MR HDFS Ecosystem
- new future: realtime processing, integration with traditional IT/new technologies
- search abuse
- web technology
- realtime longtime analysis is seamless
- apache drill
6. Introduction to Impala 〜Hadoop用のSQLエンジン〜
- http://www.slideshare.net/Cloudera_jp/hcj2013winter-introduction-toimpala20130121
- 低レイテンシ・分析特価型
- hadoop内部で直接実行されるSQLクエリエンジン
- ハイパフォーマンス
- hive: SQLライクなMR用クエリ
- ローカルのデータを直接読み込んでクエリを実行
- 現時点ではSELECT, INSERTのみ
- 耐障害性なし
7. Hadoop上の多種多様な処理でPigの活きる道
- http://www.slideshare.net/hadoopxnttdata/20130121-yamashitasnislideshare
- 自作MRジョブの適用
- データの構造に関する永続的な仕組みは不要
- 分散キャッシュを利用可能
- PigUnit PigLatin用のテストツール
- JUnitのPig版として開発
- PigStats Pigで実行した処理の統計情報を取得
8. スケーラブルなシステムのためのHBaseスキーマ設計
- http://www.slideshare.net/Cloudera_jp/hbase-hcj13w
- hdfsで動作するnosql
- シャーディングをサポート
- 書き込み可能、スケールアウト可能
- rdbmsにある機能がhbaseにはない 大量のデータがある時のみhbase
- rdbmsと論理設計まではほぼ同じ
- 非正規化
- カーディナリティは高い
9. いかにしてHadoopにデータを集めるか
- http://www.slideshare.net/frsyuki/how-to-collect-big-data-into-hadoop
- ビッグデータをいかに集めるか
- ストリーミングでデータを収集
- apache flume , fluentd
- plugin distribution platform
10. トラブルシューティングのために欲しかった、Hadoopがまるっと分かる可視化ツール
- http://www.slideshare.net/acroquest/halook
- halook
- 実行jobの一覧をガントチャートで表示
感想
正直Hadoopを扱って正味2か月程度の僕には難易度の高いものでした。理解度2割ちょいってところ。
特にKeynoteが一番難しかったかな。何をメモったらいいか分からんかった。
Pigは業務で使っているから一番理解できたかなぁ。PigUnitってのは知らなかったな。
トレンドとしてはHive, Impala, fluentdあたりは熱い感じだった。どれもいまいち分からなかったけど。
これらをそもそも業務にフィードバックできるかっていうと、結局のところHadoopクラスタに対して結構大規模な改修をかけなきゃいけないはずで、そうなると社内政治的に厳しい気がする。
詳しくはTogetterあたりを見るとわかりやすかった気もする。
http://togetter.com/li/443400
現段階の実力では、理解できる人のツイートなりブログなりを見て、ようやく少し理解できる程度で、講演を聞いてそのままパッとわかるようになるには、まだまだ経験が足りなすぎるなぁ、という印象でした。
結局僕は自分の至らなさを痛感してベッコリ凹んで会社に帰っていきましたとさ。