SlideShare a Scribd company logo
はやわかり Hadoop shot6
Hadoop
最近名前をよく聞く
たまに いる
「おお、あの 新型 DB だろ? 早いの?」
たまに いる
「あのクラウドね。 SaaS だっけ?」
「ああ、 Google のあれでしょ?」
おしい
実態がよくわかってない人も多い
NO PROBLEM
何ら恥じることはない
Hadoop とは
並列分散処理基盤
・・・
バッチ基盤 分析基盤
なんとなくわかる
巨大な データ
100GB のログ
これを 処理する
並列 に
そして 安価 に
サーバを追加
=
処理性能アップ
でも最も重要な点
生態系
 
エコ システム
全体を俯瞰
これ 重要
この LT の目的
ディストリビューション
そもそも 3 つ ある
Apache Hadoop
本家 本元
特徴
リリースが慎重
様々な 要望
色々な 事情
あるはず
早く進化したい
もっと 機能追加したい
あるはず
OSS の ジレンマ
 
でも
互換性 重視
堅実 な進化
大人 な OSS
Cloudera Hadoop
米国 Cloudera 社
 
特徴
エンタープライズ 向け?
簡単
yum/ apt
即 インストール
設定も 楽ちん
大量バグフィックス
例えば
hadoop-0.20.1 +169
169 個 の バグフィックス
Apache 版に貢献済
Cloudera Desktop
Hadoop の管理ツール
 
 
超絶便利 ( まだ α )
Yahoo Hadoop
Yahoo で使用
巨大クラスタでの実績
品質向上 に全力
セキュリティ などの新機能
勿論膨大なバグフィックス
Apache 版に貢献済
Hadoop を 支える トライアングル
Apache Hadoop Cloudera Hadoop Yahoo Hadoop フィードバック フィードバック 意見交換
機能
大量
Core Map Reduce HDFS Zoo Keeper HBase Pig Hive Chukwa Cloudera Desktop Avro Sqoop
Core
Hadoop の中核
基本的な通信、 IO 、ファイルシステム、設定などなど
HDFS
H adoop D istributed F ile S ystem
Hadoop 分散ファイルシステム
巨大ファイルを でかめのブロックに分割し、 管理・保存
ノード間は勝手にレプリケーションする
Elastic さを持つファイルシステム
 
NameNode は、ファイル名、ブロック、ノードの対応の管理
DataNode は、ブロックを 管理
Hadoop MapReduce
みんな大好き MapReduce プログラミング
並列処理 プログラミング モデルの一種
Hadoop と プログラマの 基本的な 接点
Map :  ある観点でデータをまとめる。
Reduce : ソート済みデータを集約・計算する
仕組み
ジョブトラッカーと タスクトラッカー
ジョブトラッカー と タスクトラッカー
 
キモイ… .
じゃなくて
MapReduce ジョブを適切なタスクに分解し管理
ジョブトラッカーと タスクトラッカー
分解された タスクを実行。
Map/Reduce タスクは 子 JVM 起動 して実行。
データがある ところで、 タスクを起動。
ここまでが 基本中の基本
こっからは 早足
HBase
Hadoop 上に構築した DB
BigTable クローン
Hadoop が本来不得意な 小口データ を効率よく処理
Hive/Pig
 
ちょ w
MapReduce を書くのが メンドイ
そんな人のための簡易言語
Pig のほうが独自っぽい
Pig は Yahoo が 作成
Hive は SQL っぽい
Hive は FaceBook が作成
Zoo Keeper
やあ
ちょ w
分散協調サービス
リソースやデータの 調整役
Chukwa
データ収集システム
小さな大量ログを Hadoop で扱い易く
使ってる人いない ^^;?
Avro
シリアライズシステム
非常に高速かつ柔軟
ベンチ マーク
 
爆速
現状 Hadoop に組み込まれていない
今後 Avro ベースになるはず
要注目
他にも
Cascading
まとめ
Hadoop
ひとつの ミドルウェア
ではなく
複数ミドルウェアを 支える
プラットフォーム
Have fun with Hadoop family !

More Related Content

PDF
Hadoop 基礎
PDF
Hadoopの概念と基本的知識
PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
PDF
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
世界一簡単なHadoopの話
PDF
Apache Spark の紹介(前半:Sparkのキホン)
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
Hadoop 基礎
Hadoopの概念と基本的知識
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
世界一簡単なHadoopの話
Apache Spark の紹介(前半:Sparkのキホン)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)

What's hot (19)

PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
PDF
Apache Sparkのご紹介 (後半:技術トピック)
PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
PDF
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
PDF
Hadoopことはじめ
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
PDF
Hadoop ecosystem NTTDATA osc15tk
PDF
Hadoopデータプラットフォーム #cwt2013
PPTX
SASとHadoopとの連携
PDF
SparkとCassandraの美味しい関係
PDF
Hadoop概要説明
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
Pythonで入門するApache Spark at PyCon2016
PDF
Apache Sparkの紹介
PDF
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
PDF
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
Apache Sparkのご紹介 (後半:技術トピック)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
Hadoopことはじめ
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoop ecosystem NTTDATA osc15tk
Hadoopデータプラットフォーム #cwt2013
SASとHadoopとの連携
SparkとCassandraの美味しい関係
Hadoop概要説明
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Pythonで入門するApache Spark at PyCon2016
Apache Sparkの紹介
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ad

Similar to はやわかりHadoop (20)

PDF
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
PDF
PPT
Hadoopの紹介
PDF
OSC2012 OSC.DB Hadoop
PPTX
Cloudera大阪セミナー 20130219
PDF
Hadoop事始め
PPTX
Tuning maniax 2014 Hadoop編
PDF
Osc2012 spring HBase Report
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
PDF
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
PPT
Hadoop loves H2
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
PDF
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
PPTX
ビッグデータ活用支援フォーラム
PDF
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
PDF
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
PDF
BdasとSpark概要
PDF
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
PPTX
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
Hadoopの紹介
OSC2012 OSC.DB Hadoop
Cloudera大阪セミナー 20130219
Hadoop事始め
Tuning maniax 2014 Hadoop編
Osc2012 spring HBase Report
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Hadoop loves H2
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
ビッグデータ活用支援フォーラム
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
BdasとSpark概要
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
Ad

More from Shinpei Ohtani (17)

PDF
Amazon Aurora
PDF
AWS Lambda and Amazon API Gateway
PDF
ECS for Docker Meetup #4
PDF
JVM的な何か@JVM Operation Casual Talk
PDF
Amazon kinesisで広がるリアルタイムデータプロセッシングとその未来
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
PDF
プログラマブルクラウドの薦め
PDF
サンプルから見るMapReduceコード
PPTX
Hadoopソースリーディング第1回アジェンダ
PDF
サンプルから見るMap reduceコード
PPTX
Hadoopソースリーディング第1回アジェンダ
PPT
T2 Web Framework
PDF
T2 Hacks
PDF
T2 webframework
PPT
Struts2を始めよう!
PPT
Struts2 in a nutshell
PPT
ASP.NET MVC 1.0
Amazon Aurora
AWS Lambda and Amazon API Gateway
ECS for Docker Meetup #4
JVM的な何か@JVM Operation Casual Talk
Amazon kinesisで広がるリアルタイムデータプロセッシングとその未来
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
プログラマブルクラウドの薦め
サンプルから見るMapReduceコード
Hadoopソースリーディング第1回アジェンダ
サンプルから見るMap reduceコード
Hadoopソースリーディング第1回アジェンダ
T2 Web Framework
T2 Hacks
T2 webframework
Struts2を始めよう!
Struts2 in a nutshell
ASP.NET MVC 1.0

はやわかりHadoop