Hadoopとは

Hadoopとは、大容量のデータを高速に処理するミドルウェアである。Apache Software Foundation(ASF) が開発したため、Apache Hadoopとも呼ばれることもある。オープンソースソフトウェアとして公開されている。

複数の小さいサーバを組み合わせて、ひとつの大きいシステムとして使用することができる。大容量のデータをリアルタイムで処理、分析し、ビジネスシーンなどで有効に利用することができる。

Hadoopは複数のサーバを組み合わせてひとつのクラスタを構成する。使用するサーバの数は自由に選択することができるため、利用者の欲しい規模のシステムを構築できる。また、運用中にサーバを追加することができ、システム拡張も容易に行うことができる。

Hadoopの構成要素

Hadoopは、下記のコンポーネントで構成されている。

Hadoop Distributed File System (HDFS)
大量のデータを分散して配置するための分散ファイルシステム
Hadoop Yet Another Resource Negotiator (YARN)
ジョブスケジューリングとクラスタリソース管理を行うためのフレームワーク
Hadoop MapReduce
大量のデータを並列処理するためのフレームワーク

HDFS

HDFSは、Hadoop独自の分散ファイルシステムである。ファイルを一定サイズに分割して、複数のサーバに分散して配置することでデータ処理のスループット向上を行っている。分割したデータの複製をいくつかのサーバに重複して配置することでデータの冗長化を実現している。これにより、1台のサーバに障害が発生しても、データが失われることはない。また、Hadoopを停止することなくサーバを追加することもできるため、システム拡張性にも優れている。

YARN

YARNは、リソース管理とジョブスケジューリングを分割するためのHadoopのコンポーネントである。Hadoopシステム内で動作するすべてのアプリケーション間でのリソースの仲介を行う。

MapReduce

MapReduceは、大きいクラスタ環境において、大量データの並列処理を行うためのフレームワークである。MapReduceは、map処理とreduce処理を組み合わせて構成されている。map処理はデータを細かく分けて処理し、データに対して意味づけを行い、結果をreduce処理に渡す。reduce処理は、map処理から渡ってきたデータを処理し、集約を行う。

Hadoopの用途

近年、ビッグデータを扱うことが増えており、大容量のデータを解析するためには、高性能で高価なコンピュータを準備する必要があった。Hadoopを使うと、一般的なコンピュータを複数台組み合わせることで、大容量データの高速な解析が可能となる。高性能で高価なコンピュータを使用しなくても大容量データ解析が行えるようになり、導入しやすくなっている。

Hadoopは、Elasticsearchのようなビッグデータを扱うアプリケーションのバックエンドとしても使われる。

デージーネットの取り組み

スマートフォン上で動作するアプリケーションのログを集計・解析してデータを導き出すシステム等、大容量データを扱うシステムでHadoopの利用を提案している。

【Webセミナー】検索時間を削減！OSSの全文検索システムFess紹介セミナー

日程：	4月17日（木）Webセミナー「BigBlueButton」を使用します。
内容：	「欲しいファイルが見つからない…」「ファイルの保管場所を知りたい…」という課題はありませんか？このセミナーでは、社内にある欲しい情報の検索時間を削減できるOSSの全文検索システムを紹介します。
ご興味のあるかたはぜひご参加ください。

セミナー申込

Hadoopに関連するページ（事例など）

用語一覧ページへ戻る

よくある質問・用語集
- よくある質問
- 用語集

本社所在地
〒465-0025
名古屋市名東区上社四丁目39-1
※名古屋市営地下鉄東山線「上社駅」より徒歩約7分

東京営業所
〒105-0013
東京都港区浜松町二丁目6-5浜松町エクセレントビル8F
※JR山手線・京浜東北線「浜松町駅」南口より徒歩3分
※都営地下鉄大江戸線・浅草線「大門駅」A1出口より徒歩5分