OSS紹介

Apache Hadoop

Apache Hadoop最新情報

NRIのOpenStandiaが提供するApache Hadoop最新情報

Apache Hadoopの保守サポートサービスの内容はこちら Apache Hadoopの導入については、こちらのフォームからお問い合わせ下さい OSS全般の事例紹介はこちら

Apache Hadoop最新トピック

■2017-10-02
[ニュース・市場動向]NECとHortonworks、ビッグデータの分散処理領域における戦略的協業を強化
■2017-09-19
[ニュース・市場動向]IBMとホートンワークスが協業--日本で強化するビッグデータ活用基盤の展開
■2017-08-21
[ニュース・市場動向]Hadoopの父、カッティング氏に聞く今後のビッグデータ活用法
■2017-07-10
[ニュース・市場動向]Webtrends Infinity:顧客行動データの収集、保存、活用を支援する基盤
■2017-07-10
[その他][de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
■2017-07-03
[セキュリティ情報]Apache Hadoop の LinuxContainerExecutor における root 権限で docker コマンドを実行される脆弱性
■2017-07-03
[ニュース・市場動向]ストリーミング分析アプリ構築をGUIで、ホートンワークスが「HDF」新版
■2017-06-12
[ニュース・市場動向]SparkとHadoopは何が違う? 混沌とするOSSを生かしたデータ分析基盤構築の勘所
■2017-06-05
[ニュース・市場動向]HadoopとSpark--分散データ処理基盤における5カ条
■2017-06-05
[ニュース・市場動向]三菱ふそう、ビッグデータのリアルタイム分析による次世代サービスの実現に、ホートンワークスのプロフェッショナルサービスを採用

すべてを見る

Apache Hadoopバージョンアップ情報

■2017-06-27
[VerUP]Apache Hadoop 2.6.1(リリース日:2015/07/06)
■2017-06-27
[VerUP]Apache Hadoop 2.6.2(リリース日:2015/10/28)
■2017-06-27
[VerUP]Apache Hadoop 2.6.3(リリース日:2015/11/17)
■2017-06-27
[VerUP]Apache Hadoop 2.6.4(リリース日:2016/02/11)
■2017-06-27
[VerUP]Apache Hadoop 2.7.3(リリース日:2016/08/25)
■2017-06-27
[VerUP]Apache Hadoop 2.6.5(リリース日:2016/10/08)
■2017-06-27
[VerUP]Apache Hadoop 2.8.0(リリース日:2017/03/22)

すべてを見る

更新日:2017-06-26

Apache Hadoop(ハドゥープ)の概要

Hadoop(ハドゥープ)は大規模データの蓄積、分析を分散して処理するフレームワークであり、Java言語で実装されています。
Hadoopの元となったのはGoogleの大量のデータを効率的に処理するための分散処理基盤であるMapReduceとGoogle File Systemです。Googleはこれらシステムに関する論文を公開したため、それを参考にHadoopが開発されました。
Hadoopは分散処理基盤であることから、各処理をクラスタ内のマシンに振り分けて(Map)、各マシンで処理された結果を集約(reduce)して最終的な結果を得ます。
近年、大量のデータ(BigData)の中から目的のデータを抽出したり、保存されたデータからある傾向を読み取るといった、データマイニングへのニーズが高まっています。また、ただBigDataを処理出来るだけでなく、より短時間にそれらの情報を算出したいといった要求が発生してきています。
以前は、BigDataを処理するにはデータウェアハウスなど専用の製品を使う必要がありました。Hadoopはこのようなデータ処理を、一般的なサーバマシンを複数つなげ合わせる(スケールアウト)ことで可能にします。

複数のサーバから構成されるHadoopシステムですが、複数台に分散していることがシステムの柔軟性を高めています。処理性能を向上させたい場合には、Hadoopクラスタにマシンを追加するだけ済みます。Hadoopクラスタシステムは一般的なサーバマシン群から構成できるため、ハードウェアの調達が容易です。また、ソフトウェア的にも、クラスタに追加するサーバにHadoopシステムをインストール・設定をするだけで、Hadoopクラスタをスケールアップすることが可能です。このような特徴から、ハードウェア、ソフトウェアの両面でスケーラビリティが高いといえます。

近年、クラウドサービスを使って簡単に複数台のサーバを立ち上げられるようになったことから、Hadoopを使ってデータ処理を行いたい時だけクラウド上にHadoopクラスタを構築できます。さらに、性能が不十分であればサーバを追加したり、リソースが余ってきたらサーバを減らし、一通りの処理が終了した時点でHadoopクラスタの全マシンを開放するなどといった使い方もできるため、これから益々利用されるシーンが増えてくると考えられます。

Hadoop 1系までは、MapReduceのみだった並列処理フレームワークですが、Hadoop 2系からはStorm、Spark、Tez/Impalaなどの他の並列処理フレームワークを利用することが可能となりました。また、Hadoop上にあるデータへのMapReduce(Java)以外での処理インターフェースが増えました。例えばImpalaや、Tez上で動くHiveやPigによって、ユーザは使い慣れたSQLとほぼ同等なクエリを使ってデータへアクセスすることが可能です。さらに、StormやSparkではストリーミングによってリアルタイムデータの処理が可能となり、HDFS上に存在するデータ以外でもHadoopシステムを利用することが可能となっています。

TOPに戻る

Hadoopの主要モジュール

現行のHadoop2系は下記の4つのCoreモジュールから成り立っています。

  • Hadoop Distributed File System (HDFS)  
  • Hadoop MapReduce
  • Hadoop Common
  • Hadoop YARN

HDFS(Hadoop Distributed File System)

Hadoop独自の分散ファイルシステムです。ユーザからは1つの大きなファイルシステムとして見えますが各ノードにまたがってファイルを保存しています。1つのノードに障害が起こってもデータの欠損が無いようにデフォルトで3つのノードに同じデータを保持(3重化)しています。

MapReduce

分散されたデータに対して、並列的に処理を実行するためのフレームワークです。Mapステップでは各スレーブノードのデータに対して処理を行い、ReduceステップにてMapステップで複数ノードに分散・実行された処理結果の集約が行われます。

Hadoop Common

Hadoopの機能をサポートするユーティリティ群です。

YARN(Yet Another Resource Negotiator)

Hadoop 1系までは、独立したコンポーネントではありませんでしたが、Hadoop 2系からはリソース管理を専用に行うモジュールとして独立化しました。MapReduceのリソース、ジョブスケジューリングのみならず、Giraph、Storm、Spark、Tez/Impalaなどの他の分散処理フレームワークのリソース管理も可能になりました。

Hadoopの動作環境

Hadoopは、Java言語で作られているため、JVMが必要です。現在のステーブルバージョンであるHadoop2.7では、Javaのバージョンは1.7である必要があります。JVMが動作する環境であれば、OSは問いません。

Hadoopが動作するOS

      
  • 主要なLinuxディストリビューション
  • Window
  • MacOSX

など

Hadoopは、OpenJDK と Oracle (HotSpot)'s JDK/JREにおいて正常動作することが確認されています。それぞれのJDKにおける動作検証結果は下記のHadoop Wikiページを確認してください。
https://wiki.apache.org/hadoop/HadoopJavaVersions
Hadoopは、コンパイル済みのバイナリパッケージと、ユーザが自身でコンパイルするソース版の両方が提供されています。
コンパイル済みのバイナリパッケージはすぐに使うことができるようになっている反面、拡張設定がされていないものなどありますので、ユーザが必要な機能を有効にするにはソースからビルドする必要がある場合もあります。

Hadoopのライセンス

HadoopはApacheのトップレベルプロジェクトの1つです。ライセンスはApache License 2.0となっており、ユーザはそのソフトウェアの使用や頒布、修正、派生版の頒布をすることに制限を受けません。

Hadoopの公式サイト

Hadoopの公式サイトは下記URLです。
http://hadoop.apache.org/
また、Hadoop の公式Wikiページでは、Hadoopに関するさまざまな情報が存在します。
https://wiki.apache.org/hadoop/

Hadoopのダウンロード

http://hadoop.apache.org/#Download+Hadoop

Hadoopのサポート

現在、OpenStandiaではHadoopのサポート提供は行っておりません。

OpenStandiaに関する
資料請求・お問い合わせはこちら

  • 資料請求
  • お問い合わせ

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

  • OpenStandiaサポート対象オープンソース|50種類以上のOSSのサポートをご提供します。
  • 人気OpenAM
  • 注目MongoDB
  • OpenIDM
  • Corosync
  • Postfix
  • Apache HTTP Server
  • ZABBIX
  • BIND
  • Apache Struts
  • PostgreSQL
  • Pentaho
  • Spring Framework
  • Apache Tomcat
  • Solr
  • Dovecot
  • iBATIS
  • DRBD
  • MySQL
  • JBoss
  • Liferay
  • Ruby on Rails
  • Jaspersoft
  • OpenLDAP
  • Apache log4j
  • Apache Subversion
  • BIND
  • OpenDJ
  • Pacemaker
  • Samba
  • Red Hat Enterprise Linux
  • Nginx
  • sendmail
  • Courier-IMAP
  • Heartbeat
  • Hibernate
  • Hinemos
  • MyBatis
  • MySQL Cluster
  • Apache Axis2
  • Squid
  • OpenSSO
?
<--!-->