Hadoop

Hadoopは大量のデータに一定のきまった処理をするバッチ処理に向いており、日々蓄積する大量のメールデータをデータマイニングするには最適な手法の一つです。

Hadoopの特徴

checkmarkオープンソースの分散処理システム

Hadoopは、オープンソースの分散処理システムで、膨大なデータに均一のバッチ処理をするのに向いています。
その処理は、多数(通常は数100台以上)の「データノード」と呼ばれる小さなサーバに、分析対象のデータを配付し(この処理を“Map”と呼びます)、データノードで処理されたデータを回収して統合(この処理を“Reduce”と呼びます)して一つの計算結果にまとめるような動きをします。

checkmark最適なビッグデータ処理システム

Hadoopは以下のようなビッグデータ処理システムに最適です。

  • 毎日何千件と届くメールを分析し、お問い合わせ内容の傾向分析に…
  • Twitterなどのソーシャル・ネットワークに流れる大量のデータを分析し、トレンドの分析に…
  • ウェブサイトのアクセスログを分析し、アクセス傾向分析に…
  • 膨大な書類を分析し、検索のためのキーワードリスト作成と検索インデックスの作成に

当社では、Hadoop以外にも、オープンソース系のKVS(Key-Value-Store)などの非ストラクチャードデータベース、インメモリデータベースについても取り扱っておりますので、お問い合わせください。


Hadoopによる分散処理のイメージ

Hadoopによる分散処理のイメージ

HadoopはApacheプロジェクトによるオープンソース・ソフトウェアです。詳細はApache Hadoopのサイトをご覧ください。
本ページはHadoopを活用した構築事例としてご紹介しております。
Apache Hadoop


お問い合わせ

Hadoopのお見積依頼、説明や導入についてのご相談は、お気軽に下記よりお問い合わせください。

お問い合わせフォームmail to us