トップ OSS紹介 Apache ManifoldCF

Apache ManifoldCF

サポート対象

NRIのOpenStandiaが提供するApache ManifoldCF最新情報

Apache ManifoldCF情報

Apache ManifoldCFとは

Apache ManifoldCF(アパッチマニフォールドシーエフ)とは、Javaで書かれたオープンソースのクローラフレームワークです。

HTML、RSSフィード、Microsoft SharePoint、EMC Documentumのようなソースコンテンツリポジトリ、RDBMSなどに接続するためのコネクタフレームワーク(Apache ManifoldCF = Apache Manifold Connector Framework)であり、オープンソースの全文検索エンジンであるApache Solrの関連プロジェクトとして、Apacheソフトウェア財団 (ASF)で開発されています。

Apache ManifoldCFは、あらゆるデータソースを巡回(クロール)してコンテンツ情報やアクセス権限情報を自動的に取得し、Apache Solr、OpenSearchServer、Elasticsearchなどの全文検索エンジンの検索インデックスに登録します。

Apache ManifoldCFは、単純なクロールだけでなく、差分クロールやファイルのアクセス権限などのパーミッション情報のクロールができることが特徴です。
アクセストークンという概念を利用し、ファイルのパーミッション情報をもとにユーザにコンテンツを表示するかどうかを制御することができます。
また、Apache ManifoldCFのセキュリティモデルは、MicrosoftのActive Directoryの標準的な認可の概念や階層構造に大まかに基づいています。Active Directoryなどに接続し、ファイルが持つアクセス権限をふまえた検索インデックスを作成することができます。
これらのセキュリティ機能により、企業内の検索システムでは不可欠な役職や所属部署によるアクセス権限を考慮した検索も実現できます。

Apache ManifoldCFは、インターネットサイト検索システムをはじめ、企業内でのファイルサーバやさまざまなデータの全文検索エンジンとして世界的に利用されているApache Solrとの親和性があり、多くのケースで連携して利用されています。
Apache Solrプロジェクトでは、全文検索エンジンにApache Solrを利用する際に Apache ManifoldCFのアクセストークン制御を標準で実行することができるよう、SearchComponentプラグインとそのドキュメントを提供しています。

主な機能

主な機能は以下のとおりです。

機能

概要

コネクションタイプ

出力先管理

読み込んだコンテンツの出力先を設定、管理する。多くの場合は、全文検索エンジンに出力。

出力コネクタ

  • Solr
  • ファイルシステム
  • HDFS
  • OpenSearchServer
  • Elasticsearch
  • MetaCarta GTS
  • Null

権限管理

特定のセキュリティ環境をもつシステムへ接続するためのコネクションを設定、管理する。
インターネット上で認証なしで誰でも閲覧できるWebページ、RSS、Wikiなどのコンテンツのみをクロールする場合は定義は不要。
社内で利用されている多くのコンテンツを検索する場合はユーザ認証が必要な場合が多いため、権限コネクションを定義する。

権限コネクタ

  • Microsoft Active Directory
  • LDAP
  • OpenText LiveLink
  • EMC Documentum
  • Memex Patriarch
  • Autonomy Meridio
  • CMIS

リポジトリ管理

検索インデックスを作成対象の、コンテンツ保管リポジトリへのコネクションを設定、管理する。
特定のセキュリティ環境をもつシステムへ接続するためのコネクションの場合は、権限コネクションを先に定義する。
ジョブは指定されたリポジトリコネクションからコンテンツを読み込むため、ジョブの設定にもリポジトリコネクションの指定が必要。

リポジトリコネクタ

  • 汎用ファイルシステム
  • 汎用RSS
  • 汎用Web
  • Windows Share/DFS
  • Wiki
  • IBM FileNet P8
  • EMC Documentum
  • Dropbox
  • OpenText LiveLink
  • Memex Patriarch
  • Meridio
  • Microsoft SharePoint
  • CMIS
  • 汎用データベース
    • Postgresql (Postgresql JDBCドライバ)
    • SQL Server (JTDS JDBCドライバ)
    • Oracle Database (Oracle JDBCドライバ)
    • Sybase (JTDS JDBCドライバ)
    • MySQL (MySQL JDBCドライバ)

ジョブ管理

ジョブの新規、変更、削除、実行(開始/中断/停止/再開/再実行)を指示する。
ManifoldCFは指定されたコンテンツの集まりをリポジトリコネクションを介して読み込み、指定された出力コネクションに書き込むため、ジョブの内容とコンテンツの索引作成方法は、関連したリポジトリコネクションに依存し、コンテンツの索引作成方法は、出力コネクションにも依存する。

状態レポート

指定した条件に一致したコンテンツとその状態、状況、予定されている処理の一覧をコンテンツ状態レポートとして表示したり、ジョブキューを表示する。
実行中のジョブがコンテンツを処理したか確認する場合などに利用できる。

履歴レポート

コネクション毎にそのコネクションで起こった処理の履歴や、リポジトリコネクションおよび出力コネクションのイベントを記録し、表示する。
表示内容の絞りこみも可能。

主な特徴

主な特徴は以下のとおりです。

豊富なコネクタ

一般的なWebページのみならず、FileNet P8 (IBM)、Documentum (EMC)、LiveLink (OpenText)、Meridio (Autonomy)、Windows共有(Microsoft)、SharePoint (Microsoft)、SQL Server (Microsoft)、Oracle Database (Oracle)、Sybase (SAP)などの商用製品に保存されているさまざまな種類のコンテンツに接続するコネクタがある

Javaベース

Javaベースのアーキテクチャのため、同じくJavaベースで構築されている全文検索エンジンであるApache Solrとの親和性が高い

セキュリティ

さまざまなファイルのアクセス権限などを取得したり、Microsoft Active DirectoryやLDAPなどの権限をふまえた検索インデックスの作成が可能

マルチOS/マルチクライアント

さまざまなサーバーOSおよびクライアント環境に対応

オープンスタンダードなインターフェイス

コネクションとジョブの定義と実行にはサーブレットベースのJSON APIが提供されている

包括的なHTML管理インタフェース

出力コネクション、権限コネクション、リポジトリコネクション、ジョブの設定や、処理状況を監視するための管理画面を備え、運用もしやすい

導入しやすい

オープンソースでライセンス費用がかからないうえ、いくつかの簡単なコマンドですぐに全文検索エンジンを利用できる

豊富な導入実績

クローラフレームワークとして、国内外を問わず多数の採用実績がある

コスト効果

ライセンス費用がかからないため、商用製品に比べて大幅に導入コストを削減可能

導入事例

Apache ManifoldCFは、オープンソースのクローラフレームワークとして、中小から大規模まで、さまざまな業種で幅広く利用されています。

Apache ManifoldCFの導入事例は、コミュニティサイトなどで公開されていませんが、多くの場合オープンソースの全文検索エンジンであるApache Solrとともに利用されています。

Apache Solrは、インターネットのサイト検索システムをはじめ、企業内でのファイルサーバや多様なデータの検索や知識共有システム、図書館の検索システム、SaaS、SNS、広告配信システム、政府系機関システムなどの全文検索エンジンに数多く採用されています。

類似プロダクト

商用ソフトウェア製品では、GoogleBot (Google)、Baiduspider(Baidu)、MSNBot(MSN)、InfoSeek Sidewinder(インフォシーク)、mitsubachi(マイニングブラウニー)、同じOSS製品では、S2Robot、Apache Nutch、Scrapy、Anemone、Goutteなどが、Apache ManifoldCFと同様の機能を提供しています。

動作環境

前提となる動作環境は、以下のとおりです。(Apache ManifoldCFバージョン2.25を利用する場合)

  • OS
    • Linux/Unix/OSX
    • Windows
  • Java Runtime Environment(JRE)8以降

※バージョンによって異なりますので、詳細はお問い合わせください。

Apache ManifoldCFのライセンス

Apache ManifoldCFのライセンスは、Apacheソフトウェア財団 (ASF) によって規定されたApache License Version 2.0を採用しています。
Apache ManifoldCFの使用にあたって、著作権の表示などの条件に従うことで、商用利用、修正、再頒布などが自由に行えます。

オープンソース年間サポートサービス

OpenStandiaではOSSを安心してご利用いただけるように、オープンソース年間サポートサービスをご提供しております。
サポートしているOSSは下記ページをご参照ください。

お気軽にお問い合わせください

関連OSS

  • Elasticsearch
    サポート対象

    Elasticsearch

    エラスティックサーチ。Elastic社が開発するオープンソースの全文検索エンジンです。

  • Apache Solr
    サポート対象

    Apache Solr

    アパッチソーラー。さまざまな検索機能と世界的導入実績を持つ全文検索エンジンです。

オープンソースに関するさまざまな課題、OpenStandiaがまるごと解決します。
下記コンテンツも
あわせてご確認ください。