Apache ManifoldCFの概要
Apache ManifoldCF(アパッチマニフォールドシーエフ)とは、Javaで書かれたオープンソースのクローラフレームワークです。
HTML、RSSフィード、Microsoft SharePoint、EMC Documentumのようなソースコンテンツリポジトリ、RDBMSなどに接続するためのコネクタフレームワーク(Apache ManifoldCF = Apache Manifold Connector Framework)であり、オープンソースの全文検索エンジンであるApache Solrの関連プロジェクトとして、Apacheソフトウェア財団 (ASF)で開発されています。
Apache ManifoldCFは、あらゆるデータソースを巡回(クロール)してコンテンツ情報やアクセス権限情報を自動的に取得し、Apache Solr、OpenSearchServer、ElasticSearchなどの全文検索エンジンの検索インデックスに登録します。
Apache ManifoldCFは、単純なクロールだけでなく、差分クロールやファイルのアクセス権限などのパーミッション情報のクロールができることが特徴です。
アクセストークンという概念を利用し、ファイルのパーミッション情報をもとにユーザにコンテンツを表示するかどうかを制御することができます。
また、Apache ManifoldCFは、Microsoft Active Directoryなどの認証および階層のモデルにも対応しています。Active Directoryなどに接続し、ファイルが持つアクセス権限をふまえた検索インデックスを作成することができます。
これらのセキュリティ機能により、企業内の検索システムでは不可欠な役職や所属部署によるアクセス権限を考慮した検索も実現できます。
Apache ManifoldCFは、インターネットサイト検索システムをはじめ、企業内でのファイルサーバやさまざまなデータの全文検索エンジンとして世界的に利用されているApache Solrとの親和性があり、多くのケースで連携して利用されています。
Apache Solrプロジェクトでは、全文検索エンジンにApache Solrを利用する際に Apache ManifoldCFのアクセストークン制御を標準で実行することができるよう、SearchComponentプラグインとその説明書を提供しています。
Apache ManifoldCFのライセンス
Apache ManifoldCFのライセンスは、Apacheソフトウェア財団 (ASF) によって規定されたApache License Version 2.0を採用しています。
Apache ManifoldCFの使用にあたって、著作権の表示などの条件に従うことで、商用利用、修正、再頒布などが自由に行えます。
Apache ManifoldCFのライセンスについてご不明な点がありましたら、お気軽にお問い合わせください。
Apache ManifoldCFの動作環境
前提となる動作環境は、以下のとおりです。(Apache ManifoldCFバージョン1.5.1 かつ Apache Solr 4.xを利用する場合)
- OS
・Linux/Unix/OSX
・Windows
- Java SE JDK (Java Development Kit) 6以降
- Java Runtime Environment(JRE)1.6以降
※バージョンによって異なりますので、詳細はお問い合わせください。
Apache ManifoldCFと同様の機能を提供する商用製品
商用ソフトウェア製品では、GoogleBot (Google)、Baiduspider(Baidu)、MSNBot(MSN)、InfoSeek Sidewinder(インフォシーク)、mitsubachi(マイニングブラウニー)、同じOSS製品では、S2Robot、Apache Nutch、Scrapy、Gungho、Anemone、Goutteなどが、Apache ManifoldCFと同様の機能を提供しています。
Apache ManifoldCFの主な特徴
主な特徴は以下のとおりです。
豊富なコネクタ | 一般的なWebページのみならず、FileNet P8 (IBM)、Documentum (EMC)、LiveLink (OpenText)、Meridio (Autonomy)、Windows共有(Microsoft)、SharePoint (Microsoft)、SQL Server (Microsoft)、Oracle Database (Oracle)、Sybase (SAP)などの商用製品に保存されているさまざまな種類のコンテンツに接続するコネクタがある |
---|---|
Javaベース | Javaベースのアーキテクチャのため、同じくJavaベースで構築されている全文検索エンジンであるApache Solrとの親和性が高い |
セキュリティ | さまざまなファイルのアクセス権限などを取得したり、Microsoft Active DirectoryやLDAPなどの権限をふまえた検索インデックスの作成が可能 |
マルチOS/マルチクライアント | さまざまなサーバーOSおよびクライアント環境に対応 |
オープンスタンダードなインターフェイス | コネクションとジョブの定義と実行にはサーブレットベースのJSON APIが提供されている |
包括的なHTML管理インタフェース | 出力コネクション、権限コネクション、リポジトリコネクション、ジョブの設定や、処理状況を監視するための管理画面を備え、運用もしやすい |
導入しやすい | オープンソースでライセンス費用がかからないうえ、いくつかの簡単なコマンドですぐに検索エンジンを利用できる |
豊富な導入実績 | クローラフレームワークとして、国内外を問わず多数の採用実績がある |
コスト効果 | ライセンス費用がかからないため、商用製品に比べて大幅に導入コストを削減可能 |
Apache ManifoldCFの主な機能
主な機能は以下のとおりです。
機能 | 概要 | コネクションタイプ |
---|---|---|
出力先管理 | 読み込んだコンテンツの出力先を設定、管理する。多くの場合は、検索エンジンに出力。 |
出力コネクタ ・Solr ・ファイルシステム ・HDFS ・OpenSearchServer ・ElasticSearch ・MetaCarta GTS ・Null |
権限管理 | 特定のセキュリティ環境をもつシステムへ接続するためのコネクションを設定、管理する。 インターネット上で認証なしで誰でも閲覧できるWebページ、RSS、Wikiなどのコンテンツのみをクロールする場合は定義は不要。 社内で利用されている多くのコンテンツを検索する場合はユーザ認証が必要な場合が多いため、権限コネクションを定義する。 |
権限コネクタ ・Microsoft Active Directory ・LDAP ・OpenText LiveLink ・EMC Documentum ・Memex Patriarch ・Autonomy Meridio ・CMIS |
リポジトリ管理 | 検索インデックスを作成対象の、コンテンツ保管リポジトリへのコネクションを設定、管理する。 特定のセキュリティ環境をもつシステムへ接続するためのコネクションの場合は、権限コネクションを先に定義する。 ジョブは指定されたリポジトリコネクションからコンテンツを読み込むため、ジョブの設定にもリポジトリコネクションの指定が必要。 |
リポジトリコネクタ ・汎用ファイルシステム ・汎用RSS ・汎用Web ・Windows Share/DFS ・Wiki ・IBM FileNet P8 ・EMC Documentum ・Dropbox ・OpenText LiveLink ・Memex Patriarch ・Meridio ・Microsoft SharePoint ・CMIS ・汎用データベース -Postgresql (Postgresql JDBCドライバ) -SQL Server (JTDS JDBCドライバ) -Oracle Database (Oracle JDBCドライバ) -Sybase (JTDS JDBCドライバ) -MySQL (MySQL JDBCドライバ) |
ジョブ管理 | ジョブの新規、変更、削除、実行(開始/中断/停止/再開/再実行)を指示する。 ManifoldCFは指定されたコンテンツの集まりをリポジトリコネクションを介して読込み、指定された出力コネクションに書込むため、ジョブの内容とコンテンツの索引作成方法は、関連したリポジトリコネクションに依存し、コンテンツの索引作成方法は、出力コネクションにも依存する。 |
|
状態レポート | 指定した条件に一致したコンテンツとその状態、状況、予定されている処理の一覧をコンテンツ状態レポートとして表示したり、ジョブキューを表示する。 実行中のジョブがコンテンツを処理したか確認する場合などに利用できる。 |
|
履歴レポート | コネクション毎にそのコネクションで起こった処理の履歴や、リポジトリコネクションおよび出力コネクションのイベントを記録し、表示する。 表示内容の絞りこみも可能。 |
