Apache ManifoldCF情報
- Apache ManifoldCFとは
- 主な機能
- 主な特徴
- 導入事例
- 類似プロダクト
- 動作環境
- Apache ManifoldCFのライセンス
- 製品ダウンロード
- 参考情報
- オープンソース年間サポートサービス
Apache ManifoldCFとは
Apache ManifoldCF(アパッチマニフォールドシーエフ)とは、Javaで書かれたオープンソースのクローラフレームワークです。
HTML、RSSフィード、Microsoft SharePoint、EMC Documentumのようなソースコンテンツリポジトリ、RDBMSなどに接続するためのコネクタフレームワーク(Apache ManifoldCF = Apache Manifold Connector Framework)であり、オープンソースの全文検索エンジンであるApache Solrの関連プロジェクトとして、Apacheソフトウェア財団 (ASF)で開発されています。
Apache ManifoldCFは、あらゆるデータソースを巡回(クロール)してコンテンツ情報やアクセス権限情報を自動的に取得し、Apache Solr、OpenSearchServer、Elasticsearchなどの全文検索エンジンの検索インデックスに登録します。
Apache ManifoldCFは、単純なクロールだけでなく、差分クロールやファイルのアクセス権限などのパーミッション情報のクロールができることが特徴です。
アクセストークンという概念を利用し、ファイルのパーミッション情報をもとにユーザにコンテンツを表示するかどうかを制御することができます。
また、Apache ManifoldCFのセキュリティモデルは、MicrosoftのActive Directoryの標準的な認可の概念や階層構造に大まかに基づいています。Active Directoryなどに接続し、ファイルが持つアクセス権限をふまえた検索インデックスを作成することができます。
これらのセキュリティ機能により、企業内の検索システムでは不可欠な役職や所属部署によるアクセス権限を考慮した検索も実現できます。
Apache ManifoldCFは、インターネットサイト検索システムをはじめ、企業内でのファイルサーバやさまざまなデータの全文検索エンジンとして世界的に利用されているApache Solrとの親和性があり、多くのケースで連携して利用されています。
Apache Solrプロジェクトでは、全文検索エンジンにApache Solrを利用する際に Apache ManifoldCFのアクセストークン制御を標準で実行することができるよう、SearchComponentプラグインとそのドキュメントを提供しています。
主な機能
主な機能は以下のとおりです。
機能 |
概要 |
コネクションタイプ |
---|---|---|
出力先管理 |
読み込んだコンテンツの出力先を設定、管理する。多くの場合は、全文検索エンジンに出力。 |
出力コネクタ
|
権限管理 |
特定のセキュリティ環境をもつシステムへ接続するためのコネクションを設定、管理する。 |
権限コネクタ
|
リポジトリ管理 |
検索インデックスを作成対象の、コンテンツ保管リポジトリへのコネクションを設定、管理する。 |
リポジトリコネクタ
|
ジョブ管理 |
ジョブの新規、変更、削除、実行(開始/中断/停止/再開/再実行)を指示する。 |
|
状態レポート |
指定した条件に一致したコンテンツとその状態、状況、予定されている処理の一覧をコンテンツ状態レポートとして表示したり、ジョブキューを表示する。 |
|
履歴レポート |
コネクション毎にそのコネクションで起こった処理の履歴や、リポジトリコネクションおよび出力コネクションのイベントを記録し、表示する。 |
主な特徴
主な特徴は以下のとおりです。
豊富なコネクタ |
一般的なWebページのみならず、FileNet P8 (IBM)、Documentum (EMC)、LiveLink (OpenText)、Meridio (Autonomy)、Windows共有(Microsoft)、SharePoint (Microsoft)、SQL Server (Microsoft)、Oracle Database (Oracle)、Sybase (SAP)などの商用製品に保存されているさまざまな種類のコンテンツに接続するコネクタがある |
---|---|
Javaベース |
Javaベースのアーキテクチャのため、同じくJavaベースで構築されている全文検索エンジンであるApache Solrとの親和性が高い |
セキュリティ |
さまざまなファイルのアクセス権限などを取得したり、Microsoft Active DirectoryやLDAPなどの権限をふまえた検索インデックスの作成が可能 |
マルチOS/マルチクライアント |
さまざまなサーバーOSおよびクライアント環境に対応 |
オープンスタンダードなインターフェイス |
コネクションとジョブの定義と実行にはサーブレットベースのJSON APIが提供されている |
包括的なHTML管理インタフェース |
出力コネクション、権限コネクション、リポジトリコネクション、ジョブの設定や、処理状況を監視するための管理画面を備え、運用もしやすい |
導入しやすい |
オープンソースでライセンス費用がかからないうえ、いくつかの簡単なコマンドですぐに全文検索エンジンを利用できる |
豊富な導入実績 |
クローラフレームワークとして、国内外を問わず多数の採用実績がある |
コスト効果 |
ライセンス費用がかからないため、商用製品に比べて大幅に導入コストを削減可能 |
導入事例
Apache ManifoldCFは、オープンソースのクローラフレームワークとして、中小から大規模まで、さまざまな業種で幅広く利用されています。
Apache ManifoldCFの導入事例は、コミュニティサイトなどで公開されていませんが、多くの場合オープンソースの全文検索エンジンであるApache Solrとともに利用されています。
Apache Solrは、インターネットのサイト検索システムをはじめ、企業内でのファイルサーバや多様なデータの検索や知識共有システム、図書館の検索システム、SaaS、SNS、広告配信システム、政府系機関システムなどの全文検索エンジンに数多く採用されています。
類似プロダクト
商用ソフトウェア製品では、GoogleBot (Google)、Baiduspider(Baidu)、MSNBot(MSN)、InfoSeek Sidewinder(インフォシーク)、mitsubachi(マイニングブラウニー)、同じOSS製品では、S2Robot、Apache Nutch、Scrapy、Anemone、Goutteなどが、Apache ManifoldCFと同様の機能を提供しています。
動作環境
前提となる動作環境は、以下のとおりです。(Apache ManifoldCFバージョン2.25を利用する場合)
-
OS
- Linux/Unix/OSX
- Windows
- Java Runtime Environment(JRE)8以降
※バージョンによって異なりますので、詳細はお問い合わせください。
Apache ManifoldCFのライセンス
Apache ManifoldCFのライセンスは、Apacheソフトウェア財団 (ASF) によって規定されたApache License Version 2.0を採用しています。
Apache ManifoldCFの使用にあたって、著作権の表示などの条件に従うことで、商用利用、修正、再頒布などが自由に行えます。
製品ダウンロード
オープンソース年間サポートサービス
OpenStandiaではOSSを安心してご利用いただけるように、オープンソース年間サポートサービスをご提供しております。
サポートしているOSSは下記ページをご参照ください。
関連OSS
-
サポート対象
Elasticsearch
エラスティックサーチ。Elastic社が開発するオープンソースの全文検索エンジンです。
-
サポート対象
Apache Solr
アパッチソーラー。さまざまな検索機能と世界的導入実績を持つ全文検索エンジンです。