OSS紹介

Apache ManifoldCF

Apache ManifoldCF最新情報

NRIのOpenStandiaが提供するApache ManifoldCF最新情報

Apache ManifoldCF保守サポートサービス 全文検索エンジンの導入や課題は、こちらのフォームからお問い合わせください OSS全般の事例紹介はこちら

Apache ManifoldCFバージョンアップ情報

■2020-07-07
[VerUP]Apache ManifoldCF 2.16(リリース日:2020/05/06)
■2019-05-11
[VerUP]Apache ManifoldCF 2.13(リリース日:2019/05/01)
■2018-12-23
[VerUP]Apache ManifoldCF 2.12(リリース日:2018/12/20)
■2018-10-05
[VerUP]Apache ManifoldCF 2.11(リリース日:2018/09/28)
■2018-04-24
[VerUP]Apache ManifoldCF 2.10(リリース日:2018/04/19)
■2018-01-31
[VerUP]Apache ManifoldCF 2.9.1(リリース日:2018/01/15)
■2018-01-10
[VerUP]Apache ManifoldCF 2.9(リリース日:2017/12/22)
■2017-09-11
[VerUP]Apache ManifoldCF 2.8.1(リリース日:2017/09/07)
■2017-08-28
[VerUP]Apache ManifoldCF 2.8(リリース日:2017/08/18)
■2017-05-15
[VerUP]Apache ManifoldCF 2.7.1(リリース日:2017/05/10)

すべてを見る

更新日:2020-07-07

Apache ManifoldCFの概要

Apache ManifoldCF(アパッチマニフォールドシーエフ)とは、Javaで書かれたオープンソースのクローラフレームワークです。

HTML、RSSフィード、Microsoft SharePoint、EMC Documentumのようなソースコンテンツリポジトリ、RDBMSなどに接続するためのコネクタフレームワーク(Apache ManifoldCF = Apache Manifold Connector Framework)であり、オープンソースの全文検索エンジンであるApache Solrの関連プロジェクトとして、Apacheソフトウェア財団 (ASF)で開発されています。

Apache ManifoldCFは、あらゆるデータソースを巡回(クロール)してコンテンツ情報やアクセス権限情報を自動的に取得し、Apache Solr、OpenSearchServer、ElasticSearchなどの全文検索エンジンの検索インデックスに登録します。

Apache ManifoldCFは、単純なクロールだけでなく、差分クロールやファイルのアクセス権限などのパーミッション情報のクロールができることが特徴です。
アクセストークンという概念を利用し、ファイルのパーミッション情報をもとにユーザにコンテンツを表示するか、表示しないかを制御することができます。
また、Apache ManifoldCFは、Microsoft Active Directoryなどの認証および階層のモデルにも対応しています。Active Directoryなどに接続し、ファイルが持つアクセス権限をふまえた検索インデックスを作成することができます。
これらのセキュリティ機能により、企業内の検索システムでは不可欠な役職や所属部署によるアクセス権限を考慮した検索も実現できます。

Apache ManifoldCFは、インターネットサイト検索システムをはじめ、企業内でのファイルサーバやさまざまなデータの全文検索エンジンとして世界的に利用されているApache Solrとの親和性があり、多くのケースで連携して利用されています。
Apache Solrプロジェクトでは、全文検索エンジンにApache Solrを利用する際に Apache ManifoldCFのアクセストークン制御を標準で実行することができるよう、SearchComponentプラグインとその説明書を提供しています。

Apache ManifoldCFの現在の最新バージョン(GA)は、Apache ManifoldCF 1.10.0、2.16です。(2020年7月現在)

TOPに戻る

Apache ManifoldCFのライセンス

Apache ManifoldCFのライセンスは、Apacheソフトウェア財団 (ASF) によって規定されたApache License Version 2.0を採用しています。
Apache ManifoldCFの使用にあたって、著作権の表示などの条件に従うことで、商用利用、修正、再頒布などが自由に行えます。
Apache ManifoldCFのライセンスについてご不明な点がありましたら、お気軽にお問い合わせください。

TOPに戻る

Apache ManifoldCFの動作環境

前提となる動作環境は、以下のとおりです。(Apache ManifoldCFバージョン1.5.1 かつ Apache Solr 4.xを利用する場合)

  • OS
    ・Linux/Unix/OSX
    ・Windows
  • Java SE JDK (Java Development Kit) 6以降
  • Java Runtime Environment(JRE)1.6以降
  • Maven 3.0以降
  • Apache Ant 1.8.2以降

※バージョンによって異なりますので、詳細はお問い合わせください。

TOPに戻る

Apache ManifoldCFと同様の機能を提供する商用製品

商用ソフトウェア製品では、GoogleBot (Google)、Baiduspider(Baidu)、MSNBot(MSN)、InfoSeek Sidewinder(インフォシーク)、mitsubachi(マイニングブラウニー)、同じOSS製品では、S2Robot、Apache Nutch、Scrapy、Gungho、Anemone、Goutteなどが、Apache ManifoldCFと同様の機能を提供しています。

TOPに戻る

Apache ManifoldCFの主な特徴

主な特徴は以下のとおりです。

豊富なコネクタ 一般的なWebページのみならず、FileNet P8 (IBM)、Documentum (EMC)、LiveLink (OpenText)、Meridio (Autonomy)、Windows共有(Microsoft)、SharePoint (Microsoft)、SQL Server (Microsoft)、Oracle (Oracle)、Sybase (SAP)などの商用製品に保存されているさまざまな種類のコンテンツに接続するコネクタがある
Javaベース Javaベースのアーキテクチャのため、同じくJavaベースで構築されている全文検索エンジンであるApache Solrとの親和性が高い
セキュリティ さまざまなファイルのアクセス権限などを取得したり、Microsoft Active DirectoryやLDAPなどの権限をふまえた検索インデックスの作成が可能
マルチOS/マルチクライアント さまざまなサーバーOSおよびクライアント環境に対応
オープンスタンダードなインターフェイス コネクションとジョブの定義と実行にはサーブレットベースのJSON APIが提供されている
包括的なHTML管理インタフェース 出力コネクション、権限コネクション、リポジトリコネクション、ジョブの設定や、処理状況を監視するための管理画面を備え、運用もしやすい
導入しやすい オープンソースでライセンス費用がかからないうえ、いくつかの簡単なコマンドですぐに検索エンジンを利用できる
豊富な導入実績 クローラフレームワークとして、国内外を問わず多数の採用実績がある
コスト効果 ライセンス費用がかからないため、商用製品に比べて大幅に導入コストを削減可能

TOPに戻る

Apache ManifoldCFの主な機能

主な機能は以下のとおりです。

機能 概要 コネクションタイプ
出力先管理 読み込んだコンテンツの出力先を設定、管理する。多くの場合は、検索エンジンに出力。 出力コネクタ
・Solr
・ファイルシステム
・HDFS
・OpenSearchServer
・ElasticSearch
・MetaCarta GTS
・Null
権限管理 特定のセキュリティ環境をもつシステムへ接続するためのコネクションを設定、管理する。
インターネット上で認証なしで誰でも閲覧できるWebページ、RSS、Wikiなどのコンテンツのみをクロールする場合は定義は不要。
社内で利用されている多くのコンテンツを検索する場合はユーザ認証が必要な場合が多いため、権限コネクションを定義する。
権限コネクタ
・Microsoft Active Directory
・LDAP
・OpenText LiveLink
・EMC Documentum
・Memex Patriarch
・Autonomy Meridio
・CMIS
リポジトリ管理 検索インデックスを作成対象の、コンテンツ保管リポジトリへのコネクションを設定、管理する。
特定のセキュリティ環境をもつシステムへ接続するためのコネクションの場合は、権限コネクションを先に定義する。
ジョブは指定されたリポジトリコネクションからコンテンツを読み込むため、ジョブの設定にもリポジトリコネクションの指定が必要。
リポジトリコネクタ
・汎用ファイルシステム
・汎用RSS
・汎用Web
・Windows Share/DFS
・Wiki
・IBM FileNet P8
・EMC Documentum
・Dropbox
・OpenText LiveLink
・Memex Patriarch
・Meridio
・Microsoft SharePoint
・CMIS
・汎用データベース
 -Postgresql (Postgresql JDBCドライバ)
 -SQL Server (JTDS JDBCドライバ)
 -Oracle (Oracle JDBCドライバ)
 -Sybase (JTDS JDBCドライバ)
 -MySQL (MySQL JDBCドライバ)
ジョブ管理 ジョブの新規、変更、削除、実行(開始/中断/停止/再開/再実行)を指示する。
ManifoldCFは指定されたコンテンツの集まりをリポジトリコネクションを介して読込み、指定された出力コネクションに書込むため、ジョブの内容とコンテンツの索引作成方法は、関連したリポジトリコネクションに依存し、コンテンツの索引作成方法は、出力コネクションにも依存する。
状態レポート 指定した条件に一致したコンテンツとその状態、状況、予定されている処理の一覧をコンテンツ状態レポートとして表示したり、ジョブキューを表示する。
実行中のジョブがコンテンツを処理したか確認する場合などに利用できる。
履歴レポート コネクション毎にそのコネクションで起こった処理の履歴や、リポジトリコネクションおよび出力コネクションのイベントを記録し、表示する。
表示内容の絞りこみも可能。
OpenStandia 全文検索エンジンの概要図

TOPに戻る

Apache ManifoldCFのダウンロード

Apache ManifoldCF ダウンロードページ

TOPに戻る



OpenStandiaに関する
資料請求・お問い合わせはこちら

  • 資料請求
  • お問い合わせ

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

  • OpenStandiaサポート対象オープンソース|50種類以上のOSSのサポートをご提供します。
  • 人気midPoint
  • 人気Keycloak
  • 注目MongoDB
  • ForgeRock AM(OpenAM)
  • ForgeRock IDM(OpenIDM)
  • Corosync
  • Postfix
  • Apache HTTP Server
  • ZABBIX
  • PostgreSQL
  • Apache Struts
  • Apache Kafka
  • Apache Hadoop
  • Apache Spark
  • Spring Framework
  • Apache Tomcat
  • Solr
  • iBATIS
  • DRBD
  • MySQL
  • JBoss
  • Ruby on Rails
  • Jaspersoft
  • OpenLDAP
  • Apache log4j
  • Apache Subversion
  • ForgeRock DS(OpenDJ)
  • Pacemaker
  • Samba
  • Red Hat Enterprise Linux
  • Nginx
  • BIND
  • Dovecot
  • Pentaho
  • sendmail
  • Courier-IMAP
  • ForgeRock DS(OpenDJ)
  • Heartbeat
  • Hibernate
  • Hinemos
  • MyBatis
  • MySQL Cluster
  • Apache Axis2
  • Squid
  • OpenSSO