Embulkの概要
オープンソースの並列バルクデータローダーで、プラグインベースでいろいろな入出力先に対応していることも特徴です。EmbulkはFluentdを開発したTreasure Data, IncのSadayuki Furuhashi氏によって開発されていることもあり、Fluentdのバッチ処理版として捉えられています。
Embulkの主な特徴
プラグインベースの作りでInput、Output部とデータ処理を行うExecutor部からなっています。Executor部はJavaによる実装で、Input、Output プラグインは、JavaやRubyの実装があります。Rubyを処理するためにJRubyが使われています。Input、Outputに関するものがメインですが3rd-partyを含め多数のプラグインがRubyGemとして提供されています。また望みのプラグインがない場合には、RubyやJava(Scalaなど)で開発が可能です。
Executor
並列処理
データバリデーション
エラーリカバリ
Input
Decoder、Parserのプラグインで構成
Output
Encoder、Formatterプラグインで構成
Embulkのプラグイン一覧
https://plugins.embulk.org/#executor
Input、Outputプラグインの設定はYAML形式で記述します。設定により柔軟に動作を定義することが可能なため、多くのシチュエーションをカバーしています。
Embulkの動作環境
- 各種Linuxディストリビューション
- macOS
- Windows
稼働させるためにはJavaが必要になります。Javaの推奨バージョンは下記になります。
- Java 8
Embulkのライセンス
EmbulkのライセンスはApache License 2.0となっており、ユーザーはそのソフトウェアの使用や頒布、修正、派生版の頒布をすることに制限を受けません。
参考情報
ドキュメント
https://www.embulk.org/
リポジトリ(Github)
https://github.com/embulk/embulk
Embulkのサポート
NRIではお客様のご要望に応じて様々な支援ができるサービスをご用意しました。
詳細は下記ページをご確認ください。