トップ OSS紹介 Langfuse

Langfuse

NRIのOpenStandiaが提供するLangfuse最新情報

バージョンアップ情報

Langfuse情報

Langfuse情報更新日:2026/02/17

Langfuseとは

Langfuse は、GPT‑4 などのLLM(大規模言語モデル)を活用したアプリケーションの開発・運用を支援するオープンソースの「LLM エンジニアリングプラットフォーム / LLMOps プラットフォーム」です。
LLMOpsとは、LLMアプリケーションの開発からデプロイ、監視、改善までを継続的に管理し、品質・効率・安全性を維持するための運用プロセスです。
具体的には以下のような要素を含みます。

  • プロンプトのテンプレート化、バージョン管理
  • モデルの種類と設定の切り替え
  • コスト(API使用量など)の管理
  • 応答の評価や応答時間の測定

近年、企業におけるLLMの活用が広がるにつれてLLM アプリケーションの開発・改善・運用サイクルを支える基盤が重視されるようになりました。
こういったニーズの高まりを受けてLangfuseはLLMOpsに必要な機能を有するオープンソースソフトウェアとして急速に普及し、スタートアップから大企業まで、何千ものチームやプロジェクトに導入されています。
Langfuseは2023年の初めごろから開発が始まりました。
一部機能が商用/クローズドで提供されていた時期もありましたが、2025年6月に多くの製品機能が MIT ライセンスでオープンソース化され※、セルフホスティング環境において豊富な機能を自由に利用できるようになりました。
※Managed LLM-as-a-Judge Evaluator、Annotation Queue、Prompt Experiment、LLM Playground など

主な特徴

Langfuse は、単にログやメトリクスを取得するだけでなく、「プロンプト改善 → 評価 → デプロイ → 監視 → 再改善 …」 という LLM アプリケーションのライフサイクル全体をカバーする、オールインワンプラットフォームとして設計されています。
Langfuse が提供する主要な機能と特徴は以下のとおりです。

機能/特徴

内容

オブザーバビリティ(モニタリングとトレース)

LLM の呼び出し、埋め込み処理、エージェントアクション、RAG(Retrieval-Augmented Generation)などをトレース。
一連のセッションやユーザーの操作を含めてログ・履歴を可視化。

プロンプト管理 / バージョン管理

プロンプトを中央管理し、バージョン管理、共同編集、キャッシュによる高速反映を実現。
アプリに遅延を与えることなく、効率的にプロンプトを改善可能。

Evaluation(評価)機能

・LLM-as-a-Judge(LLMによる評価)、人手による評価、API/SDK経由のカスタム評価パイプラインなどをサポート。
・複数モデル/複数設定の比較や、実際の出力の品質を測る運用が可能。

データセット / ベンチマーク管理

テストセットやベンチマークデータを管理し、LLM アプリケーションの継続的なテストや事前検証、A/B テストなどができる。
LangChain や LlamaIndex など主要フレームワークとの統合も可能。

LLM Playground

プロンプトやモデル設定を素早く試せるインタラクティブ UI を提供。
トレースで「不正な出力」を見つけたとき、そのまま Playground でプロンプトを修正 → 再実行するサイクルを素早く回せる。

SDK / API による統合

Python/JavaScript/TypeScript 向け SDK を提供し、アプリケーションに簡単に組み込める。
既存のフレームワーク(たとえば LangChain、LlamaIndex、LiteLLM など)と連携可能。

メリット・デメリット

メリット・必要性

LLM アプリケーション開発においてLangfuse を活用することによるメリットや必要性として以下があげられます。

  • 可視性の確保
    LLM を使ったアプリケーションは「どのプロンプトで」「どのような設定で」「どのような入力・中間処理」があったか、という情報がブラックボックスになりがちです。
    Langfuse によってトレース/ログを残すことで、後から問題の原因特定や改善がしやすくなります。
  • 品質管理・継続的改善
    評価機能やデータセット管理、バージョン管理されたプロンプトにより、出力品質を客観的に「評価 → 改善 → 再評価」するサイクルを運用として回せます。
    これにより、単発実験から“プロダクション品質”への移行がスムーズになります。
  • 協調開発/チーム開発の支援
    プロンプトや設定、評価結果を中央管理/共有できるため、チームでの共同開発やレビュー、改善がしやすくなります。
    特に複数人・複数チームで LLM アプリケーションを運用するような場合に効果が高いです。
  • セルフホストによるデータ統制/コンプライアンス対応
    プロンプト・ユーザー入力・ログなどを自社インフラに保持できるため、機密性やプライバシー、コンプライアンスの観点で安心です。
    商用クラウドに依存せず、セルフホストしやすい点は、特に企業での導入において重要なメリットです。
  • オープンソースによる将来性と透明性
    Langfuse は MIT ライセンスで公開されており、誰でも自分でホスト・改変できます。
    コミュニティの貢献によって機能の追加や改善が進んでおり、将来的に技術的負債を抱えるリスクの軽減が期待できます。

デメリット・注意点・課題

一方で、Langfuse を使うにあたっては以下のような注意点や課題もいくつかあります。

  • インフラの複雑さ(構成の多さ)

    Langfuse は以下の通り多くのコンポーネントから構成されており、セルフホストする場合には構築コストが高くなる可能性があります。
    また、多数のコンポーネントを自前で運用するには相応の技術的知見やコスト負担が必要です。

    • Web アプリケーション
    • Worker(非同期処理用バックグラウンドプロセス)
    • データベース(PostgreSQL)
    • OLAP ストレージ(ClickHouse)
    • キャッシュ/キュー(Redisなど)
    • オブジェクトストレージ(Amazon S3 互換ストアなど)
  • データ量/スケール時の負荷
    将来的なLLM の推論回数やログ・トレース量の増加に備えて、設計時にClickHouse やストレージの拡張性を考慮しておくことが重要です。
    特に長期間ログを保持する場合や大規模なユーザー数を扱う場合、拡張に伴うコストの管理も欠かせません。
  • 機能の多さと学習コスト
    「オブザーバビリティ」「プロンプト管理」「評価」「LLM Playground」など多機能であるがゆえに、それらを適切に使いこなすためには学習コストが発生します。
    運用ポリシーの整備も必要となり、特に小さなチームではすべての機能を十分に活用できず「宝の持ち腐れ」になる可能性があります。
  • Enterprise 機能/商用部分は別ライセンス
    2025年6月時点で多くの機能が MIT ライセンス化されましたが、一部「Enterprise Security」「SSO/監査ログ/データ保持ポリシー」などのEnterprise向け機能は依然として商用ライセンスの対象です。
  • すべての機能が完全にフリーというわけではない点に注意が必要です。

類似プロダクト

ツール名

概要・特徴

Langfuse に対する相対的位置付け/強み・注意点

Helicone

オープンソースの LLMオブザーバビリティプラットフォーム。
LLM の呼び出しログ/応答ログ/コスト・レイテンシのトラッキング、プロンプトのバージョン管理、キャッシュやプロキシ機能を含む簡易導入型。

導入が非常に簡単 — プロキシを通すだけでオブザーバビリティを実現でき、最小限の手間で使い始められる。
ただし、トレースの粒度やフレームワーク統合、複雑なワークフロー/エージェント処理の追跡ではLangfuse の方が強力。

LangSmith

LangChain エコシステムに自然統合された トレーシング/プロンプトバージョニング/評価(Evals)/モニタリングプラットフォーム。
SDK 経由 + OpenTelemetry対応。

LangChain を使ったワークフローなら導入しやすく、既存のLangChainエコシステムとの親和性が高い。
ただし一般的にセルフホスティングは困難 — SaaS(クラウド型)中心で、Enterprise を除きオンプレミスへの対応は限定的。
オープンソース・自前運用の柔軟性では Langfuse に劣る。

Lunary

モデル/プロンプト非依存の軽量追跡ツール。
プロンプトの呼び出しログ、出力の追跡、分析、バージョン管理をシンプルに提供する OSS。

軽量でシンプル。
小規模プロジェクト/チャットボット的用途で、最小限のオーバーヘッドでオブザーバビリティを確保したい場合に有効。
多機能性・エージェント対応・高度な評価機能などは限定的 — Langfuse のようなオールインワンLLMOps プラットフォームには及ばない。

Phoenix (by Arize AI)

RAG ワークフローを含む LLM アプリケーション向けに設計された、オープンソースのオブザーバビリティ/評価ライブラリ。
トレース、出力の評価、メトリクス収集などに対応。

RAG やリトリ-バル + LLM といった特定ワークロードで強み。
軽量かつ OSS である点で柔軟。
ただし、プロンプトのバージョン管理や高度なライフサイクル管理、セルフホスト型の包括的な LLMOps 機能は限定的で、Langfuse の「オールインワン」に比べると機能は絞られる。

(新興/ニッチ系)その他ツール群:Agenta、Maxim AI、Braintrust など

LLM のオブザーバビリティ/評価/実験管理を目的とした多様なプラットフォーム。
各ツールによってトレース重視/評価重視/エージェント特化など強みが異なる。

用途・目的が明確な場合に選択肢となる。
たとえば「評価・実験管理重視」「エージェントの挙動分析」「コストや性能モニタリングに特化」など。
ただしツールごとに得意・不得意があるため、Langfuse のような万能性や安定性を求めるなら注意が必要。

動作環境

Langfuse はセルフホストでもクラウドでも利用できます。
公式ドキュメントによれば、以下のような構成で動作します。

  • アプリケーション構成
    • Web アプリケーションコンテナ
    • Worker (非同期イベント処理用)コンテナ
  • 必要なバックエンドサービス
    • データベース (PostgreSQL) — トランザクション処理用。
    • OLAP データベース (ClickHouse) — トレースや履歴の高速集計用
    • キャッシュ/キューシステム (Redis または類似製品) — キューやキャッシュ用
    • オブジェクトストレージ (Amazon S3 互換) — イベントやマルチモーダル入力、エクスポート用ファイルの保存に利用
  • SDK / 言語サポート
    • Python SDK — Langfuse パッケージ、2025年6月に v3 に大幅リニューアル
    • JavaScript/TypeScript SDK も提供
  • デプロイオプション
    • Docker Compose — ローカル環境や小規模プロジェクトに適用。数分でセルフホスティング可能
    • 仮想マシン (VM) + Docker Compose
    • Kubernetes (Helm チャート) — 本番環境の運用に推奨
    • Terraform モジュール — AWS / Azure / GCP などクラウドに対応

Langfuseのライセンス

Langfuse のコアおよび大部分の機能は、MIT ライセンスで公開されています。
2025年6月の発表で、以前商用だった評価機能、Playground、プロンプト実験などの機能もOSS 化されました。SDK(Python/JavaScript)およびドキュメントも GitHub 上でオープンソースとして公開されています。
ただし、「Enterprise Security」「SSO」「監査ログ」「データ保持ポリシー」など、エンタープライズ向けの一部機能は商用ライセンス (非 OSS) のままです。

参考情報

オープンソース年間サポートサービス

OpenStandiaではOSSを安心してご利用いただけるように、オープンソース年間サポートサービスをご提供しております。
サポートしているOSSは下記ページをご参照ください。

お気軽にお問い合わせください

関連OSS

  • LiteLLM

    LiteLLM

    LiteLLMは複数のLLM(大規模言語モデル)APIへのアクセスを統一的かつシンプルなインターフェースで提供するPythonライブラリです。

  • Ollama

    Ollama

    Ollamaは主要なオープンソースの大規模言語モデルをローカルコンピュータ上で簡単にセットアップし、実行するためのローカルLLMフレームワークです。

  • dify

    dify

    Dify(ディフィ)は、既存の大規模言語モデルに基づいたオープンソースのAIアプリ開発プラットフォームです。

オープンソースに関するさまざまな課題、OpenStandiaがまるごと解決します。
下記コンテンツも
あわせてご確認ください。