Sigrid  Stark

Sigrid Stark

1592165940

OpenTelemetry + Jaeger でトレーシングを試してみた

OpenTelemetryとJaegerはTechnology Radar Vol.22でTRIALとして取り上げられており、今後に向けて触れておきたい要素です。

今回はOpenTelemetryの中でも OpenTelemetry Auto-Instrumentation for Javaを使って、すでにリリースされているprismatixのような既存サービスへ簡単に導入ができる方法を試してみます。

またOpenTelemetry Auto-Instrumentation for Javaで対応しているフレームワークとライブラリは supported-java-libraries-and-frameworks を見てください。

注) 執筆時点でOpenTelemetry Auto-Instrumentation for JavaはBeta版のため、検証以外の利用にはご注意ください

#java #jaeger #opentelemetry

What is GEEK

Buddha Community

OpenTelemetry + Jaeger でトレーシングを試してみた
Sigrid  Stark

Sigrid Stark

1592165940

OpenTelemetry + Jaeger でトレーシングを試してみた

OpenTelemetryとJaegerはTechnology Radar Vol.22でTRIALとして取り上げられており、今後に向けて触れておきたい要素です。

今回はOpenTelemetryの中でも OpenTelemetry Auto-Instrumentation for Javaを使って、すでにリリースされているprismatixのような既存サービスへ簡単に導入ができる方法を試してみます。

またOpenTelemetry Auto-Instrumentation for Javaで対応しているフレームワークとライブラリは supported-java-libraries-and-frameworks を見てください。

注) 執筆時点でOpenTelemetry Auto-Instrumentation for JavaはBeta版のため、検証以外の利用にはご注意ください

#java #jaeger #opentelemetry

Distributed Tracing With OpenTelemetry, Spring Cloud Sleuth, Kafka, and Jaeger

Distributed tracing gives you insight into how a particular service is performing as part of the whole in a distributed software system. It tracks and records requests from their point of origin to their destination and the systems through which they pass.

In this article, we are going to implement distributed tracing in three Spring Boot microservices using OpenTelemetry, Spring Cloud Sleuth, Kafka, and Jaeger.

Let’s first take a look at some of the basic terms in distributed tracing.

Span: Represents a single unit of work within the system. Spans can be nested within one another to model the decomposition of the work. For example, a span could be calling a REST endpoint and another child span could then be that endpoint calling another, and so on in a different service.

Trace: A collection of spans that all share the same root span, or more simply put all spans which were created as a direct result of the original request. The hierarchy of spans (each with its own parent span alongside the root span) can be used to form directed acyclic graphs showing the path of the request as it made its way through various components.

OpenTelemetry

OpenTelemetry, also known as OTel for short, is a vendor-neutral open source Observability framework for instrumenting, generating, collecting, and exporting telemetry data such as traces, metrics, and logs. As a Cloud Native Computing Foundation (CNCF) incubating project, OTel aims to provide unified sets of vendor-agnostic libraries and APIs — mainly for collecting data and transferring it somewhere. OTel is becoming the world standard for generating and managing telemetry data, and it is being widely adopted.

Spring Cloud Sleuth

Sleuth is a project managed and maintained by the Spring Cloud team aimed at integrating distributed tracing functionality within Spring Boot applications. It is bundled as a typical Spring Starter, so by just adding it as a dependency the auto-configuration handles all the integration and instrumenting across the app. Here’s some out-of-the-box Sleuth instruments:

  • requests received at Spring MVC controllers (REST endpoints)
  • requests over messaging technologies like Kafka or MQ
  • requests made with RestTemplate, WebClient, etc.

Sleuth adds an interceptor to ensure that all the tracing information is passed in the requests. Each time a call is made, a new Span is created. It gets closed upon receiving the response.

Sleuth is able to trace your requests and messages so that you can correlate that communication to corresponding log entries. You can also export the tracing information to an external system to visualize latency.

Jaeger

Jaeger was originally built by teams at Uber and then open sourced in 2015. It got accepted as a Cloud Native incubation project in 2017 and graduated in 2019. As part of CNCF, Jaeger is a recognized project in cloud-native architectures. Its source code is primarily written in Go. The architecture of Jaeger includes:

  • Instrumentation Libraries
  • Collectors
  • Query Service and web UI
  • Database Storage

Similar to Jaeger, Zipkin also provides the same set of components in its architecture. Though Zipkin is an older project, Jaeger has a more modern and scalable design. For this example, we have chosen Jaeger as the backend.

Tracing System Design

Let’s design three Spring Boot microservices:

  • customer-service-bff: using backend for frontend pattern, this service sits between the UI and the backend. It is called by a UI web app, which in turn, calls the back end customer service via REST API calls.
  • customer-service: a simple customer CRUD service. In addition to persisting data to its database upon CRUD operations, it also publishes events to Kafka when creating, updating, or deleting a customer record.
  • order-service: listens on the Kafka topic, consumes customer-created/updated/deleted events.

The three microservices are designed to:

  • communicate via REST API (customer-service-bff and customer-service)
  • communicate via event-driven pub/sub through Kafka (customer-service and order-service)

This is to observe how OpenTelemetry combined with Spring Cloud Sleuth handles auto instrumentation of the code and generates and transmits the tracing data. The dotted lines above capture the path of the tracing data, exported by the microservices, travels to OpenTelemetry Collector via OTLP (OpenTelemetry Line Protocol), and the Collector in turn processes and exports the tracing data to the backend Jaeger to be stored and queried.

Using a monorepo, we have the project structure as follows:

Step 1: Add POM Dependencies

This is the key to implementing distributed tracing using OTel and Spring Cloud Sleuth. Our goal is not to have to manually instrument our code, so we rely on these dependencies to do what they are designed to do — auto instrumenting our code, in addition to tracing implementation, exporting telemetry data to the OTel Collector, etc.


<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-dependencies</artifactId>
            <version>${spring-cloud.version}</version>
            <type>pom</type>
            <scope>import</scope>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-sleuth-otel-dependencies</artifactId>
            <version>${spring-cloud-sleuth-otel.version}</version>
            <scope>import</scope>
            <type>pom</type>
        </dependency>
    </dependencies>
</dependencyManagement>

<dependencies>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-sleuth</artifactId>
        <exclusions>
            <exclusion>
                <groupId>org.springframework.cloud</groupId>
                <artifactId>spring-cloud-sleuth-brave</artifactId>
            </exclusion>
        </exclusions>
    </dependency>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-sleuth-otel-autoconfigure</artifactId>
    </dependency>
    <dependency>
        <groupId>io.opentelemetry</groupId>
        <artifactId>opentelemetry-exporter-otlp-trace</artifactId>
    </dependency>
</dependencies>
  • spring-cloud-dependencies: Spring Cloud dependencies
  • spring-cloud-sleuth-otel-dependencies: Spring Cloud Sleuth OpenTelemetry dependencies
  • spring-cloud-starter-sleuth: Sleuth integrates with the OpenZipkin Brave tracer via the bridge that is available in the spring-cloud-sleuth-brave module. Since we are not using Zipkin for back end, we have to exclude spring-cloud-sleuth-brave from the spring-cloud-starter-sleuth dependency and instead add in the spring-cloud-sleuth-otel-autoconfigure dependency. This replaces the default tracing implementation based on Brave with the implementation based on OpenTelemetry.
  • opentelemetry-exporter-otlp-trace: this is the component in Spring Cloud Sleuth OTel that sends traces to an OpenTelemetry Collector.

Step 2: OpenTelemetry Configuration

OpenTelemetry Collector endpoint

For each microservice, we need to add the following configuration in application.yml(see sample snippet in the section below). spring.sleuth.otel.exporter.otlp.endpoint is mainly to configure the OTel Collector endpoint. It tells the exporter, Sleuth in our case, to send the tracing data via OTLP to the specified collector endpoint http://otel-collector:4317. Notice otel-collector in the endpoint URL comes from the docker-compose service for otel-collector image.

Tracing Data Probability Sampling

spring.sleuth.otel.config.trace-id-ratio-based property defines the tracing data sampling probability. It samples a fraction of traces based on the fraction given to the sampler. Probability sampling allows OpenTelemetry tracing users to lower span collection costs by the use of randomized sampling techniques. If the ratio is less than 1.0, some traces will not be exported. For this example, we will configure the sampling to be 1.0, 100%.

For additional OTel Spring Cloud Sleuth properties, see common application properties.

spring:
  application:
    name: customer-service
  sleuth:
    otel:
      config:
        trace-id-ratio-based: 1.0
      exporter:
        otlp:
          endpoint: http://otel-collector:4317

OpenTelemetry Configuration File

We need an OTel configuration file otel-config.yaml at the project root. The content is as follows. This configuration file defines the behaviors of the OTel receivers, processors, and exporters. As we can see, we defined our receivers to listen on gRPC and HTTP, processors using batch and exporters as jaeger and logging.

extensions:
  memory_ballast:
    size_mib: 512
  zpages:
    endpoint: 0.0.0.0:55679

receivers:
  otlp:
    protocols:
      grpc:
      http:

processors:
  batch:

exporters:
  logging:
    logLevel: debug
  jaeger:
    endpoint: jaeger-all-in-one:14250
    tls:
      insecure: true

service:
  pipelines:
    traces:
      receivers: [ otlp ]
      processors: [ batch ]
      exporters: [ logging, jaeger ]
  extensions: [ memory_ballast, zpages ]

Step 3: docker-compose to string all together

Let’s look at the docker containers we need to spin up in order to run these three microservices and observe their distributed tracing, the first three microservices are explained in the section above.

  • customer-service-bff
  • customer-service
  • order-service
  • postgres-customer: database for customer-service
  • postgres-order: database for order-service
  • jaeger-all-in-one: single image that runs all Jaeger backend components and UI
  • otel-collector: the engine of OpenTelemetry tracing, it receives, processes, and exports the tracing data to the backend
  • zookeeper: track the status of nodes in the Kafka cluster and maintain a list of Kafka topics and messages
  • kafka: pub/sub event streaming processing platform
services:

  customer-service-bff:
    image: customer-service-bff:0.0.1-SNAPSHOT
    ports:
      - "8080:8080"
    depends_on:
      - zookeeper
      - kafka

  customer-service:
    image: customer-service:0.0.1-SNAPSHOT
    ports:
      - "8081:8081"
    depends_on:
      - zookeeper
      - kafka
      - postgres-customer
    environment:
      - SPRING_DATASOURCE_JDBC-URL=jdbc:postgresql://postgres-customer:5432/customerservice
      - SPRING_DATASOURCE_USERNAME=postgres
      - SPRING_DATASOURCE_PASSWORD=postgres
      - SPRING_JPA_HIBERNATE_DDL_AUTO=update

  order-service:
    image: order-service:0.0.1-SNAPSHOT
    ports:
      - "8082:8082"
    depends_on:
      - zookeeper
      - kafka
      - postgres-order
    environment:
      - SPRING_DATASOURCE_JDBC-URL=jdbc:postgresql://postgres-order:5432/orderservice
      - SPRING_DATASOURCE_USERNAME=postgres
      - SPRING_DATASOURCE_PASSWORD=postgres
      - SPRING_JPA_HIBERNATE_DDL_AUTO=update

  postgres-customer:
    image: postgres
    ports:
      - "5432:5432"
    environment:
      - POSTGRES_PASSWORD=postgres
      - POSTGRES_USER=postgres
      - POSTGRES_DB=customerservice

  postgres-order:
    image: postgres
    ports:
      - "5431:5431"
    environment:
      - POSTGRES_PASSWORD=postgres
      - POSTGRES_USER=postgres
      - POSTGRES_DB=orderservice

  jaeger-all-in-one:
    image: jaegertracing/all-in-one:latest
    ports:
      - "16686:16686"
      - "14268"
      - "14250"

  otel-collector:
    image: otel/opentelemetry-collector:0.47.0
    command: [ "--config=/etc/otel-collector-config.yaml" ]
    volumes:
      - ./otel-config.yaml:/etc/otel-collector-config.yaml
    ports:
      - "1888:1888"   # pprof extension
      - "13133:13133" # health_check extension
      - "4317"        # OTLP gRPC receiver
      - "55670:55679" # zpages extension
    depends_on:
      - jaeger-all-in-one

  zookeeper:
    image: confluentinc/cp-zookeeper:latest
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_TICK_TIME: 2000
    ports:
      - 22181:2181

  kafka:
    image: confluentinc/cp-kafka:latest
    depends_on:
      - zookeeper
    ports:
      - 29092:29092
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092,PLAINTEXT_HOST://localhost:29092
      KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
      KAFKA_INTER_BROKER_LISTENER_NAME: PLAINTEXT
      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1

Run docker-compose up -d to bring up all nine containers:

Step 4: Tracing Data in Action

Happy path

Now, let’s launch our customer-service-bff, the entry point to the flow, to create a new customer.

Launch Jaeger UI, http://localhost:16686/, search by service customer-service-bff, click on Find Traces button, here is what we see for the create customer trace: it spanned three services, total spans six, duration 82.35ms.

In addition to the Trace Timeline view (screenshot above), Jaeger also provides a graph view (select Trace Graph in the top-right dropdown):

The log output in docker for three microservices shows the same trace id, highlighted in red, and differing span id according to their app name (application names and their corresponding span ids are highlighted in matching colors). In the case of customer-service, the same span id is passed from the REST API request to the Kafka publisher request.

Error scenario

Let’s pause our customer-service PostgreSQL database in docker, and repeat the create customer flow from customer-service-bff. We got 500 internal server error, as expected. Checking in Jaeger, we see the following trace, with the exception stacktrace complaining about SocketTimeoutException, again as expected.

Identifying long-running spans

Jaeger UI allows us to search for traces that are longer than a specified max duration. For example, we can search for all traces that have taken longer than 1000ms. We can then drill down into the long-running traces to investigate their root causes.

Summary

We unpacked distributed tracing in the lens of OpenTelemetry, Spring Cloud Sleuth, and Jaeger in this story, verifying the auto instrumentation of distributed tracing in both REST API calls and Kafka pub/sub. I hope this story gives you a better understanding of these tracing frameworks and tooling, especially OpenTelemetry, and how it fundamentally changes how we do Observability in distributed systems.

The source code for this story can be found in my GitHub repo.

Happy coding!

This story was originally published at https://betterprogramming.pub/distributed-tracing-with-opentelemetry-spring-cloud-sleuth-kafka-and-jaeger-939e35f45821

#jaeger #opentelemetry #spring #cloud #kafka 

OpenTelemetry、Spring Cloud Sleuth、Kafka、およびJaegerを使用した分散トレース

分散トレースは、特定のサービスが分散ソフトウェアシステム全体の一部としてどのように実行されているかについての洞察を提供します。発信元から宛先、および通過するシステムまでのリクエストを追跡および記録します。

この記事では、OpenTelemetry、Spring Cloud Sleuth、Kafka、およびJaegerを使用して、3つのSpringBootマイクロサービスに分散トレースを実装します。

まず、分散トレースの基本的な用語のいくつかを見てみましょう。

スパン:システム内の単一の作業単位を表します。スパンを相互にネストして、作業の分解をモデル化できます。たとえば、あるスパンがRESTエンドポイントを呼び出し、別の子スパンがそのエンドポイントが別のエンドポイントを呼び出すようにし、以下同様に別のサービスで行うことができます。

トレース:すべてが同じルートスパンを共有するスパンのコレクション、またはより単純に、元のリクエストの直接の結果として作成されたすべてのスパンを配置します。スパンの階層(それぞれがルートスパンに沿って独自の親スパンを持つ)を使用して、さまざまなコンポーネントを通過する際のリクエストのパスを示す有向非巡回グラフを作成できます。

OpenTelemetry

OpenTelemetryは、略してOTelとも呼ばれ、トレースメトリックログなどのテレメトリデータを計測、生成、収集、およびエクスポートするための、ベンダーに依存しないオープンソースの可観測性フレームワークです。Cloud Native Computing Foundation(CNCF)のインキュベーションプロジェクトとして、OTelは、主にデータを収集してどこかに転送するために、ベンダーに依存しないライブラリとAPIの統合セットを提供することを目指しています。OTelは、テレメトリデータを生成および管理するための世界標準になりつつあり、広く採用されています。

Spring Cloud Sleuth

Sleuthは、SpringBootアプリケーション内に分散トレース機能を統合することを目的としたSpringCloudチームによって管理および保守されているプロジェクトです。これは一般的なものとしてバンドルされているSpring Starterため、依存関係として追加するだけで、自動構成がアプリ全体のすべての統合とインストルメンテーションを処理します。すぐに使用できるSleuthインストゥルメントは次のとおりです。

  • Spring MVCコントローラー(RESTエンドポイント)で受信したリクエスト
  • KafkaやMQなどのメッセージングテクノロジーを介したリクエスト
  • RestTemplateWebClientなどで行われたリクエスト

Sleuthはインターセプターを追加して、すべてのトレース情報がリクエストで確実に渡されるようにします。呼び出しが行われるたびに、新しいスパンが作成されます。応答を受信すると閉じられます。

Sleuthはリクエストとメッセージを追跡できるため、その通信を対応するログエントリに関連付けることができます。トレース情報を外部システムにエクスポートして、遅延を視覚化することもできます。

イエーガー

Jaegerは元々Uberのチームによって構築され、2015年にオープンソースになりました。2017年にクラウドネイティブインキュベーションプロジェクトとして受け入れられ、2019年に卒業しました。CNCFの一部として、Jaegerはクラウドネイティブアーキテクチャで認められたプロジェクトです。そのソースコードは主にGoで書かれています。イエーガーのアーキテクチャには次のものが含まれます。

  • インストルメンテーションライブラリ
  • コレクター
  • クエリサービスとWebUI
  • データベースストレージ

Jaegerと同様に、Zipkinもそのアーキテクチャで同じコンポーネントのセットを提供します。Zipkinは古いプロジェクトですが、Jaegerはよりモダンでスケーラブルなデザインになっています。この例では、バックエンドとしてJaegerを選択しました。

トレースシステムの設計

3つのSpringBootマイクロサービスを設計しましょう。

  • customer-service-bffbackend for frontendパターンを使用して、このサービスはUIとバックエンドの間に配置されます。これはUIWebアプリによって呼び出され、UIWebアプリはRESTAPI呼び出しを介してバックエンドカスタマーサービスを呼び出します。
  • customer-service:シンプルなカスタマーCRUDサービス。CRUD操作時にデータベースにデータを保持するだけでなく、顧客レコードを作成、更新、または削除するときにイベントをKafkaに公開します。
  • order-service:Kafkaトピックをリッスンし、顧客が作成/更新/削除したイベントを消費します。

3つのマイクロサービスは次のように設計されています。

  • REST APIを介して通信する(customer-service-bffおよびcustomer-service
  • customer-serviceKafka(およびorder-service)を介したイベント駆動型のpub/subを介した通信

これは、OpenTelemetryとSpring Cloud Sleuthを組み合わせて、コードの自動インストルメンテーションを処理し、トレースデータを生成して送信する方法を観察するためのものです。上記の点線は、マイクロサービスによってエクスポートされたトレースデータのパスをキャプチャし、OTLP(OpenTelemetry Line Protocol)を介してOpenTelemetry Collectorに移動し、コレクターはトレースデータを処理してバックエンドJaegerにエクスポートし、保存してクエリを実行します。

モノレポを使用すると、次のようなプロジェクト構造になります。

ステップ1:POMの依存関係を追加する

これは、OTelとSpringCloudSleuthを使用して分散トレースを実装するための鍵です。私たちの目標は、コードを手動でインストルメントする必要がないため、これらの依存関係に依存して、設計されていることを実行します。実装のトレースに加えて、コードの自動インストルメンテーション、テレメトリデータのOTelコレクターへのエクスポートなどです。


<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-dependencies</artifactId>
            <version>${spring-cloud.version}</version>
            <type>pom</type>
            <scope>import</scope>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-sleuth-otel-dependencies</artifactId>
            <version>${spring-cloud-sleuth-otel.version}</version>
            <scope>import</scope>
            <type>pom</type>
        </dependency>
    </dependencies>
</dependencyManagement>

<dependencies>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-sleuth</artifactId>
        <exclusions>
            <exclusion>
                <groupId>org.springframework.cloud</groupId>
                <artifactId>spring-cloud-sleuth-brave</artifactId>
            </exclusion>
        </exclusions>
    </dependency>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-sleuth-otel-autoconfigure</artifactId>
    </dependency>
    <dependency>
        <groupId>io.opentelemetry</groupId>
        <artifactId>opentelemetry-exporter-otlp-trace</artifactId>
    </dependency>
</dependencies>
  • spring-cloud-dependencies:SpringCloudの依存関係
  • spring-cloud-sleuth-otel-dependencies:Spring CloudSleuthOpenTelemetryの依存関係
  • spring-cloud-starter-sleuth:Sleuthは、モジュールで使用可能なブリッジを介してOpenZipkinBraveトレーサーと統合されspring-cloud-sleuth-braveます。バックエンドにZipkinを使用していないため、依存関係から除外spring-cloud-sleuth-braveし、spring-cloud-starter-sleuth代わりに依存関係を追加する必要がありspring-cloud-sleuth-otel-autoconfigureます。これにより、 Braveに基づくデフォルトのトレース実装がOpenTelemetryに基づく実装に置き換えられます。
  • opentelemetry-exporter-otlp-trace:これは、OpenTelemetryCollectorにトレースを送信するSpringCloudSleuthOTelのコンポーネントです。

ステップ2:OpenTelemetryの構成

OpenTelemetryCollectorエンドポイント

マイクロサービスごとに、次の構成をに追加する必要がありますapplication.yml(以下のセクションのサンプルスニペットを参照)。spring.sleuth.otel.exporter.otlp.endpoint主にOTelCollectorエンドポイントを構成するためのものです。これは、エクスポーター(この場合はSleuth)に、OTLPを介して指定されたコレクターエンドポイントにトレースデータを送信するように指示しますhttp://otel-collector:4317。エンドポイントURLの通知otel-collectorは、画像のdocker-composeサービスからのotel-collectorものです。

データ確率サンプリングのトレース

spring.sleuth.otel.config.trace-id-ratio-basedプロパティは、トレースデータのサンプリング確率を定義します。サンプラーに与えられたフラクションに基づいて、トレースのフラクションをサンプリングします。確率サンプリングにより、OpenTelemetryトレースのユーザーは、ランダム化されたサンプリング手法を使用してスパン収集コストを削減できます。比率が1.0未満の場合、一部のトレースはエクスポートされません。この例では、サンプリングを1.0、100%に構成します。

その他のOTelSpringCloud Sleuthプロパティについては、一般的なアプリケーションプロパティを参照してください。

spring:
  application:
    name: customer-service
  sleuth:
    otel:
      config:
        trace-id-ratio-based: 1.0
      exporter:
        otlp:
          endpoint: http://otel-collector:4317

OpenTelemetry構成ファイル

otel-config.yamlプロジェクトルートにOTel構成ファイルが必要です。内容は以下の通りです。この構成ファイルは、OTelレシーバー、プロセッサー、およびエクスポーターの動作を定義します。ご覧のとおり、gRPCとHTTPでリッスンするようにレシーバーを定義し、バッチとエクスポーターをイェーガーとロギングとして使用するプロセッサーを定義しました。

extensions:
  memory_ballast:
    size_mib: 512
  zpages:
    endpoint: 0.0.0.0:55679

receivers:
  otlp:
    protocols:
      grpc:
      http:

processors:
  batch:

exporters:
  logging:
    logLevel: debug
  jaeger:
    endpoint: jaeger-all-in-one:14250
    tls:
      insecure: true

service:
  pipelines:
    traces:
      receivers: [ otlp ]
      processors: [ batch ]
      exporters: [ logging, jaeger ]
  extensions: [ memory_ballast, zpages ]

ステップ3:docker-すべて一緒に文字列を作成する

これらの3つのマイクロサービスを実行して分散トレースを観察するためにスピンアップする必要のあるDockerコンテナーを見てみましょう。最初の3つのマイクロサービスについては、上記のセクションで説明しています。

  • customer-service-bff
  • customer-service
  • order-service
  • postgres-customer:データベースcustomer-service
  • postgres-order:データベースorder-service
  • jaeger-all-in-one:すべてのJaegerバックエンドコンポーネントとUIを実行する単一のイメージ
  • otel-collector:OpenTelemetryトレースのエンジンであり、トレースデータを受信、処理、およびバックエンドにエクスポートします
  • zookeeper:Kafkaクラスター内のノードのステータスを追跡し、Kafkaトピックとメッセージのリストを維持します
  • kafka:pub/subイベントストリーミング処理プラットフォーム
services:

  customer-service-bff:
    image: customer-service-bff:0.0.1-SNAPSHOT
    ports:
      - "8080:8080"
    depends_on:
      - zookeeper
      - kafka

  customer-service:
    image: customer-service:0.0.1-SNAPSHOT
    ports:
      - "8081:8081"
    depends_on:
      - zookeeper
      - kafka
      - postgres-customer
    environment:
      - SPRING_DATASOURCE_JDBC-URL=jdbc:postgresql://postgres-customer:5432/customerservice
      - SPRING_DATASOURCE_USERNAME=postgres
      - SPRING_DATASOURCE_PASSWORD=postgres
      - SPRING_JPA_HIBERNATE_DDL_AUTO=update

  order-service:
    image: order-service:0.0.1-SNAPSHOT
    ports:
      - "8082:8082"
    depends_on:
      - zookeeper
      - kafka
      - postgres-order
    environment:
      - SPRING_DATASOURCE_JDBC-URL=jdbc:postgresql://postgres-order:5432/orderservice
      - SPRING_DATASOURCE_USERNAME=postgres
      - SPRING_DATASOURCE_PASSWORD=postgres
      - SPRING_JPA_HIBERNATE_DDL_AUTO=update

  postgres-customer:
    image: postgres
    ports:
      - "5432:5432"
    environment:
      - POSTGRES_PASSWORD=postgres
      - POSTGRES_USER=postgres
      - POSTGRES_DB=customerservice

  postgres-order:
    image: postgres
    ports:
      - "5431:5431"
    environment:
      - POSTGRES_PASSWORD=postgres
      - POSTGRES_USER=postgres
      - POSTGRES_DB=orderservice

  jaeger-all-in-one:
    image: jaegertracing/all-in-one:latest
    ports:
      - "16686:16686"
      - "14268"
      - "14250"

  otel-collector:
    image: otel/opentelemetry-collector:0.47.0
    command: [ "--config=/etc/otel-collector-config.yaml" ]
    volumes:
      - ./otel-config.yaml:/etc/otel-collector-config.yaml
    ports:
      - "1888:1888"   # pprof extension
      - "13133:13133" # health_check extension
      - "4317"        # OTLP gRPC receiver
      - "55670:55679" # zpages extension
    depends_on:
      - jaeger-all-in-one

  zookeeper:
    image: confluentinc/cp-zookeeper:latest
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_TICK_TIME: 2000
    ports:
      - 22181:2181

  kafka:
    image: confluentinc/cp-kafka:latest
    depends_on:
      - zookeeper
    ports:
      - 29092:29092
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092,PLAINTEXT_HOST://localhost:29092
      KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
      KAFKA_INTER_BROKER_LISTENER_NAME: PLAINTEXT
      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1

docker-compose up -d9つのコンテナすべてを起動するために実行します。

ステップ4:実際のデータのトレース

ハッピーパス

customer-service-bffそれでは、フローへのエントリポイントであるを起動して、新しい顧客を作成しましょう。

Jaeger UIを起動し、サービスhttp://localhost:16686/検索し、ボタンcustomer-service-bffをクリックしFind Tracesます。これが、顧客トレースの作成で表示されるものです。これは、3つのサービスにまたがり、合計で6にまたがり、期間は82.35ミリ秒です。

トレースタイムラインビュー(上のスクリーンショット)に加えて、イエーガーはグラフビュー(Trace Graph右上のドロップダウンで選択)も提供します。

3つのマイクロサービスのDockerのログ出力には、同じトレースIDが赤で強調表示され、アプリ名に応じてスパンIDが異なります(アプリケーション名と対応するスパンIDは一致する色で強調表示されます)。の場合customer-service、同じスパンIDがRESTAPIリクエストからKafkaパブリッシャーリクエストに渡されます。

エラーシナリオ

customer-serviceDockerでPostgreSQLデータベースを一時停止し、から顧客の作成フローを繰り返しますcustomer-service-bff500 internal server errorさすがに手に入れた。Jaegerをチェックインすると、次のトレースが表示されますが、例外のstacktraceがSocketTimeoutException、再び予想どおりに文句を言っています。

長期的なスパンの特定

Jaeger UIを使用すると、指定した最大期間よりも長いトレースを検索できます。たとえば、1000ミリ秒より長くかかったすべてのトレースを検索できます。次に、長時間実行されているトレースにドリルダウンして、それらの根本原因を調査できます。

概要

このストーリーでは、OpenTelemetry、Spring Cloud Sleuth、およびJaegerのレンズで分散トレースを解凍し、RESTAPI呼び出しとKafkapub/subの両方で分散トレースの自動インストルメンテーションを検証しました。このストーリーが、これらのトレースフレームワークとツール、特にOpenTelemetryについての理解を深め、分散システムでの可観測性の方法を根本的に変える方法を理解してくれることを願っています。

このストーリーのソースコードは、私のGitHubリポジトリにあります。

ハッピーコーディング!

このストーリーは、もともとhttps://betterprogramming.pub/distributed-tracing-with-opentelemetry-spring-cloud-sleuth-kafka-and-jaeger-939e35f45821で公開されました

#jaeger #opentelemetry #spring #cloud #kafka 

Seguimiento Distribuido Con OpenTelemetry, Spring Cloud Sleuth, Kafka

El seguimiento distribuido le brinda información sobre el rendimiento de un servicio en particular como parte del todo en un sistema de software distribuido. Realiza un seguimiento y registra las solicitudes desde su punto de origen hasta su destino y los sistemas por los que pasan.

En este artículo, implementaremos el rastreo distribuido en tres microservicios Spring Boot usando OpenTelemetry, Spring Cloud Sleuth, Kafka y Jaeger.

Primero echemos un vistazo a algunos de los términos básicos en el rastreo distribuido.

Span: Representa una sola unidad de trabajo dentro del sistema. Los tramos se pueden anidar unos dentro de otros para modelar la descomposición del trabajo. Por ejemplo, un tramo podría estar llamando a un extremo REST y otro tramo secundario podría ser ese extremo llamando a otro, y así sucesivamente en un servicio diferente.

Seguimiento: una colección de tramos que comparten el mismo tramo raíz o, más simplemente, poner todos los tramos que se crearon como resultado directo de la solicitud original. La jerarquía de tramos (cada uno con su propio tramo principal junto con el tramo raíz) se puede utilizar para formar gráficos acíclicos dirigidos que muestren la ruta de la solicitud a medida que avanza a través de varios componentes.

OpenTelemetry

OpenTelemetry , también conocido como OTel para abreviar, es un marco de observabilidad de código abierto independiente del proveedor para instrumentar, generar, recopilar y exportar datos de telemetría, como seguimientos , métricas y registros . Como proyecto de incubación de Cloud Native Computing Foundation (CNCF), OTel tiene como objetivo proporcionar conjuntos unificados de bibliotecas y API independientes del proveedor, principalmente para recopilar datos y transferirlos a algún lugar. OTel se está convirtiendo en el estándar mundial para generar y administrar datos de telemetría, y se está adoptando ampliamente.

Detective de nubes de primavera

Sleuth es un proyecto administrado y mantenido por el equipo de Spring Cloud destinado a integrar la funcionalidad de rastreo distribuido dentro de las aplicaciones Spring Boot. Se incluye como un paquete típico Spring Starter, por lo que con solo agregarlo como una dependencia, la configuración automática maneja toda la integración y la instrumentación en toda la aplicación. Aquí hay algunos instrumentos de Sleuth listos para usar:

  • solicitudes recibidas en los controladores Spring MVC (puntos finales REST)
  • solicitudes sobre tecnologías de mensajería como Kafka o MQ
  • solicitudes realizadas con RestTemplate, WebClient, etc.

Sleuth agrega un interceptor para garantizar que toda la información de rastreo se transmita en las solicitudes. Cada vez que se realiza una llamada, se crea un nuevo Span. Se cierra al recibir la respuesta.

Sleuth puede rastrear sus solicitudes y mensajes para que pueda correlacionar esa comunicación con las entradas de registro correspondientes. También puede exportar la información de seguimiento a un sistema externo para visualizar la latencia.

Jaeger

Jaeger fue creado originalmente por equipos de Uber y luego fue abierto en 2015. Fue aceptado como un proyecto de incubación nativo de la nube en 2017 y se graduó en 2019. Como parte de CNCF, Jaeger es un proyecto reconocido en arquitecturas nativas de la nube. Su código fuente está escrito principalmente en Go. La arquitectura de Jaeger incluye:

  • Bibliotecas de instrumentación
  • Coleccionistas
  • Servicio de consultas e interfaz de usuario web
  • Almacenamiento de base de datos

Similar a Jaeger, Zipkin también proporciona el mismo conjunto de componentes en su arquitectura. Aunque Zipkin es un proyecto más antiguo, Jaeger tiene un diseño más moderno y escalable. Para este ejemplo, hemos elegido a Jaeger como backend.

Diseño del sistema de rastreo

Diseñemos tres microservicios Spring Boot:

  • customer-service-bff: usando backend for frontendun patrón, este servicio se encuentra entre la interfaz de usuario y el backend. Lo llama una aplicación web de interfaz de usuario, que a su vez llama al servicio de atención al cliente de back-end a través de llamadas API REST.
  • customer-service: un simple servicio CRUD al cliente. Además de conservar los datos en su base de datos sobre las operaciones CRUD, también publica eventos en Kafka al crear, actualizar o eliminar un registro de cliente.
  • order-service: escucha el tema de Kafka, consume eventos creados/actualizados/eliminados por el cliente.

Los tres microservicios están diseñados para:

  • comunicarse a través de la API REST ( customer-service-bffy customer-service)
  • comunicarse a través de pub/sub basado en eventos a través de Kafka ( customer-servicey order-service)

Esto es para observar cómo OpenTelemetry combinado con Spring Cloud Sleuth maneja la instrumentación automática del código y genera y transmite los datos de seguimiento. Las líneas punteadas de arriba capturan la ruta de los datos de rastreo, exportados por los microservicios, viajan a OpenTelemetry Collector a través de OTLP (OpenTelemetry Line Protocol) y, a su vez, Collector procesa y exporta los datos de rastreo al backend Jaeger para almacenarlos y consultarlos.

Usando un monorepo, tenemos la estructura del proyecto de la siguiente manera:

Paso 1: agregar dependencias de POM

Esta es la clave para implementar el rastreo distribuido utilizando OTel y Spring Cloud Sleuth. Nuestro objetivo es no tener que instrumentar manualmente nuestro código, por lo que confiamos en estas dependencias para hacer aquello para lo que están diseñadas: instrumentar automáticamente nuestro código, además de rastrear la implementación, exportar datos de telemetría a OTel Collector, etc.


<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-dependencies</artifactId>
            <version>${spring-cloud.version}</version>
            <type>pom</type>
            <scope>import</scope>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-sleuth-otel-dependencies</artifactId>
            <version>${spring-cloud-sleuth-otel.version}</version>
            <scope>import</scope>
            <type>pom</type>
        </dependency>
    </dependencies>
</dependencyManagement>

<dependencies>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-sleuth</artifactId>
        <exclusions>
            <exclusion>
                <groupId>org.springframework.cloud</groupId>
                <artifactId>spring-cloud-sleuth-brave</artifactId>
            </exclusion>
        </exclusions>
    </dependency>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-sleuth-otel-autoconfigure</artifactId>
    </dependency>
    <dependency>
        <groupId>io.opentelemetry</groupId>
        <artifactId>opentelemetry-exporter-otlp-trace</artifactId>
    </dependency>
</dependencies>
  • spring-cloud-dependencies: Dependencias de Spring Cloud
  • spring-cloud-sleuth-otel-dependencies: Spring Cloud Sleuth Dependencias de OpenTelemetry
  • spring-cloud-starter-sleuth: Sleuth se integra con el rastreador OpenZipkin Brave a través del puente que está disponible en el spring-cloud-sleuth-bravemódulo. Como no estamos usando Zipkin para el back-end, tenemos que excluir spring-cloud-sleuth-bravede la spring-cloud-starter-sleuthdependencia y, en su lugar, agregar la spring-cloud-sleuth-otel-autoconfiguredependencia. Esto reemplaza la implementación de seguimiento predeterminada basada en Brave con la implementación basada en OpenTelemetry.
  • opentelemetry-exporter-otlp-trace: este es el componente en Spring Cloud Sleuth OTel que envía rastros a un OpenTelemetry Collector.

Paso 2: Configuración de OpenTelemetry

Extremo de OpenTelemetry Collector

Para cada microservicio, debemos agregar la siguiente configuración application.yml(consulte el fragmento de código de muestra en la sección a continuación). spring.sleuth.otel.exporter.otlp.endpointes principalmente para configurar el punto final de OTel Collector. Le dice al exportador, Sleuth en nuestro caso, que envíe los datos de seguimiento a través de OTLP al punto final del recopilador especificado http://otel-collector:4317. El aviso otel-collectoren la URL del punto final proviene del servicio docker-compose para la otel-collectorimagen.

Muestreo probabilístico de datos de rastreo

spring.sleuth.otel.config.trace-id-ratio-basedLa propiedad define la probabilidad de muestreo de los datos de rastreo. Muestrea una fracción de trazas en función de la fracción entregada al muestreador. El muestreo de probabilidad permite a los usuarios de seguimiento de OpenTelemetry reducir los costos de recopilación de tramos mediante el uso de técnicas de muestreo aleatorio. Si la proporción es inferior a 1,0, algunos rastros no se exportarán. Para este ejemplo, configuraremos el muestreo para que sea 1.0, 100%.

Para conocer las propiedades adicionales de OTel Spring Cloud Sleuth, consulte las propiedades comunes de la aplicación .

spring:
  application:
    name: customer-service
  sleuth:
    otel:
      config:
        trace-id-ratio-based: 1.0
      exporter:
        otlp:
          endpoint: http://otel-collector:4317

Archivo de configuración de OpenTelemetry

Necesitamos un archivo de configuración de OTel otel-config.yamlen la raíz del proyecto. El contenido es el siguiente. Este archivo de configuración define los comportamientos de los receptores, procesadores y exportadores de OTel. Como podemos ver, definimos nuestros receptores para escuchar en gRPC y HTTP, procesadores que usan lote y exportadores como jaeger y registro.

extensions:
  memory_ballast:
    size_mib: 512
  zpages:
    endpoint: 0.0.0.0:55679

receivers:
  otlp:
    protocols:
      grpc:
      http:

processors:
  batch:

exporters:
  logging:
    logLevel: debug
  jaeger:
    endpoint: jaeger-all-in-one:14250
    tls:
      insecure: true

service:
  pipelines:
    traces:
      receivers: [ otlp ]
      processors: [ batch ]
      exporters: [ logging, jaeger ]
  extensions: [ memory_ballast, zpages ]

Paso 3: docker-compose para unir todo

Veamos los contenedores docker que necesitamos activar para ejecutar estos tres microservicios y observemos su seguimiento distribuido, los primeros tres microservicios se explican en la sección anterior.

  • customer-service-bff
  • customer-service
  • order-service
  • postgres-customer: base de datos paracustomer-service
  • postgres-order: base de datos paraorder-service
  • jaeger-all-in-one: imagen única que ejecuta todos los componentes back-end y la interfaz de usuario de Jaeger
  • otel-collector: el motor de seguimiento de OpenTelemetry, recibe, procesa y exporta los datos de seguimiento al backend
  • zookeeper: realice un seguimiento del estado de los nodos en el clúster de Kafka y mantenga una lista de temas y mensajes de Kafka
  • kafka: plataforma de procesamiento de transmisión de eventos pub/sub
services:

  customer-service-bff:
    image: customer-service-bff:0.0.1-SNAPSHOT
    ports:
      - "8080:8080"
    depends_on:
      - zookeeper
      - kafka

  customer-service:
    image: customer-service:0.0.1-SNAPSHOT
    ports:
      - "8081:8081"
    depends_on:
      - zookeeper
      - kafka
      - postgres-customer
    environment:
      - SPRING_DATASOURCE_JDBC-URL=jdbc:postgresql://postgres-customer:5432/customerservice
      - SPRING_DATASOURCE_USERNAME=postgres
      - SPRING_DATASOURCE_PASSWORD=postgres
      - SPRING_JPA_HIBERNATE_DDL_AUTO=update

  order-service:
    image: order-service:0.0.1-SNAPSHOT
    ports:
      - "8082:8082"
    depends_on:
      - zookeeper
      - kafka
      - postgres-order
    environment:
      - SPRING_DATASOURCE_JDBC-URL=jdbc:postgresql://postgres-order:5432/orderservice
      - SPRING_DATASOURCE_USERNAME=postgres
      - SPRING_DATASOURCE_PASSWORD=postgres
      - SPRING_JPA_HIBERNATE_DDL_AUTO=update

  postgres-customer:
    image: postgres
    ports:
      - "5432:5432"
    environment:
      - POSTGRES_PASSWORD=postgres
      - POSTGRES_USER=postgres
      - POSTGRES_DB=customerservice

  postgres-order:
    image: postgres
    ports:
      - "5431:5431"
    environment:
      - POSTGRES_PASSWORD=postgres
      - POSTGRES_USER=postgres
      - POSTGRES_DB=orderservice

  jaeger-all-in-one:
    image: jaegertracing/all-in-one:latest
    ports:
      - "16686:16686"
      - "14268"
      - "14250"

  otel-collector:
    image: otel/opentelemetry-collector:0.47.0
    command: [ "--config=/etc/otel-collector-config.yaml" ]
    volumes:
      - ./otel-config.yaml:/etc/otel-collector-config.yaml
    ports:
      - "1888:1888"   # pprof extension
      - "13133:13133" # health_check extension
      - "4317"        # OTLP gRPC receiver
      - "55670:55679" # zpages extension
    depends_on:
      - jaeger-all-in-one

  zookeeper:
    image: confluentinc/cp-zookeeper:latest
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_TICK_TIME: 2000
    ports:
      - 22181:2181

  kafka:
    image: confluentinc/cp-kafka:latest
    depends_on:
      - zookeeper
    ports:
      - 29092:29092
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092,PLAINTEXT_HOST://localhost:29092
      KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
      KAFKA_INTER_BROKER_LISTENER_NAME: PLAINTEXT
      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1

Corre docker-compose up -dpara que aparezcan los nueve contenedores:

Paso 4: Seguimiento de datos en acción

camino feliz

Ahora, lancemos nuestro customer-service-bff, el punto de entrada al flujo, para crear un nuevo cliente.

Inicie la interfaz de usuario de Jaeger http://localhost:16686/, busque por servicio customer-service-bff, haga clic en el Find Tracesbotón, esto es lo que vemos para crear el seguimiento del cliente: abarcó tres servicios, un total de seis, una duración de 82,35 ms.

Además de la vista de línea de tiempo de seguimiento (captura de pantalla anterior), Jaeger también proporciona una vista de gráfico (seleccione Trace Graphen el menú desplegable superior derecho):

El resultado del registro en la ventana acoplable para tres microservicios muestra el mismo ID de seguimiento, resaltado en rojo, y un ID de tramo diferente según el nombre de la aplicación (los nombres de las aplicaciones y sus ID de tramo correspondientes se resaltan en colores coincidentes). En el caso de customer-service, se pasa el mismo ID de intervalo desde la solicitud de la API de REST a la solicitud del editor de Kafka.

Escenario de error

Hagamos una pausa en nuestra customer-servicebase de datos PostgreSQL en la ventana acoplable y repitamos el flujo de creación de clientes desde customer-service-bff. Lo conseguimos 500 internal server error, como era de esperar. Al verificar en Jaeger, vemos el siguiente seguimiento, con la excepción de stacktrace quejándose SocketTimeoutException, nuevamente como se esperaba.

Identificación de tramos de larga duración

La interfaz de usuario de Jaeger nos permite buscar rastros que superen la duración máxima especificada. Por ejemplo, podemos buscar todas las trazas que hayan tardado más de 1000 ms. Luego, podemos profundizar en los rastros de ejecución prolongada para investigar sus causas principales.

Resumen

Desempaquetamos el rastreo distribuido en la lente de OpenTelemetry, Spring Cloud Sleuth y Jaeger en esta historia, verificando la instrumentación automática del rastreo distribuido en las llamadas API REST y Kafka pub/sub. Espero que esta historia le brinde una mejor comprensión de estos marcos y herramientas de seguimiento, especialmente OpenTelemetry, y cómo cambia fundamentalmente la forma en que hacemos la Observabilidad en los sistemas distribuidos.

El código fuente de esta historia se puede encontrar en mi repositorio de GitHub .

¡Feliz codificación!

Esta historia se publicó originalmente en https://betterprogramming.pub/distributed-tracing-with-opentelemetry-spring-cloud-sleuth-kafka-and-jaeger-939e35f45821

#jaeger #opentelemetry #spring #cloud #kafka 

Norbert  Ernser

Norbert Ernser

1595353080

MicroProfile OpenTracing With Jaeger

In this short video I demonstrate how to use MicroProfile OpenTracing with Jaeger in combination with Payara Micro.

The MicroProfile OpenTracing specification defines behaviors and an API for accessing an OpenTracing compliant Tracer object within your JAX-RS application. The behaviors specify how incoming and outgoing requests will have OpenTracing Spans automatically created. The API defines how to explicitly disable or enable tracing for given endpoints.

Jaeger is a distributed tracing system released as open source by Uber Technologies (inspired by Dapper and OpenZipkin). Utilized for monitoring and troubleshooting microservices-based distributed systems, including: Distributed context propagation, Distributed transaction monitoring, Root cause analysis, Service dependency analysis, Performance/latency optimization.

#java #microservice #opentracing #jaeger #jaeger tracing