OpenTelemetry Collector в Kubernetes: setups, parsing, OTLP и Grafana dashboard

Здравейте! Аз съм, ентусиаст по DevOps и observability. Работя с Kubernetes от години и обичам да споделям знания, които помагат на екипи да подобрят системите си. Днес ще ви разкажа за OpenTelemetry Collector в Kubernetes. Тази статия е за всички – от стартъпи в София до аутсорсинг фирми в Пловдив. Ще ви покажа как да инсталирате, конфигурирате и визуализирате данни.

Ще научите как да инсталирате Collector, да конфигурирате OTLP, да събирате метрики и traces, и да визуализирате в Grafana. Това е evergreen съдържание – винаги актуално. Ако ви хареса, споделете опита си в коментарите!

Въведение в OpenTelemetry и неговата роля в Observability

OpenTelemetry е отворен стандарт за събиране на телеметрия. Той обработва метрики, логове и traces. Това помага на екипите да наблюдават приложенията си. В България, където стартъпи като Telerik растат бързо, observability е ключова. Без нея, грешки остават скрити.

OTEL Collector е инструментът, който събира данни. Той ги обработва и изпраща към backend като Prometheus или Grafana. В Kubernetes, Collector работи ефективно. Той добавя метаданни като pod име или namespace. Това улеснява анализа.

Защо е важен? В аутсорсинг фирми, екипите управляват десетки клъстери. Collector централизира данните. Той намалява overhead и подобрява сигурността. Според документацията на OpenTelemetry, Collector е vendor-agnostic. Той работи с всяка система.

Представете си български стартъп, който разработва fintech апликация. Те използват Kubernetes за скалиране. С Collector, виждат latency в реално време. Това спестява часове дебъгинг.

Инсталация на OpenTelemetry Collector в Kubernetes

Инсталацията е проста с Helm. Helm е package manager за Kubernetes. OpenTelemetry предлага официален chart.

Първо, добавете Helm repository. Изпълнете:

helm repo add open-telemetry https://open-telemetry.github.io/opentelemetry-helm-charts
helm repo update

След това, инсталирайте Collector. Използвайте команда:

helm install my-otel-collector open-telemetry/opentelemetry-collector --values values.yaml

Ето примерен values.yaml файл. Той конфигурира базов setup.

mode: deployment  # Или daemonset за agent mode

config:
  receivers:
    otlp:
      protocols:
        grpc:
          endpoint: "0.0.0.0:4317"
        http:
          endpoint: "0.0.0.0:4318"
  processors:
    batch: {}
  exporters:
    logging: {}  # За тестване
    prometheus:
      endpoint: "0.0.0.0:8889"
  service:
    pipelines:
      metrics:
        receivers: [otlp]
        processors: [batch]
        exporters: [prometheus]
      traces:
        receivers: [otlp]
        processors: [batch]
        exporters: [logging]  # Заменете с Jaeger или Zipkin

Този файл дефинира receivers за OTLP. Processors batch-ват данни. Exporters изпращат към Prometheus.

В Kubernetes, използвайте DaemonSet за agent mode. Той работи на всеки node. За gateway mode, Deployment е по-добър. Той централизира данни.

Пример от българския пазар: Аутсорсинг фирма в Варна управлява клиентски клъстери. Те инсталират Collector с Helm. Това автоматизира updates. Според best practices, мониторирайте ресурси. Задайте limits: cpu: 500m, memory: 512Mi.

Ако искате пълен пример, вижте GitHub repo: https://github.com/example-user/otel-k8s-example. Там има Helm chart и values.yaml. Клонирайте го и тествайте локално.

Конфигурация на OTLP в Collector

OTLP е OpenTelemetry Protocol. Той е стандартен за изпращане на данни. Конфигурира се в receivers секцията.

В config.yaml, добавете:

receivers:
  otlp:
    protocols:
      grpc:  # За бързи връзки
        endpoint: "${env:MY_POD_IP}:4317"
      http:  # За по-лесен достъп
        endpoint: "0.0.0.0:4318"

Това позволява на приложенията да изпращат данни по gRPC или HTTP. В Kubernetes, expose port-овете чрез Service.

За сигурност, добавете TLS. Използвайте certificates от cert-manager. Best practice: Избягвайте default endpoints. Променете ги.

В български стартъп, който разработва e-commerce платформа, OTLP помага да интегрират микросървиси. Те конфигурират auto-instrumentation с OpenTelemetry Operator. Той инжектира SDK в pods.

Ако имате проблеми, проверете logs на Collector. Използвайте kubectl logs.

Събиране и Parsing на Метрики, Traces и Logs

Collector събира три типа данни: metrics, traces, logs.

За metrics: Използвайте kubeletstats receiver. Той събира CPU, memory от pods.

Пример config:

receivers:
  kubeletstats:
    collection_interval: 10s
    auth_type: "serviceAccount"

За traces: OTLP receiver обработва spans. Добавете resource processor за Kubernetes metadata.

За logs: Filelog receiver чете от файлове. Parsing е ключов. Използвайте parse processor.

Пример за parsing на JSON logs:

processors:
  parse:
    log:
      parse_from: body
      parse_as: json

ова структурира logs. За container logs, използвайте CRI parser. Той разпознава формати автоматично.

В Kubernetes, добавете k8sattributes processor. Той добавя labels като k8s.pod.name.

Пример от местен екип: Българска фирма за софтуер аутсорсинг събира traces от API. Те парсват error logs. Това помага да откриват bottlenecks.

Best practice: Използвайте batch processor за ефективност. Той групира данни преди export.

Визуализация в Grafana

Grafana е идеална за dashboards. Конфигурирайте Collector да експортира към Prometheus. След това, добавете Prometheus datasource в Grafana.

За OTLP директно: Използвайте Grafana Cloud. Конфигурирайте exporter:

exporters:
  otlp:
    endpoint: "https://otlp.grafana.net:443"
    headers:
      Authorization: "Basic [your-token]"

В Grafana, създайте dashboard. Използвайте queries като rate(http_requests_total[5m]).

Ето описание на architecture diagram (Фигура 1): Кръгъл флоу – Apps изпращат данни към Collector в Kubernetes. Collector процесира и експортира към Prometheus. Grafana чете от Prometheus и показва графики.

За dashboard screenshot (Фигура 2): Панел с CPU usage, traces latency, error rate gauge. Цветове: Зелено за OK, червено за errors.

В български стартъп, Grafana помага да визуализират user traffic. Те виждат spikes по време на промоции.

TL;DR Checklist и Наблюдение на Latency и Error Rate

Ето бърз checklist:

Добавете Helm repo за OpenTelemetry.
Инсталирайте с helm install и values.yaml.
Конфигурирайте OTLP receivers.
Добавете processors за parsing.
Експортирайте към Grafana или Prometheus.
Мониторирайте ресурси.

За наблюдение на latency и error rate: В Grafana, създайте query за latency: histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le)). За error rate: sum(rate(http_requests_total{status=~“5..“}[5m])) / sum(rate(http_requests_total[5m])).

Това показва 95th percentile latency. Алармирай, ако error rate > 1%.

Примери от нашия пазар

В София, стартъп като Payhawk използва Collector за fintech. Те събират traces от payments. Parsing помага да откриват fraud.

В аутсорсинг, фирми като Musala Soft управляват клъстери за клиенти. Те конфигурират OTLP за multi-tenant setups.

Местни екипи в Бургас тестват с minikube. Те виждат как Collector намалява downtime.

Какъв е вашият опит? Използвате ли OpenTelemetry в проекти? Споделете в коментарите! Ако статията ви помогна, споделете я с колеги. Заедно строим общност.

Заключение

OpenTelemetry Collector трансформира observability в Kubernetes. С правилен setup, parsing и Grafana, екипите виждат всичко ясно. Това е evergreen – актуално години напред. Благодаря за четенето! Ако имате въпроси, питайте. Споделете вашите setups. Заедно правим по-добър софтуер в България.

Федя Серафиев

е DevOps технологичен ентусиаст с опит в Linux, Docker, Kubernetes и CI/CD. Той споделя практични ръководства и анализи, които помагат на специалистите да изграждат по-добри и ефективни системи. На devopsbg.net Федя предоставя актуални и полезни насоки за автоматизация, сигурност и оптимизация на инфраструктурата.