시작하기. 무료입니다
또는 회원 가입 e메일 주소
Monitoring Systems 저자: Mind Map: Monitoring Systems

1. Introduction

1.1. Tầm quan trọng của monitoring

1.2. Đảm bảo hiệu năng, độ ổn định, phản hồi nhanh sự cố

1.3. Đặc biệt quan trọng với hệ thống phân tán, microservices

2. Pillars of Observability

2.1. Logs

2.1.1. Ghi sự kiện theo thời gian

2.1.2. Hữu ích cho debug, audit

2.1.3. Công cụ: ELK, Loki, Fluentd

2.2. Metrics

2.2.1. Time-series data (CPU, RPS, latency)

2.2.2. Phân tích hiệu suất

2.2.3. Công cụ: Prometheus, Grafana, Datadog

2.3. Traces

2.3.1. Theo dõi hành trình của request qua các services

2.3.2. Tìm bottleneck, root cause

2.3.3. Công cụ: OpenTelemetry, Jaeger, Zipkin

3. Hệ sinh thái công cụ

3.1. Logging

3.1.1. Elasticsearch

3.1.2. Logstash

3.1.3. Kibana

3.1.4. Loki

3.2. Metrics

3.2.1. Prometheus

3.2.2. Grafana

3.2.3. Datadog

3.2.4. CloudWatch Metrics

3.3. Tracing

3.3.1. AWS X-Ray

3.3.2. OpenTelemetry SDK

3.3.3. Jaeger

3.4. Alerting

3.4.1. Alertmanager

3.4.2. SNS, Slack, Email

4. Kiến trúc hệ thống monitoring

4.1. Agents/exporters tại ứng dụng

4.2. Collector/Aggregator (Prometheus, Fluentd…)

4.3. Storage (TSDB, Elasticsearch…)

4.4. Visualization (Grafana, Kibana…

4.5. Alerting + Notification

5. Best Practices

5.1. Sử dụng structured logs (JSON)

5.2. Gắn trace_id, request_id toàn hệ thống

5.3. Thiết lập cảnh báo meaningful (tránh spam)

5.4. Giới hạn lượng data log thu thập

5.5. Đảm bảo E2E observability

6. AWS-based Implementation

6.1. Logs → CloudWatch Logs

6.2. Metrics → CloudWatch Metrics, Prometheus

6.3. Tracing → AWS X-Ray

6.4. Visualization → Grafana + CloudWatch

6.5. Alerting → CloudWatch Alarms + SNS

6.6. Tích hợp với ECS, EKS, Lambda

7. Tài liệu tham khảo

7.1. Google SRE Book - Monitoring Distributed Systems

7.2. What is Observability - Grafana Labs

7.3. Elastic Stack (ELK) Documentation

7.4. OpenTelemetry Docs

7.5. Jaeger Docs