Over the limit
[Datadog] What is Datadog? 본문

온프레미스(구축형) 및 클라우드, 하이브리드 등 기업 IT 환경에 맞게 인프라, 애플리케이션, 로그, 네트워크 및 보안, 서버리스 등을 아우르는 통합하는 모니터링 서비스이다. 하단 설명을 통해 기능을 알아보자.
통합

HTTP REST API 인 Datadog API를 사용해서 통합 가능하다.
공식 지원 대상은 750개 정도 되고, 통합 설정 후 모든 데이터가 Datadog에서 동일하게 처리된다.
대시보드

- 실시간 성능 메트릭이 포함된 그래프를 보여준다.
- 그래프 스냅샷을 공유할 수 있고, 그래프는 iframe에 삽입 가능
+)보드 관련 추가 정보
대시보드
이미지, 그래프, 로그 등 다양한 개체를 포함할 수 있는 그리드 기반 레이아웃입니다. 실시간으로 업데이트되고 과거의 고정 지점을 나타낼 수 있는 상태 보드 또는 스토리텔링 뷰로 사용됩니다. 최대 너비는 12개의 그리드 사각형이며 디버깅에도 적합합니다.
타임보드
전체 대시보드에서 단일 시점(고정 또는 실시간)을 나타내는 자동 레이아웃입니다. 일반적으로 문제 해결, 상관 관계 및 일반 데이터 탐색에 사용됩니다.
스크린보드
이미지, 그래프, 로그 등 다양한 개체를 포함할 수 있는 자유 형식 레이아웃을 갖춘 대시보드입니다. 실시간으로 업데이트되거나 과거의 고정 지점을 나타내는 상태 보드 또는 스토리텔링 뷰로 사용됩니다.
모니터
- 메트릭 기준치, 통합 가용성, 엔드포인트 등에 따라 경고와 알림을 표시한다.
- 중요한 변경 사항이 발생한 시점을 알 수 있도록 모니터를 통해 모니터링 한다.

- 모니터 알림을 통해 문제 발생시 쉽게 확인이 가능하며, slack 알림을 발생할 때 스냅샷 첨부도 가능해서 유용한 활용이 가능하다.

- 태그 정책을 통해 Datadog 모니터링의 태그 및 태그 값에 대한 데이터 유효성 검사도 가능하다.
이벤트
- 코드 배포 + 서비스 상태 변경 + Configuration 변경 + 모니터 알람 을 포함한다.
- 인프라와 서비스에서 최근 생성된 이벤트들을 확인할 수 있다.
- Datadog API, Events email API를 통해 커스텀 이벤트 전송도 가능하다.
인프라 스트럭쳐

-모든 머신은 이곳에 표시된다.
- 이곳에는 호스트, 컨테이너 및 프로세스의 성능을 시각화하는 Datadog의 핵심 기능이 포함되어 있
- 설치는 docker agent 배포로 이루어진다.

- 탐색하려는 호스트나 컨테이너를 확대하여 상세 정보 확인이 가능하며, 원하는 메트릭을 확인하면 된다.
- 가시적으로 보이는 특유의 기능 덕분에 리소스 최적화에 큰 도움이 된다. 이후 가용 영역을 적재적소에 배치하여 인프라 활용도를 높일 수 있다.
호스트 맵

- 인프라 스트럭쳐 메뉴에서 찾을 수 있는 기능이며, 아래와 같은 기능 지
- 빠르게 환경을 시각화
- 아웃라이어(outlier) 식별
- 사용 패턴 탐지
- 리소스 최적화
서버리스
- 서버리스 컴퓨팅의 실시간 메트릭, 로그, 트레이스는 물론 완전 관리형 API, 대기열, 스트림, 데이터 저장소를 통합하여 서버리스 애플리케이션을 구동하는 모든 관리형 서비스에 대한 완벽한 가시성을 제공한다.
- AWS Lambda 서버리스 모니터링을 통해 문제를 빠르게 발견하고 조사가 가능하다. 이외에도, Azure 앱 서비스, Google Cloud Run을 통한 통합 등도 가능함.
APM & Continuous Profiler
- 성능 모니터링을 통해 요청량 및 지연 시간 등 주요 메트릭을 모니터링 한다. -> 어떤 일이 일어나는지 데이터를 정확히 표
- 성능 병목 현상 식별, 문제 트러블 슈팅, 서비스 최적화에 도움이 된다.
- APM은 트레이스 데이터의 양과 보존 기간을 관리할 수 있는 도구를 제공하여, 수집한 샘플의 저장 기간도 제어가 가
사용 사례)
- Trace Explorer
트레이스 탐색기를 사용하면 트레이스를 실시간으로 검색 및 분석할 수 있습니다. 성능 병목 현상을 파악하고, 오류를 트러블슈팅하고, 관련 로그 및 메트릭에 활용하여 모든 문제에 대한 전체 컨텍스트를 파악할 수 있습니다.

- 서비스 페이지

네트워크 성능 모니터링

- Network Performance Monitoring(NPM)을 통해 네트워크 트래픽 시각화가 가능하다.
- 그룹화는 데이터센터, 팀, 컨테이너 등 다양하게 가능
- 각 플로우에는 처리량, 대역폭, 포트와 같은 네트워크 메트릭이 포함된다.
합성 모니터링
- 애플리케이션과 모니터링 시스템 계층의 모든 사용자 트랜잭션을 선제적으로 시뮬레이션하는 테스트를 생성 및 실행 가능
- 오류를 감지하고, 회귀를 식별하고, 롤백을 자동화하여 프로덕션 환경에서 문제가 발생하는 것을 방지할 수 있습니다
RUM & 세션 재생
- Real User Monitoring 을 사용하여 개별 사용자의 실시간 활동과 경험을 시각화하고 분석할 수 있다.

- Session play를 통해 사용자의 웹 브라우징 세션을 포착하고 확인하여 사용자 행동을 더 상세하게 파악할 수 있다.
- 이러한 기능들을 통해 프론트 오류, 로드 시간, 의존 관계를 시각화하여 비즈니스 및 어플리케이션 메트릭을 연계하고 신속하게 문제를 해결할 수 있다.
클라우드 SIEM
- 자동으로 애플리케이션과 인프라스트럭쳐의 위험 요소를 감지한다.
- 표적 공격, 시스템과 통신하는 위협 정보 목록 IP 또는 안전하지 않은 설정과 같은 위협을 실시간으로 애플리케이션 및 인프라스트럭처에서 탐지하고 이메일, Slack, Jira, PagerDuty 또는 웹훅을 통해 팀에 알린다.
로그 관리
- Datadog 로그 관리를 사용하면 애플리케이션과 인프라스트럭처를 통해 생성된 모든 로그를 전송하고 처리할 수 있습니다. 인덱스를 생성하지 않고 라이브 테일(Live Tail)을 사용하여 실시간 로그 관찰이 가능하다.
참고 자료)
https://docs.datadoghq.com/ko/monitors/
'Devops > Datadog' 카테고리의 다른 글
| [Datadog] Introduction to Real User Monitoring (RUM) (0) | 2024.07.06 |
|---|---|
| [Datadog] Logs 트러블 슈팅 (1) | 2024.07.06 |
| [Datadog] 로그 관리 시작하기 (0) | 2024.07.06 |
| [Datadog] Datadog Agent 기본 사용법 (0) | 2024.07.06 |
| [Datadog] Datadog Quickstart 실습 (0) | 2024.07.05 |