NVIDIA DCGM 통합은 GPU 상태를 모니터링하는 데 도움이 됩니다. 이 통합은 NVIDIA의 SMI 유틸리티와 원활하게 통합되는 인프라 에이전트와 Prometheus 원격 쓰기 통합을 활용합니다. GPU 활용도, XID 오류 수, 클럭 및 성능 상태, 온도, 전력 사용량 등 중요한 DCGM 지표가 포함된 사전 구축된 대시보드를 제공합니다.
NVIDIA DCGM 통합을 설정하면 DCGM 지표에 대한 대시보드가 제공됩니다.
인프라 에이전트 설치
New Relic에 데이터를 가져오려면 인프라 에이전트를 설치하세요. 당사의 인프라 에이전트는 귀하가 DCGM 성과를 추적할 수 있도록 데이터를 수집하고 수집합니다.
두 가지 방법으로 인프라 에이전트를 설치할 수 있습니다.
- 가이드 설치 는 시스템을 검사하고 시스템에 가장 적합한 애플리케이션 모니터링 에이전트와 함께 인프라 에이전트를 설치하는 CLI 도구입니다. 가이드 설치 작동 방식에 대해 자세히 알아보려면 가이드 설치 개요 를 확인하세요.
- 인프라 에이전트를 수동으로 설치하려는 경우 Linux, Windows 용 수동 설치 자습서를 따를 수 있습니다.
DCGM 내보내기 구성
터미널에서
dcgm-exporter
저장소를 복제합니다.bash$git clone https://github.com/NVIDIA/dcgm-exporter복제된 저장소에서
dcgm-exporter
디렉터리로 이동합니다.bash$cd dcgm-exporter필요한 바이너리를 설치합니다:
bash$make binarybash$sudo make installdcgm-exporter
을 시작합니다.bash$dcgm-exporter &DCGM 측정항목의 세부정보를 확인하세요.
bash$curl localhost:9400/metrics
Prometheus의 NVIDIA-DCGM 구성
Prometheus는 NVIDIA-DCGM 내보내기를 사용하여 NVIDIA GPU를 모니터링하는 데 사용할 수 있는 오픈 소스 모니터링 및 경고 도구입니다. DCGM 측정항목을 모니터링하도록 Prometheus를 구성하려면 다음 단계를 따르세요.
최신 릴리스를 찾으려면 Prometheus 다운로드 페이지를 방문하세요.
운영 체제 및 아키텍처에 적합한 버전을 선택하십시오. Linux의 경우 linux-amd64 버전을 선택할 가능성이 높습니다. tarball(
.tar.gz
파일)에 대한 다운로드 링크를 복사합니다.Prometheus가 다운로드되면 다운로드 tar 파일의 압축을 풉니다.
bash$tar -xvzf <filename.tar.gz>다운로드한 Prometheus 폴더로 이동합니다.
bash$cd /DOWNLOADED-FOLDER/prometheus.yml
파일을 열고 다음 줄을 추가합니다.---scrape_configs:- job_name: NVIDIstatic_configs:- targets:['localhost:9400']프로메테우스를 시작하세요:
bash$./prometheus --config.file=prometheus.yml
NVIDIA-DCGM용 Prometheus 원격 쓰기 에이전트 설치
Prometheus 구성을 설정한 후 NVIDIA DCGM 지표를 Prometheus로 보내야 합니다. 나중에 Prometheus 측정항목을 New Relic과 통합하기 위해 Prometheus 원격 쓰기 에이전트를 활용할 수 있습니다. UI에서 Prometheus 원격 쓰기 설정 실행 프로그램을 따르기만 하면 됩니다.
New Relic 인프라 에이전트 다시 시작
데이터 읽기를 시작하기 전에 인프라 에이전트 문서 의 지침을 사용하여 인프라 에이전트를 다시 시작하십시오.
$sudo systemctl restart newrelic-infra.service
New Relic에서 DCGM 측정항목 보기
위의 설정을 완료하면 nvidia-dcgm이라는 사전 구축된 대시보드 템플릿을 사용하여 측정항목을 볼 수 있습니다. 이 대시보드에 액세스하려면:
one.newrelic.com > + Integrations & Agents
으)로 이동합니다.
Dashboards
탭을 클릭합니다.
검색창에 "nvidia-dcgm"을 입력하세요.
이를 선택하고
Install
클릭합니다.
nvidia-dcgm
퀵스타트를 다운로드하고 지표 및 알림을 보려면 지금 설치 버튼을 클릭하여 Nvidia-DCGM 퀵스타트 페이지를 팔로우할 수도 있습니다.
다음은 몇 가지 예시 쿼리입니다.
Example: 장치 GPU 온도 수 보기
SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES
다음은 뭐지?
NRQL 쿼리 작성 및 대시보드 생성에 대해 자세히 알아보려면 다음 문서를 확인하세요.
기본 및 고급 쿼리를 생성 하기 위한 쿼리 빌더 소개
디스플레이 모드를 조정하거나 대시보드에 더 많은 콘텐츠를 추가하세요.