New Relic의 통합에는 Microsoft Azure Machine Learning 지표 및 기타 데이터를 New Relic에 보고하기 위한 통합이 포함됩니다. 이 문서에서는 통합을 활성화하는 방법과 보고되는 데이터에 대해 설명합니다.
특징
New Relic은 Azure Machine Learning 서비스에 대해 Azure Monitor에서 메트릭 데이터를 수집합니다. Azure Machine Learning은 기계 학습 프로젝트 수명 주기를 가속화하고 관리하기 위한 클라우드 서비스입니다. 기계 학습 전문가, 데이터 과학자 및 엔지니어는 일상적인 워크플로에서 이를 사용하여 모델을 교육 및 배포하거나 MLOps를 관리할 수 있습니다.
New Relic을 사용하여 다음을 수행할 수 있습니다.
- 미리 작성된 대시보드에서 Azure Machine Learning 메트릭을 확인하세요.
- 맞춤 쿼리를 실행하고 데이터를 시각화합니다 .
- 데이터 변경 사항을 알리는 경고 조건을 만듭니다.
통합 활성화
표준 Azure Monitor 통합 절차 에 따라 New Relic 인프라 모니터링에서 Azure 서비스를 활성화하십시오.
구성 및 폴링
구성 옵션을사용하여 폴링 빈도를 변경하고 데이터를 필터링할 수 있습니다.
New Relic은 기본 폴링 간격에 따라 Azure Monitor 통합을 통해 Azure Machine Learning 서비스를 쿼리합니다.
데이터 찾기 및 사용
통합 데이터를 탐색 하려면 one.newrelic.com/infra > Azure > (select an integration) 로 이동하세요.
측정항목 데이터
이 통합은 다음 메트릭 데이터를수집합니다.
Azure Machine Learning 메트릭
작업공간
다음 표에는 Microsoft.MachineLearningServices/workspaces
리소스 유형에 사용할 수 있는 측정항목이 나열되어 있습니다.
미터법 | 설명 |
---|---|
| 활성 코어 수 |
| 활성 노드 수. 이는 작업을 적극적으로 실행하는 노드입니다. |
| 이 작업 영역에 대해 취소가 요청된 실행 수입니다. |
| 이 작업 영역에 대해 취소된 실행 수입니다. |
| 이 작업 영역에 대해 성공적으로 완료된 실행 수입니다. |
| CPU 노드의 최대 용량(밀리코어)입니다. |
| CPU 노드의 최대 메모리 사용률(MB)입니다. |
| CPU 노드의 메모리 사용량(MB)입니다. |
| CPU 노드의 메모리 사용률입니다. |
| CPU 노드의 활용률 |
| 밀리코어 단위의 CPU 노드 활용률 |
| CPU 노드의 사용률입니다. |
| 사용 가능한 디스크 공간(MB)입니다. |
| 디스크에서 읽은 데이터(MB) |
| 사용된 디스크 공간(MB) |
| 디스크에 기록된 데이터(MB) |
| 이 작업공간의 실행 오류 수 |
| 이 작업 공간에서 실패한 실행 횟수 |
| 디스크에서 읽은 데이터(MB) |
| 밀리 GPU 단위의 GPU 장치 최대 용량 |
| GPU 노드의 간격 에너지(줄) |
| GPU 장치의 최대 메모리 용량(MB)입니다. |
| GPU 노드의 메모리 사용률입니다. |
| GPU 장치의 메모리 사용률(MB) |
| GPU 장치의 메모리 사용률 |
| GPU 노드의 활용률 |
| milli-GPU에서 GPU 장치 활용 |
| GPU 장치의 활용률 |
| InfiniBand를 통해 수신된 네트워크 데이터(MB) |
| InfiniBand를 통해 전송된 네트워크 데이터(MB) |
| 유휴 코어 수 |
| 유휴 노드 수 |
| 이탈 코어 수 |
| 떠나는 노드 수 |
| 이 작업 공간에서 실패한 모델 배포 수 |
| 이 작업 공간에서 시작된 모델 배포 수 |
| 이 작업 공간에서 성공한 모델 배포 수 |
| 이 작업 공간에서 실패한 모델 등록 수 |
| 이 작업 공간에서 성공한 모델 등록 수 |
| 메가바이트 단위로 수신된 네트워크 데이터입니다. 측정항목은 1분 간격으로 집계됩니다. |
| 전송된 네트워크 데이터(MB)입니다. 측정항목은 1분 간격으로 집계됩니다. |
| 이 작업 영역에 대해 응답하지 않는 실행 수입니다. |
| 이 작업 영역에 대해 시작되지 않음 상태의 실행 수 |
| 선점된 코어 수 |
| 선점된 노드 수 |
| 이 작업 영역을 준비 중인 실행 수입니다. |
| 이 작업 영역에 대해 프로비저닝 중인 실행 수입니다. |
| 이 작업 영역에 대해 대기 중인 실행 수 |
| 사용된 할당량 비율 |
| 이 작업 영역에 대해 실행 중인 실행 수 |
| 이 작업 공간에 대해 시작된 실행 수 |
| Azure Blob Storage API 호출 실패 횟수입니다. |
| Azure Blob Storage API 호출 성공 횟수입니다. |
| 총 코어 수 |
| 총 노드 수 |
| 사용할 수 없는 코어 수 |
| 사용할 수 없는 노드 수 |
| 이 작업 영역의 실행 경고 수 |
다음 표에는 Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments
리소스 유형에 사용할 수 있는 측정항목이 나열되어 있습니다.
미터법 | 설명 |
---|---|
| 인스턴스의 메모리 사용률(%) |
| 인스턴스의 CPU 사용률(%) |
| 분당 삭제된 데이터 수집 이벤트 수 |
| 분당 처리된 데이터 수집 이벤트 수입니다. |
| 배포의 인스턴스 수 |
| 인스턴스의 디스크 사용률 비율 |
| GPU 노드의 간격 에너지(줄) |
| 인스턴스의 GPU 메모리 사용률(%) |
| 인스턴스의 GPU 사용률입니다. |
| 평균 P50 요청 대기 시간 |
| 평균 P90 요청 대기 시간 |
| 평균 P95 요청 대기 시간 |
| 평균 P99 요청 대기 시간 |
| 1분 이내에 온라인 배포로 전송된 요청 수 |
다음 표에는 Microsoft.MachineLearningServices/workspaces/onlineEndpoints
리소스 유형에 사용할 수 있는 측정항목이 나열되어 있습니다.
미터법 | 설명 |
---|---|
| 클라이언트에서 활성화된 동시 TCP 연결의 총 수 |
| 분당 삭제된 데이터 수집 이벤트 수 |
| 분당 처리되는 데이터 수집 이벤트 수 |
| 엔드포인트에 제공되는 초당 바이트 수 |
| 클라이언트에서 설정된 초당 평균 새 TCP 연결 수 |
| 요청이 응답되는 데 걸리는 평균 전체 시간 간격(밀리초) |
| 선택한 기간 동안 수집된 모든 요청 대기 시간 값으로 집계된 평균 P50 요청 대기 시간 |
| 선택한 기간 동안 수집된 모든 요청 대기 시간 값으로 집계된 평균 P90 요청 대기 시간 |
| 선택한 기간 동안 수집된 모든 요청 대기 시간 값으로 집계된 평균 P95 요청 대기 시간 |
| 선택한 기간 동안 수집된 모든 요청 대기 시간 값으로 집계된 평균 P99 요청 대기 시간 |
| 1분 이내에 온라인 엔드포인트로 전송된 요청 수 |