인터랙티브한 Queue monitoring dashboard를 사용하여 Launch queue가 과부하 상태인지 또는 유휴 상태인지 확인하고, 실행 중인 워크로드를 시각화하며, 비효율적인 작업을 찾아낼 수 있습니다. Launch queue 대시보드는 특히 컴퓨팅 하드웨어나 클라우드 리소스를 효과적으로 사용하고 있는지 판단하는 데 유용합니다. 더 심층적인 분석을 위해, 해당 페이지는 W&B 실험 추적 Workspace 및 Datadog, NVIDIA Base Command 또는 클라우드 콘솔과 같은 외부 인프라 모니터링 제공업체로 연결되는 링크를 제공합니다.Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-update-training-api-26.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
Queue monitoring dashboard는 현재 W&B Multi-tenant Cloud 배포 옵션에서만 사용할 수 있습니다.
대시보드 및 플롯
Monitor 탭을 사용하여 지난 7일 동안 발생한 queue의 활동을 확인할 수 있습니다. 왼쪽 패널을 사용하여 시간 범위, 그룹화 및 필터를 제어하세요. 대시보드에는 성능 및 효율성에 관한 자주 묻는 질문에 답할 수 있는 여러 플롯이 포함되어 있습니다. 다음 섹션에서는 queue 대시보드의 UI 요소를 설명합니다.Job status
Job status 플롯은 각 시간 간격 내에서 실행 중, 대기 중, 대기열에 추가됨(queued) 또는 완료된 작업의 수를 보여줍니다. Job status 플롯을 사용하여 queue의 유휴 기간을 파악하세요.
Queued 항목은 워크로드를 다른 queue로 옮길 기회를 나타낼 수 있습니다. 실패 건수의 급증은 Launch 작업 설정에 도움이 필요한 Users를 식별하는 데 도움이 됩니다.Queued time
Queued time 플롯은 특정 날짜 또는 시간 범위 동안 Launch 작업이 queue에서 대기한 시간(초 단위)을 보여줍니다.
Queued time 플롯을 사용하여 긴 대기 시간으로 인해 영향을 받는 Users를 파악하세요.
Grouping 컨트롤을 사용하여 각 작업의 색상을 맞춤 설정할 수 있습니다. 이는 어떤 Users와 작업이 부족한 queue 용량으로 인해 어려움을 겪고 있는지 식별하는 데 특히 유용합니다.
Job runs

CPU 및 GPU 사용량
GPU use by a job, CPU use by a job, GPU memory by job, System memory by job 플롯을 사용하여 Launch 작업의 효율성을 확인하세요.
Errors
Errors 패널은 특정 Launch queue에서 발생한 오류를 보여줍니다. 구체적으로는 오류 발생 타임스탬프, 오류가 발생한 Launch 작업의 이름, 생성된 오류 메시지를 표시합니다. 기본적으로 오류는 최신순으로 정렬됩니다.
외부 링크
Queue 관측성 대시보드의 뷰는 모든 queue 유형에 대해 일관되게 제공되지만, 많은 경우 환경별 모니터로 직접 이동하는 것이 유용할 수 있습니다. 이를 위해 queue 관측성 대시보드에서 직접 콘솔 링크를 추가할 수 있습니다. 페이지 하단에서Manage Links를 클릭하여 패널을 엽니다. 원하는 페이지의 전체 URL을 추가한 후 라벨을 입력하세요. 추가된 링크는 External Links 섹션에 표시됩니다.