W&B의 모델 Artifacts 를 NVIDIA NeMo Inference Microservice로 배포하세요. 이를 위해 W&B Launch 를 사용합니다. W&B Launch 는 모델 Artifacts 를 NVIDIA NeMo 모델로 변환하고 실행 중인 NIM/Triton 서버 에 배포합니다. W&B Launch 는 현재 다음과 같은 호환 모델 타입을 지원합니다:Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-update-training-api-26.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
배포 시간은 모델 및 머신 유형에 따라 다릅니다. 기본 Llama2-7b 설정은 Google Cloud의
a2-ultragpu-1g에서 약 1분 정도 소요됩니다.퀵스타트
-
아직 생성하지 않았다면 Launch queue를 생성하세요. 아래의 예시 큐 설정을 참고하십시오.

-
프로젝트 에 다음 job을 생성합니다:
-
GPU 머신에서 에이전트 를 실행합니다:
-
Launch UI에서 원하는 설정을 입력하여 배포 Launch job을 제출합니다.
- CLI를 통해서도 제출할 수 있습니다:

- CLI를 통해서도 제출할 수 있습니다:
-
Launch UI에서 배포 프로세스 를 추적할 수 있습니다.

-
완료되면 즉시 엔드포인트에 curl을 보내 모델 을 테스트할 수 있습니다. 모델 이름은 항상
ensemble입니다.