현재 퍼블릭 프리뷰로 제공되는 Serverless RL은 개발자가 LLM을 사후 트레이닝(post-train)하여 새로운 행동을 학습시키고, 멀티 턴 에이전트 태스크를 수행할 때의 신뢰성, 속도 및 비용을 개선할 수 있도록 돕습니다. W&B는 사용자 환경 설정의 유연성을 완벽하게 보장하면서 트레이닝 인프라(CoreWeave 기반)를 직접 제공합니다. Serverless RL을 통해 수십 개의 GPU로 탄력적으로 자동 확장되는 관리형 트레이닝 클러스터에 즉시 엑세스할 수 있습니다. RL 워크플로우를 추론과 트레이닝 단계로 분리하고 이를 여러 작업에 걸쳐 멀티플렉싱함으로써, Serverless RL은 GPU 활용도를 높이고 트레이닝 시간과 비용을 줄여줍니다. Serverless RL은 다음과 같은 태스크에 이상적입니다:Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-update-training-api-26.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- 음성 에이전트
- 심층 연구(research) 어시스턴트
- 온프레미스(on-prem) 모델
- 콘텐츠 마케팅 분석(analysis) 에이전트
왜 Serverless RL인가요?
강화학습(RL)은 직접 소유하거나 대여한 GPU를 포함하여 다양한 트레이닝 설정에서 사용할 수 있는 강력한 트레이닝 기법 모음입니다. Serverless RL은 RL 사후 트레이닝에서 다음과 같은 장점을 제공합니다:- 트레이닝 비용 절감: 여러 사용자 간에 공유 인프라를 멀티플렉싱하고, 각 작업에 대한 설정 프로세스를 생략하며, 트레이닝을 하지 않을 때는 GPU 비용을 0으로 줄임으로써 Serverless RL은 트레이닝 비용을 획기적으로 낮춥니다.
- 더 빠른 트레이닝 시간: 추론 요청을 여러 GPU에 분산하고 필요할 때 트레이닝 인프라를 즉시 프로비저닝함으로써, Serverless RL은 트레이닝 작업 속도를 높이고 더 빠른 반복(iterate)을 가능하게 합니다.
- 자동 배포: Serverless RL은 트레이닝된 모든 체크포인트를 자동으로 배포하므로 호스팅 인프라를 수동으로 설정할 필요가 없습니다. 트레이닝된 모델은 로컬, 스테이징 또는 프로덕션 환경에서 즉시 엑세스하고 테스트할 수 있습니다.
Serverless RL의 W&B 서비스 활용 방식
Serverless RL은 운영을 위해 다음과 같은 W&B 구성 요소들을 조합하여 사용합니다:- Inference: 모델 실행
- Models: LoRA 어댑터 트레이닝 중 성능 메트릭(metrics) 추적
- Artifacts: LoRA 어댑터 저장 및 버전 관리
- Weave (선택 사항): 트레이닝 루프의 각 단계에서 모델이 어떻게 응답하는지에 대한 관찰 가능성(observability) 확보