Verifiers は、強化学習(RL)環境の構築と LLM エージェントのトレーニングのためのモジュール式コンポーネントライブラリです。Verifiers で構築された環境は、LLM の評価、合成データパイプライン、あらゆる OpenAI 互換エンドポイントのエージェントハーネス、および RL トレーニングとして機能します。 W&B を使用してトレーニングメトリクスを記録するだけでなく、Weave を Verifiers の RL ワークフローに統合することで、トレーニング中のモデルのパフォーマンスに関するオブザーバビリティ(可観測性)を得ることができます。Weave は各ステップの入力、出力、タイムスタンプを記録するため、各ターンでデータがどのように変換されるかを確認したり、複雑なマルチラウンドの会話をデバッグしたり、トレーニング結果を最適化したりすることができます。 また、Weave と Verifiers を組み合わせて 評価(Evaluations)を実行することも可能です。 このガイドでは、Verifiers、W&B、Weave のインストール方法を説明し、Verifiers を Weave および W&B と共に使用する 2 つの例を紹介します。Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-update-training-api-26.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.

はじめに
Verifiers と Weave を統合するには、まずuv を使用して Verifiers ライブラリをインストールします(ライブラリの作者によって推奨されています)。以下のコマンドのいずれかを使用してライブラリをインストールしてください。
ロールアウトのトレースと評価
必要なライブラリをインストールしたら、Weave と Verifiers を併用してコールの トレース(Traces)や 評価(Evaluations)を実行できます。 以下のサンプルスクリプトは、Verifiers で評価を実行し、その結果を Weave に ログ(log)する方法を示しています。このスクリプトは、GSM8K データセット を使用して LLM が数学の問題を解く能力をテストします。GPT-4 に 2 つの数学の問題を解かせ、各回答から数値を抽出し、Verifiers を評価フレームワークとして使用してその試行を採点します。 サンプルを実行し、Weave で結果を確認してください。実験管理とトレースを用いたモデルのファインチューン
Weave は、トレーニング中のモデルの挙動に関する洞察を提供することで、RL のファインチューンワークフローにおける強力なツールとなります。W&B と併用することで、包括的なオブザーバビリティが得られます。W&B はトレーニングメトリクスとパフォーマンスチャートを追跡し、Weave はトレーニングプロセス中の各インタラクションの詳細な トレース(Traces)をキャプチャします。verifiers リポジトリには、すぐに実行できる 例 が用意されています。
以下の RL トレーニングパイプラインの例では、ローカルの推論サーバーを実行し、GSM8K データセットを使用してモデルをトレーニングします。モデルは数学の問題に対する回答を返し、トレーニングループは出力をスコアリングしてそれに応じてモデルを更新します。W&B は損失、報酬、精度などのトレーニングメトリクスを記録し、Weave は入力、出力、推論過程、およびスコアリングをキャプチャします。
このパイプラインを使用するには:
- ソースからフレームワークをインストールします。以下のコマンドで GitHub から Verifiers ライブラリと必要な依存関係をインストールします。
- 既成の環境をインストールします。以下のコマンドで、事前設定済みの GSM8K トレーニング環境をインストールします。
- モデルをトレーニングします。以下のコマンドは、それぞれ推論サーバーとトレーニングループを ローンチ(Launch)します。このサンプルワークフローではデフォルトで
report_to=wandbが設定されているため、別途wandb.initを呼び出す必要はありません。W&B にメトリクスを記録するために、このマシンの認証を求められます。
この例は 2xH100 で正常にテストされました。安定性を高めるために、以下の環境変数を設定しています。これらの変数は、デバイスメモリ割り当てのための CUDA Unified Memory (CuMem) を無効にします。
Environment.a_generate および Rubric.score_rollouts メソッドの logprobs が除外されます。これにより、トレーニング用のオリジナルデータはそのままに、ペイロードサイズを小さく抑えています。