Upload 10 files

Browse files

Files changed (11) hide show

.gitattributes +2 -0
added_tokens.json +0 -0
config.json +39 -0
generation_config.json +7 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +28 -0
tokenizer.json +3 -0
tokenizer_config.json +3 -0
trainer_state.json +1333 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer_config.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "SebastianBodza/SmolKartoffel-135M-v0.1",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 576,
+  "initializer_range": 0.041666666666666664,
+  "intermediate_size": 1536,
+  "is_llama_config": true,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 9,
+  "num_hidden_layers": 30,
+  "num_key_value_heads": 3,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_interleaved": false,
+  "rope_scaling": null,
+  "rope_theta": 100000,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers.js_config": {
+    "kv_cache_dtype": {
+      "fp16": "float16",
+      "q4f16": "float16"
+    }
+  },
+  "transformers_version": "4.49.0",
+  "use_cache": false,
+  "vocab_size": 114696
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 2,
+  "transformers_version": "4.49.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3adf4f2636b40f879f9a54364e78c0f3014c075f12c7975a36ea9abdc9a8741
+size 344567352

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": {
+    "content": "<|im_start|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|im_end|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33ef257c609ccb5087c3a96e44965dc71978cddf1ec2ddbc9dc9b7c9832f35c4
+size 15783253

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f217094602cf3ab2008f28eaf7d8b755c8ad06b9eec0b520f15ce4c54734a4da
+size 11608819

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1333 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.16,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1947.125,
+      "epoch": 0.0016,
+      "grad_norm": 0.55078125,
+      "kl": 0.0,
+      "learning_rate": 6.25e-07,
+      "loss": 0.0,
+      "reward": 0.7148577496409416,
+      "reward_std": 0.2588387345895171,
+      "rewards/wer_reward_func": 0.7148577496409416,
+      "step": 1
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1946.5,
+      "epoch": 0.0032,
+      "grad_norm": 0.55078125,
+      "kl": 0.0,
+      "learning_rate": 1.25e-06,
+      "loss": -0.0,
+      "reward": 0.7822023555636406,
+      "reward_std": 0.24099930934607983,
+      "rewards/wer_reward_func": 0.7822023555636406,
+      "step": 2
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1951.5,
+      "epoch": 0.0048,
+      "grad_norm": 1.015625,
+      "kl": 0.016162421787157655,
+      "learning_rate": 1.8750000000000003e-06,
+      "loss": 0.0006,
+      "reward": 0.7216365113854408,
+      "reward_std": 0.13873484916985035,
+      "rewards/wer_reward_func": 0.7216365113854408,
+      "step": 3
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1932.75,
+      "epoch": 0.0064,
+      "grad_norm": 0.6640625,
+      "kl": 0.015228205360472202,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0006,
+      "reward": 0.811914250254631,
+      "reward_std": 0.10335290990769863,
+      "rewards/wer_reward_func": 0.811914250254631,
+      "step": 4
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1958.625,
+      "epoch": 0.008,
+      "grad_norm": 0.57421875,
+      "kl": 0.016641404596157372,
+      "learning_rate": 3.125e-06,
+      "loss": 0.0007,
+      "reward": 0.6705156937241554,
+      "reward_std": 0.14204794133547693,
+      "rewards/wer_reward_func": 0.6705156937241554,
+      "step": 5
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1967.0,
+      "epoch": 0.0096,
+      "grad_norm": 0.65234375,
+      "kl": 0.016110880533233285,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.0006,
+      "reward": 0.7191379070281982,
+      "reward_std": 0.1857276821974665,
+      "rewards/wer_reward_func": 0.7191379070281982,
+      "step": 6
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1947.375,
+      "epoch": 0.0112,
+      "grad_norm": 0.91796875,
+      "kl": 0.01589326758403331,
+      "learning_rate": 4.3750000000000005e-06,
+      "loss": 0.0006,
+      "reward": 0.7357326671481133,
+      "reward_std": 0.1887976780999452,
+      "rewards/wer_reward_func": 0.7357326671481133,
+      "step": 7
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1956.0,
+      "epoch": 0.0128,
+      "grad_norm": 0.8125,
+      "kl": 0.01580773969180882,
+      "learning_rate": 5e-06,
+      "loss": 0.0006,
+      "reward": 0.6810178197920322,
+      "reward_std": 0.24038350896444172,
+      "rewards/wer_reward_func": 0.6810178197920322,
+      "step": 8
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1939.875,
+      "epoch": 0.0144,
+      "grad_norm": 0.61328125,
+      "kl": 0.016684093279764056,
+      "learning_rate": 5.625e-06,
+      "loss": 0.0007,
+      "reward": 0.7145852670073509,
+      "reward_std": 0.16899098921567202,
+      "rewards/wer_reward_func": 0.7145852670073509,
+      "step": 9
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1938.25,
+      "epoch": 0.016,
+      "grad_norm": 0.66015625,
+      "kl": 0.016166918678209186,
+      "learning_rate": 6.25e-06,
+      "loss": 0.0006,
+      "reward": 0.7534582614898682,
+      "reward_std": 0.19622210646048188,
+      "rewards/wer_reward_func": 0.7534582614898682,
+      "step": 10
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1941.625,
+      "epoch": 0.0176,
+      "grad_norm": 0.62109375,
+      "kl": 0.015991921653039753,
+      "learning_rate": 6.875e-06,
+      "loss": 0.0006,
+      "reward": 0.7752574235200882,
+      "reward_std": 0.18537394842132926,
+      "rewards/wer_reward_func": 0.7752574235200882,
+      "step": 11
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1938.5,
+      "epoch": 0.0192,
+      "grad_norm": 0.50390625,
+      "kl": 0.015584928914904594,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0006,
+      "reward": 0.7797695994377136,
+      "reward_std": 0.11821027041878551,
+      "rewards/wer_reward_func": 0.7797695994377136,
+      "step": 12
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1934.75,
+      "epoch": 0.0208,
+      "grad_norm": 0.515625,
+      "kl": 0.01588472374714911,
+      "learning_rate": 8.125000000000001e-06,
+      "loss": 0.0006,
+      "reward": 0.7346231155097485,
+      "reward_std": 0.18602621834725142,
+      "rewards/wer_reward_func": 0.7346231155097485,
+      "step": 13
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1960.375,
+      "epoch": 0.0224,
+      "grad_norm": 0.65625,
+      "kl": 0.015960810356773436,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 0.0006,
+      "reward": 0.8352436944842339,
+      "reward_std": 0.16693894029594958,
+      "rewards/wer_reward_func": 0.8352436944842339,
+      "step": 14
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1960.375,
+      "epoch": 0.024,
+      "grad_norm": 0.6484375,
+      "kl": 0.016010576975531876,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 0.0006,
+      "reward": 0.7679749764502048,
+      "reward_std": 0.1572786932811141,
+      "rewards/wer_reward_func": 0.7679749764502048,
+      "step": 15
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1970.25,
+      "epoch": 0.0256,
+      "grad_norm": 0.64453125,
+      "kl": 0.01612092077266425,
+      "learning_rate": 1e-05,
+      "loss": 0.0006,
+      "reward": 0.7296933978796005,
+      "reward_std": 0.17958847293630242,
+      "rewards/wer_reward_func": 0.7296933978796005,
+      "step": 16
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1969.625,
+      "epoch": 0.0272,
+      "grad_norm": 0.4765625,
+      "kl": 0.016002243966795504,
+      "learning_rate": 1.0625e-05,
+      "loss": 0.0006,
+      "reward": 0.5768027417361736,
+      "reward_std": 0.20896703843027353,
+      "rewards/wer_reward_func": 0.5768027417361736,
+      "step": 17
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1970.375,
+      "epoch": 0.0288,
+      "grad_norm": 0.546875,
+      "kl": 0.016185182612389326,
+      "learning_rate": 1.125e-05,
+      "loss": 0.0006,
+      "reward": 0.6374355666339397,
+      "reward_std": 0.1769604617729783,
+      "rewards/wer_reward_func": 0.6374355666339397,
+      "step": 18
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1943.75,
+      "epoch": 0.0304,
+      "grad_norm": 0.44921875,
+      "kl": 0.015821643988601863,
+      "learning_rate": 1.1875e-05,
+      "loss": 0.0006,
+      "reward": 0.6718243807554245,
+      "reward_std": 0.1820401716977358,
+      "rewards/wer_reward_func": 0.6718243807554245,
+      "step": 19
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1970.25,
+      "epoch": 0.032,
+      "grad_norm": 0.51953125,
+      "kl": 0.01559991657268256,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0006,
+      "reward": 0.6518857628107071,
+      "reward_std": 0.2095832945778966,
+      "rewards/wer_reward_func": 0.6518857628107071,
+      "step": 20
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1969.125,
+      "epoch": 0.0336,
+      "grad_norm": 0.61328125,
+      "kl": 0.016375139821320772,
+      "learning_rate": 1.3125e-05,
+      "loss": 0.0007,
+      "reward": 0.622985552996397,
+      "reward_std": 0.21184765454381704,
+      "rewards/wer_reward_func": 0.622985552996397,
+      "step": 21
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1973.125,
+      "epoch": 0.0352,
+      "grad_norm": 0.51171875,
+      "kl": 0.016077731852419674,
+      "learning_rate": 1.375e-05,
+      "loss": 0.0006,
+      "reward": 0.6820645965635777,
+      "reward_std": 0.22380293253809214,
+      "rewards/wer_reward_func": 0.6820645965635777,
+      "step": 22
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1961.25,
+      "epoch": 0.0368,
+      "grad_norm": 0.46484375,
+      "kl": 0.015804292517714202,
+      "learning_rate": 1.4375e-05,
+      "loss": 0.0006,
+      "reward": 0.7151055857539177,
+      "reward_std": 0.163209717720747,
+      "rewards/wer_reward_func": 0.7151055857539177,
+      "step": 23
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1961.875,
+      "epoch": 0.0384,
+      "grad_norm": 1.0859375,
+      "kl": 0.016097142128273845,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.0006,
+      "reward": 0.6770479343831539,
+      "reward_std": 0.16051876917481422,
+      "rewards/wer_reward_func": 0.6770479343831539,
+      "step": 24
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1959.875,
+      "epoch": 0.04,
+      "grad_norm": 0.65625,
+      "kl": 0.01587597408797592,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.0006,
+      "reward": 0.7550022006034851,
+      "reward_std": 0.16675387474242598,
+      "rewards/wer_reward_func": 0.7550022006034851,
+      "step": 25
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1959.625,
+      "epoch": 0.0416,
+      "grad_norm": 0.91796875,
+      "kl": 0.0167808651458472,
+      "learning_rate": 1.6250000000000002e-05,
+      "loss": 0.0007,
+      "reward": 0.6954782530665398,
+      "reward_std": 0.202576438896358,
+      "rewards/wer_reward_func": 0.6954782530665398,
+      "step": 26
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1950.875,
+      "epoch": 0.0432,
+      "grad_norm": 0.6171875,
+      "kl": 0.01657955057453364,
+      "learning_rate": 1.6875e-05,
+      "loss": 0.0007,
+      "reward": 0.7669722959399223,
+      "reward_std": 0.12058468838222325,
+      "rewards/wer_reward_func": 0.7669722959399223,
+      "step": 27
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1956.375,
+      "epoch": 0.0448,
+      "grad_norm": 0.54296875,
+      "kl": 0.016129926429130137,
+      "learning_rate": 1.7500000000000002e-05,
+      "loss": 0.0006,
+      "reward": 0.7313148304820061,
+      "reward_std": 0.15226054703816772,
+      "rewards/wer_reward_func": 0.7313148304820061,
+      "step": 28
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1969.875,
+      "epoch": 0.0464,
+      "grad_norm": 1.1171875,
+      "kl": 0.01826122379861772,
+      "learning_rate": 1.8125e-05,
+      "loss": 0.0007,
+      "reward": 0.704025074839592,
+      "reward_std": 0.19533006672281772,
+      "rewards/wer_reward_func": 0.704025074839592,
+      "step": 29
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1973.125,
+      "epoch": 0.048,
+      "grad_norm": 0.90625,
+      "kl": 0.01747321046423167,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.0007,
+      "reward": 0.7380140870809555,
+      "reward_std": 0.18625171668827534,
+      "rewards/wer_reward_func": 0.7380140870809555,
+      "step": 30
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1952.75,
+      "epoch": 0.0496,
+      "grad_norm": 0.859375,
+      "kl": 0.017565080081112683,
+      "learning_rate": 1.9375e-05,
+      "loss": 0.0007,
+      "reward": 0.6647357568144798,
+      "reward_std": 0.1767052042996511,
+      "rewards/wer_reward_func": 0.6647357568144798,
+      "step": 31
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1932.125,
+      "epoch": 0.0512,
+      "grad_norm": 0.50390625,
+      "kl": 0.01821358152665198,
+      "learning_rate": 2e-05,
+      "loss": 0.0007,
+      "reward": 0.7670070715248585,
+      "reward_std": 0.17231934261508286,
+      "rewards/wer_reward_func": 0.7670070715248585,
+      "step": 32
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1955.375,
+      "epoch": 0.0528,
+      "grad_norm": 0.369140625,
+      "kl": 0.017620138358324766,
+      "learning_rate": 1.9999859667149386e-05,
+      "loss": 0.0007,
+      "reward": 0.6896664723753929,
+      "reward_std": 0.080823797325138,
+      "rewards/wer_reward_func": 0.6896664723753929,
+      "step": 33
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1949.0,
+      "epoch": 0.0544,
+      "grad_norm": 0.58984375,
+      "kl": 0.019393826834857464,
+      "learning_rate": 1.9999438672536202e-05,
+      "loss": 0.0008,
+      "reward": 0.7308423668146133,
+      "reward_std": 0.22626487538218498,
+      "rewards/wer_reward_func": 0.7308423668146133,
+      "step": 34
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1959.25,
+      "epoch": 0.056,
+      "grad_norm": 0.65234375,
+      "kl": 0.018983268411830068,
+      "learning_rate": 1.9998737027976323e-05,
+      "loss": 0.0008,
+      "reward": 0.7887512892484665,
+      "reward_std": 0.11498277448117733,
+      "rewards/wer_reward_func": 0.7887512892484665,
+      "step": 35
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1960.375,
+      "epoch": 0.0576,
+      "grad_norm": 0.69140625,
+      "kl": 0.0207195149268955,
+      "learning_rate": 1.99977547531625e-05,
+      "loss": 0.0008,
+      "reward": 0.748592272400856,
+      "reward_std": 0.13713865308091044,
+      "rewards/wer_reward_func": 0.748592272400856,
+      "step": 36
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1935.125,
+      "epoch": 0.0592,
+      "grad_norm": 0.84765625,
+      "kl": 0.018717350903898478,
+      "learning_rate": 1.9996491875663833e-05,
+      "loss": 0.0007,
+      "reward": 0.796571895480156,
+      "reward_std": 0.07994944072561339,
+      "rewards/wer_reward_func": 0.796571895480156,
+      "step": 37
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1955.375,
+      "epoch": 0.0608,
+      "grad_norm": 0.50390625,
+      "kl": 0.019668580498546362,
+      "learning_rate": 1.9994948430924944e-05,
+      "loss": 0.0008,
+      "reward": 0.6918950304389,
+      "reward_std": 0.17351699527353048,
+      "rewards/wer_reward_func": 0.6918950304389,
+      "step": 38
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1959.5,
+      "epoch": 0.0624,
+      "grad_norm": 0.58203125,
+      "kl": 0.02082771761342883,
+      "learning_rate": 1.9993124462265045e-05,
+      "loss": 0.0008,
+      "reward": 0.771839089691639,
+      "reward_std": 0.15878148435149342,
+      "rewards/wer_reward_func": 0.771839089691639,
+      "step": 39
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1926.875,
+      "epoch": 0.064,
+      "grad_norm": 0.609375,
+      "kl": 0.023743279045447707,
+      "learning_rate": 1.9991020020876676e-05,
+      "loss": 0.0009,
+      "reward": 0.7313846871256828,
+      "reward_std": 0.1756739574484527,
+      "rewards/wer_reward_func": 0.7313846871256828,
+      "step": 40
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1951.5,
+      "epoch": 0.0656,
+      "grad_norm": 1.0078125,
+      "kl": 0.024232700234279037,
+      "learning_rate": 1.9988635165824293e-05,
+      "loss": 0.001,
+      "reward": 0.8415787816047668,
+      "reward_std": 0.08054527395870537,
+      "rewards/wer_reward_func": 0.8415787816047668,
+      "step": 41
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1967.875,
+      "epoch": 0.0672,
+      "grad_norm": 1.1796875,
+      "kl": 0.024361844873055816,
+      "learning_rate": 1.998596996404259e-05,
+      "loss": 0.001,
+      "reward": 0.7182202935218811,
+      "reward_std": 0.16461236914619803,
+      "rewards/wer_reward_func": 0.7182202935218811,
+      "step": 42
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1964.625,
+      "epoch": 0.0688,
+      "grad_norm": 1.2734375,
+      "kl": 0.025085279252380133,
+      "learning_rate": 1.9983024490334645e-05,
+      "loss": 0.001,
+      "reward": 0.697236530482769,
+      "reward_std": 0.1966134626418352,
+      "rewards/wer_reward_func": 0.697236530482769,
+      "step": 43
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1943.625,
+      "epoch": 0.0704,
+      "grad_norm": 0.84765625,
+      "kl": 0.024320798460394144,
+      "learning_rate": 1.99797988273698e-05,
+      "loss": 0.001,
+      "reward": 0.6831536628305912,
+      "reward_std": 0.2085254923440516,
+      "rewards/wer_reward_func": 0.6831536628305912,
+      "step": 44
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1952.0,
+      "epoch": 0.072,
+      "grad_norm": 0.54296875,
+      "kl": 0.030228571966290474,
+      "learning_rate": 1.9976293065681355e-05,
+      "loss": 0.0012,
+      "reward": 0.8000416941940784,
+      "reward_std": 0.15345202130265534,
+      "rewards/wer_reward_func": 0.8000416941940784,
+      "step": 45
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1948.0,
+      "epoch": 0.0736,
+      "grad_norm": 1.1171875,
+      "kl": 0.02587601402774453,
+      "learning_rate": 1.997250730366401e-05,
+      "loss": 0.001,
+      "reward": 0.6185710355639458,
+      "reward_std": 0.21584839094430208,
+      "rewards/wer_reward_func": 0.6185710355639458,
+      "step": 46
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1952.5,
+      "epoch": 0.0752,
+      "grad_norm": 0.486328125,
+      "kl": 0.026088092010468245,
+      "learning_rate": 1.9968441647571124e-05,
+      "loss": 0.001,
+      "reward": 0.7114294916391373,
+      "reward_std": 0.15749832591973245,
+      "rewards/wer_reward_func": 0.7114294916391373,
+      "step": 47
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1955.375,
+      "epoch": 0.0768,
+      "grad_norm": 0.78125,
+      "kl": 0.04521624161861837,
+      "learning_rate": 1.996409621151172e-05,
+      "loss": 0.0018,
+      "reward": 0.7588807716965675,
+      "reward_std": 0.15750665869563818,
+      "rewards/wer_reward_func": 0.7588807716965675,
+      "step": 48
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1955.875,
+      "epoch": 0.0784,
+      "grad_norm": 0.984375,
+      "kl": 0.035593433072790504,
+      "learning_rate": 1.995947111744728e-05,
+      "loss": 0.0014,
+      "reward": 0.6849986612796783,
+      "reward_std": 0.1458123391494155,
+      "rewards/wer_reward_func": 0.6849986612796783,
+      "step": 49
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1944.625,
+      "epoch": 0.08,
+      "grad_norm": 1.4453125,
+      "kl": 0.052820508601143956,
+      "learning_rate": 1.9954566495188333e-05,
+      "loss": 0.0021,
+      "reward": 0.7492151334881783,
+      "reward_std": 0.17276689689606428,
+      "rewards/wer_reward_func": 0.7492151334881783,
+      "step": 50
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1965.25,
+      "epoch": 0.0816,
+      "grad_norm": 1.0,
+      "kl": 0.06656047655269504,
+      "learning_rate": 1.9949382482390803e-05,
+      "loss": 0.0027,
+      "reward": 0.7457267493009567,
+      "reward_std": 0.1444834356661886,
+      "rewards/wer_reward_func": 0.7457267493009567,
+      "step": 51
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1965.375,
+      "epoch": 0.0832,
+      "grad_norm": 0.75,
+      "kl": 0.07145386259071529,
+      "learning_rate": 1.9943919224552154e-05,
+      "loss": 0.0029,
+      "reward": 0.8046427965164185,
+      "reward_std": 0.1403827196918428,
+      "rewards/wer_reward_func": 0.8046427965164185,
+      "step": 52
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1949.625,
+      "epoch": 0.0848,
+      "grad_norm": 0.6953125,
+      "kl": 0.03203753801062703,
+      "learning_rate": 1.9938176875007284e-05,
+      "loss": 0.0013,
+      "reward": 0.6930092461407185,
+      "reward_std": 0.16305453283712268,
+      "rewards/wer_reward_func": 0.6930092461407185,
+      "step": 53
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1951.875,
+      "epoch": 0.0864,
+      "grad_norm": 0.640625,
+      "kl": 0.10621223249472678,
+      "learning_rate": 1.993215559492426e-05,
+      "loss": 0.0042,
+      "reward": 0.8163558691740036,
+      "reward_std": 0.1400533178821206,
+      "rewards/wer_reward_func": 0.8163558691740036,
+      "step": 54
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1954.625,
+      "epoch": 0.088,
+      "grad_norm": 0.83203125,
+      "kl": 0.043898894684389234,
+      "learning_rate": 1.9925855553299755e-05,
+      "loss": 0.0018,
+      "reward": 0.6846126243472099,
+      "reward_std": 0.15134379279334098,
+      "rewards/wer_reward_func": 0.6846126243472099,
+      "step": 55
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1964.375,
+      "epoch": 0.0896,
+      "grad_norm": 0.40625,
+      "kl": 0.1627205451950431,
+      "learning_rate": 1.991927692695433e-05,
+      "loss": 0.0065,
+      "reward": 0.7908694818615913,
+      "reward_std": 0.18554856907576323,
+      "rewards/wer_reward_func": 0.7908694818615913,
+      "step": 56
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1956.0,
+      "epoch": 0.0912,
+      "grad_norm": 1.5859375,
+      "kl": 0.11634801258333027,
+      "learning_rate": 1.9912419900527467e-05,
+      "loss": 0.0047,
+      "reward": 0.7787131145596504,
+      "reward_std": 0.1848770366050303,
+      "rewards/wer_reward_func": 0.7787131145596504,
+      "step": 57
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1957.25,
+      "epoch": 0.0928,
+      "grad_norm": 0.61328125,
+      "kl": 0.046286205062642694,
+      "learning_rate": 1.9905284666472374e-05,
+      "loss": 0.0019,
+      "reward": 0.7016812488436699,
+      "reward_std": 0.1899972972460091,
+      "rewards/wer_reward_func": 0.7016812488436699,
+      "step": 58
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1955.125,
+      "epoch": 0.0944,
+      "grad_norm": 2.109375,
+      "kl": 0.175645818002522,
+      "learning_rate": 1.9897871425050598e-05,
+      "loss": 0.007,
+      "reward": 0.8039649501442909,
+      "reward_std": 0.1966583700850606,
+      "rewards/wer_reward_func": 0.8039649501442909,
+      "step": 59
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1956.75,
+      "epoch": 0.096,
+      "grad_norm": 1.046875,
+      "kl": 0.23953252588398755,
+      "learning_rate": 1.9890180384326404e-05,
+      "loss": 0.0096,
+      "reward": 0.7845720686018467,
+      "reward_std": 0.16813895315863192,
+      "rewards/wer_reward_func": 0.7845720686018467,
+      "step": 60
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1948.375,
+      "epoch": 0.0976,
+      "grad_norm": 1.109375,
+      "kl": 0.054209856782108545,
+      "learning_rate": 1.9882211760160924e-05,
+      "loss": 0.0022,
+      "reward": 0.7602999731898308,
+      "reward_std": 0.20474626123905182,
+      "rewards/wer_reward_func": 0.7602999731898308,
+      "step": 61
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1944.0,
+      "epoch": 0.0992,
+      "grad_norm": 0.53515625,
+      "kl": 0.05603330465964973,
+      "learning_rate": 1.9873965776206103e-05,
+      "loss": 0.0022,
+      "reward": 0.7994262725114822,
+      "reward_std": 0.16637277812696993,
+      "rewards/wer_reward_func": 0.7994262725114822,
+      "step": 62
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1967.125,
+      "epoch": 0.1008,
+      "grad_norm": 0.94140625,
+      "kl": 0.3190964236855507,
+      "learning_rate": 1.986544266389843e-05,
+      "loss": 0.0128,
+      "reward": 0.8898109868168831,
+      "reward_std": 0.0970578242558986,
+      "rewards/wer_reward_func": 0.8898109868168831,
+      "step": 63
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1949.125,
+      "epoch": 0.1024,
+      "grad_norm": 1.34375,
+      "kl": 0.11805844190530479,
+      "learning_rate": 1.9856642662452437e-05,
+      "loss": 0.0047,
+      "reward": 0.7181491330265999,
+      "reward_std": 0.13410304160788655,
+      "rewards/wer_reward_func": 0.7181491330265999,
+      "step": 64
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1924.375,
+      "epoch": 0.104,
+      "grad_norm": 0.51171875,
+      "kl": 0.030335136456415057,
+      "learning_rate": 1.984756601885398e-05,
+      "loss": 0.0012,
+      "reward": 0.7165433652698994,
+      "reward_std": 0.1613742959452793,
+      "rewards/wer_reward_func": 0.7165433652698994,
+      "step": 65
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1974.125,
+      "epoch": 0.1056,
+      "grad_norm": 0.65234375,
+      "kl": 0.1792802654672414,
+      "learning_rate": 1.9838212987853312e-05,
+      "loss": 0.0072,
+      "reward": 0.6876808255910873,
+      "reward_std": 0.20414888858795166,
+      "rewards/wer_reward_func": 0.6876808255910873,
+      "step": 66
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1944.125,
+      "epoch": 0.1072,
+      "grad_norm": 0.6953125,
+      "kl": 0.2141565252095461,
+      "learning_rate": 1.9828583831957935e-05,
+      "loss": 0.0086,
+      "reward": 0.7715155333280563,
+      "reward_std": 0.15179554466158152,
+      "rewards/wer_reward_func": 0.7715155333280563,
+      "step": 67
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1944.0,
+      "epoch": 0.1088,
+      "grad_norm": 0.82421875,
+      "kl": 0.20513050560839474,
+      "learning_rate": 1.9818678821425227e-05,
+      "loss": 0.0082,
+      "reward": 0.753034420311451,
+      "reward_std": 0.14856206998229027,
+      "rewards/wer_reward_func": 0.753034420311451,
+      "step": 68
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1966.375,
+      "epoch": 0.1104,
+      "grad_norm": 0.9921875,
+      "kl": 0.4696819600649178,
+      "learning_rate": 1.980849823425486e-05,
+      "loss": 0.0188,
+      "reward": 0.8376018479466438,
+      "reward_std": 0.13525405304972082,
+      "rewards/wer_reward_func": 0.8376018479466438,
+      "step": 69
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1926.0,
+      "epoch": 0.112,
+      "grad_norm": 0.91796875,
+      "kl": 0.2035030140541494,
+      "learning_rate": 1.9798042356181e-05,
+      "loss": 0.0081,
+      "reward": 0.7663351036608219,
+      "reward_std": 0.20173717802390456,
+      "rewards/wer_reward_func": 0.7663351036608219,
+      "step": 70
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1957.0,
+      "epoch": 0.1136,
+      "grad_norm": 0.66015625,
+      "kl": 0.5680657427292317,
+      "learning_rate": 1.978731148066428e-05,
+      "loss": 0.0227,
+      "reward": 0.8518649414181709,
+      "reward_std": 0.14899396104738116,
+      "rewards/wer_reward_func": 0.8518649414181709,
+      "step": 71
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1943.125,
+      "epoch": 0.1152,
+      "grad_norm": 0.486328125,
+      "kl": 0.044534852262586355,
+      "learning_rate": 1.977630590888357e-05,
+      "loss": 0.0018,
+      "reward": 0.7693819999694824,
+      "reward_std": 0.17239460709970444,
+      "rewards/wer_reward_func": 0.7693819999694824,
+      "step": 72
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1949.25,
+      "epoch": 0.1168,
+      "grad_norm": 0.58984375,
+      "kl": 0.32066047424450517,
+      "learning_rate": 1.9765025949727526e-05,
+      "loss": 0.0128,
+      "reward": 0.9195869937539101,
+      "reward_std": 0.09115095145534724,
+      "rewards/wer_reward_func": 0.9195869937539101,
+      "step": 73
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1947.5,
+      "epoch": 0.1184,
+      "grad_norm": 0.57421875,
+      "kl": 0.22461501089856029,
+      "learning_rate": 1.975347191978591e-05,
+      "loss": 0.009,
+      "reward": 0.7567244507372379,
+      "reward_std": 0.1430160580202937,
+      "rewards/wer_reward_func": 0.7567244507372379,
+      "step": 74
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1960.125,
+      "epoch": 0.12,
+      "grad_norm": 0.75390625,
+      "kl": 0.13243340514600277,
+      "learning_rate": 1.9741644143340707e-05,
+      "loss": 0.0053,
+      "reward": 0.7881599441170692,
+      "reward_std": 0.13415389298461378,
+      "rewards/wer_reward_func": 0.7881599441170692,
+      "step": 75
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1941.625,
+      "epoch": 0.1216,
+      "grad_norm": 0.90625,
+      "kl": 0.1920600552111864,
+      "learning_rate": 1.9729542952357045e-05,
+      "loss": 0.0077,
+      "reward": 0.8567590862512589,
+      "reward_std": 0.13653477816842496,
+      "rewards/wer_reward_func": 0.8567590862512589,
+      "step": 76
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1953.375,
+      "epoch": 0.1232,
+      "grad_norm": 0.466796875,
+      "kl": 0.34102778718806803,
+      "learning_rate": 1.9717168686473845e-05,
+      "loss": 0.0136,
+      "reward": 0.8028187304735184,
+      "reward_std": 0.17851749807596207,
+      "rewards/wer_reward_func": 0.8028187304735184,
+      "step": 77
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1958.625,
+      "epoch": 0.1248,
+      "grad_norm": 0.56640625,
+      "kl": 0.27146758884191513,
+      "learning_rate": 1.9704521692994305e-05,
+      "loss": 0.0109,
+      "reward": 0.8368449658155441,
+      "reward_std": 0.10253577493131161,
+      "rewards/wer_reward_func": 0.8368449658155441,
+      "step": 78
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1948.25,
+      "epoch": 0.1264,
+      "grad_norm": 0.671875,
+      "kl": 0.31286598835140467,
+      "learning_rate": 1.969160232687616e-05,
+      "loss": 0.0125,
+      "reward": 0.735517330467701,
+      "reward_std": 0.24261212535202503,
+      "rewards/wer_reward_func": 0.735517330467701,
+      "step": 79
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1977.125,
+      "epoch": 0.128,
+      "grad_norm": 1.2734375,
+      "kl": 0.4811452552676201,
+      "learning_rate": 1.96784109507217e-05,
+      "loss": 0.0192,
+      "reward": 0.7436019517481327,
+      "reward_std": 0.19373487099073827,
+      "rewards/wer_reward_func": 0.7436019517481327,
+      "step": 80
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1946.5,
+      "epoch": 0.1296,
+      "grad_norm": 1.5703125,
+      "kl": 0.31637065787799656,
+      "learning_rate": 1.9664947934767614e-05,
+      "loss": 0.0127,
+      "reward": 0.8187097907066345,
+      "reward_std": 0.1552155721001327,
+      "rewards/wer_reward_func": 0.8187097907066345,
+      "step": 81
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1942.125,
+      "epoch": 0.1312,
+      "grad_norm": 0.5625,
+      "kl": 0.16939618973992765,
+      "learning_rate": 1.965121365687458e-05,
+      "loss": 0.0068,
+      "reward": 0.7827628552913666,
+      "reward_std": 0.15352375875227153,
+      "rewards/wer_reward_func": 0.7827628552913666,
+      "step": 82
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1950.25,
+      "epoch": 0.1328,
+      "grad_norm": 0.73046875,
+      "kl": 0.37901579844765365,
+      "learning_rate": 1.9637208502516673e-05,
+      "loss": 0.0152,
+      "reward": 0.732394628226757,
+      "reward_std": 0.14362181909382343,
+      "rewards/wer_reward_func": 0.732394628226757,
+      "step": 83
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1952.125,
+      "epoch": 0.1344,
+      "grad_norm": 0.61328125,
+      "kl": 0.2999027846381068,
+      "learning_rate": 1.9622932864770538e-05,
+      "loss": 0.012,
+      "reward": 0.8153776079416275,
+      "reward_std": 0.09595204587094486,
+      "rewards/wer_reward_func": 0.8153776079416275,
+      "step": 84
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1954.375,
+      "epoch": 0.136,
+      "grad_norm": 0.58984375,
+      "kl": 0.08584306994453073,
+      "learning_rate": 1.9608387144304363e-05,
+      "loss": 0.0034,
+      "reward": 0.7668257392942905,
+      "reward_std": 0.13263899134472013,
+      "rewards/wer_reward_func": 0.7668257392942905,
+      "step": 85
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1943.75,
+      "epoch": 0.1376,
+      "grad_norm": 0.640625,
+      "kl": 0.12226048181764781,
+      "learning_rate": 1.959357174936663e-05,
+      "loss": 0.0049,
+      "reward": 0.7079343125224113,
+      "reward_std": 0.17419014684855938,
+      "rewards/wer_reward_func": 0.7079343125224113,
+      "step": 86
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1943.375,
+      "epoch": 0.1392,
+      "grad_norm": 1.078125,
+      "kl": 0.28691139654256403,
+      "learning_rate": 1.9578487095774666e-05,
+      "loss": 0.0115,
+      "reward": 0.7225043401122093,
+      "reward_std": 0.23464243719354272,
+      "rewards/wer_reward_func": 0.7225043401122093,
+      "step": 87
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1937.625,
+      "epoch": 0.1408,
+      "grad_norm": 0.6484375,
+      "kl": 0.16382792522199452,
+      "learning_rate": 1.956313360690295e-05,
+      "loss": 0.0066,
+      "reward": 0.8292155712842941,
+      "reward_std": 0.1263326636981219,
+      "rewards/wer_reward_func": 0.8292155712842941,
+      "step": 88
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1960.875,
+      "epoch": 0.1424,
+      "grad_norm": 0.50390625,
+      "kl": 0.18305454682558775,
+      "learning_rate": 1.9547511713671264e-05,
+      "loss": 0.0073,
+      "reward": 0.7428606450557709,
+      "reward_std": 0.1822054407093674,
+      "rewards/wer_reward_func": 0.7428606450557709,
+      "step": 89
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1950.125,
+      "epoch": 0.144,
+      "grad_norm": 0.54296875,
+      "kl": 0.2168082855641842,
+      "learning_rate": 1.9531621854532562e-05,
+      "loss": 0.0087,
+      "reward": 0.8217585235834122,
+      "reward_std": 0.13432517577894032,
+      "rewards/wer_reward_func": 0.8217585235834122,
+      "step": 90
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1932.5,
+      "epoch": 0.1456,
+      "grad_norm": 0.61328125,
+      "kl": 0.41217829566448927,
+      "learning_rate": 1.9515464475460692e-05,
+      "loss": 0.0165,
+      "reward": 0.8024833723902702,
+      "reward_std": 0.16875174804590642,
+      "rewards/wer_reward_func": 0.8024833723902702,
+      "step": 91
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1951.25,
+      "epoch": 0.1472,
+      "grad_norm": 0.76171875,
+      "kl": 0.2883884224575013,
+      "learning_rate": 1.949904002993787e-05,
+      "loss": 0.0115,
+      "reward": 0.847618579864502,
+      "reward_std": 0.12144165020436049,
+      "rewards/wer_reward_func": 0.847618579864502,
+      "step": 92
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1947.625,
+      "epoch": 0.1488,
+      "grad_norm": 0.80859375,
+      "kl": 0.48620657715946436,
+      "learning_rate": 1.9482348978941947e-05,
+      "loss": 0.0194,
+      "reward": 0.8414455056190491,
+      "reward_std": 0.0853516417555511,
+      "rewards/wer_reward_func": 0.8414455056190491,
+      "step": 93
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1949.75,
+      "epoch": 0.1504,
+      "grad_norm": 0.77734375,
+      "kl": 0.1605790094472468,
+      "learning_rate": 1.946539179093347e-05,
+      "loss": 0.0064,
+      "reward": 0.753880750387907,
+      "reward_std": 0.1360992002300918,
+      "rewards/wer_reward_func": 0.753880750387907,
+      "step": 94
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1947.625,
+      "epoch": 0.152,
+      "grad_norm": 0.859375,
+      "kl": 0.1815213665831834,
+      "learning_rate": 1.944816894184255e-05,
+      "loss": 0.0073,
+      "reward": 0.7713245637714863,
+      "reward_std": 0.16424694866873324,
+      "rewards/wer_reward_func": 0.7713245637714863,
+      "step": 95
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1955.125,
+      "epoch": 0.1536,
+      "grad_norm": 0.66796875,
+      "kl": 0.45056375954300165,
+      "learning_rate": 1.9430680915055492e-05,
+      "loss": 0.018,
+      "reward": 0.8012058958411217,
+      "reward_std": 0.1394583999644965,
+      "rewards/wer_reward_func": 0.8012058958411217,
+      "step": 96
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1935.0,
+      "epoch": 0.1552,
+      "grad_norm": 1.0234375,
+      "kl": 0.424512492492795,
+      "learning_rate": 1.941292820140122e-05,
+      "loss": 0.017,
+      "reward": 0.7339756079018116,
+      "reward_std": 0.22004147712141275,
+      "rewards/wer_reward_func": 0.7339756079018116,
+      "step": 97
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1952.875,
+      "epoch": 0.1568,
+      "grad_norm": 0.89453125,
+      "kl": 0.26004820922389627,
+      "learning_rate": 1.9394911299137522e-05,
+      "loss": 0.0104,
+      "reward": 0.8070669919252396,
+      "reward_std": 0.2013562674401328,
+      "rewards/wer_reward_func": 0.8070669919252396,
+      "step": 98
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1972.75,
+      "epoch": 0.1584,
+      "grad_norm": 1.0234375,
+      "kl": 0.6008601551875472,
+      "learning_rate": 1.9376630713937043e-05,
+      "loss": 0.024,
+      "reward": 0.8224332630634308,
+      "reward_std": 0.1132977275410667,
+      "rewards/wer_reward_func": 0.8224332630634308,
+      "step": 99
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 1930.75,
+      "epoch": 0.16,
+      "grad_norm": 1.015625,
+      "kl": 0.45082843746058643,
+      "learning_rate": 1.9358086958873116e-05,
+      "loss": 0.018,
+      "reward": 0.8571085333824158,
+      "reward_std": 0.10337967309169471,
+      "rewards/wer_reward_func": 0.8571085333824158,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 625,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff