Haiyang-W
/

TokenFormer-450M

Model card Files Files and versions

Haiyang-W commited on Oct 29, 2024

Commit

27e5f68

·

verified ·

1 Parent(s): 91ae9d9

Upload config.json

Files changed (1) hide show

config.json +32 -0

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "TokenFormerForCausalLM"
+  ],
+  "num_layers": 24,
+  "hidden_size": 1024,
+  "num_attention_heads": 16,
+  "qkv_slot_num": 1024,
+  "proj_slot_num": 1024,
+  "ffn_slot_num": 4096,
+  "seq_length": 2048,
+  "max_position_embeddings": 2048,
+  "pos_emb": "rotary",
+  "rotary_pct": 0.25,
+  "no_weight_tying": false,
+  "norm": "layernorm_nonparam",
+  "final_norm": "layernorm",
+  "gpt_j_residual": false,
+  "output_layer_parallelism": "column",
+  "use_bias_in_attn_linear": false,
+  "attention_config": [[["tokenformer"], 24]],
+  "norm_activation_type": "l2_norm_gelu",
+  "scaled_upper_triang_masked_softmax_fusion": false,
+  "bias_gelu_fusion": false,
+  "rope_fusion": false,
+  "layernorm_fusion": false,
+  "init_method": "normal",
+  "output_layer_init_method": "wang_init",
+  "use_cache": true,
+  "torch_dtype": "float16",
+  "transformers_version": "4.36.0"
+}