Training in progress, step 2000

Files changed (7) hide show

config.json ADDED Viewed

+{
+  "adapter_reduction": 16,
+  "architectures": [
+    "DistillationWrapper"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "embedding_size": 128,
+  "expert_intermediate_size": 2624,
+  "group_depth": 4,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2624,
+  "layer_norm_eps": 1e-06,
+  "load_balancing_loss_coef": 0.2,
+  "lora_alpha": 32,
+  "lora_rank": 16,
+  "max_position_embeddings": 8192,
+  "model_type": "ModernALBERT",
+  "num_attention_heads": 16,
+  "num_expert_modules": 3,
+  "num_experts": 8,
+  "num_hidden_layers": 16,
+  "output_hidden_states": true,
+  "pad_token_id": 0,
+  "router_jitter_noise": 0.01,
+  "top_k": 2,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "use_adapter": true,
+  "use_cache": true,
+  "use_moa": true,
+  "vocab_size": 50368
+}

pytorch_model.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b07e2e45544a061b54af89084b5eaee507af0501d209758bb170ff5c9c22370
+size 1059459406

runs/Sep16_13-28-46_nid006603/events.out.tfevents.1758022141.nid006603.208166.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:409ff9e69becc0373bc9e6fdb4d87862ce67d1eaac85ec890fe60067c2f5177f
+size 364278

runs/Sep16_22-37-21_nid007081/events.out.tfevents.1758055057.nid007081.55404.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7acdc4f03085e2343dfd59272ab71e31c4b31c8bec1be746b06ad834a39fadb0
+size 426414

runs/Sep17_11-23-31_nid007191/events.out.tfevents.1758101018.nid007191.214208.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dfcb957eeeb8b30a4853a0550e5f2d8f957da386b1e8d793e699058a26f8f72
+size 5973

runs/Sep17_11-29-28_nid007081/events.out.tfevents.1758101384.nid007081.193734.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8df1add6546cb1fc51df0ace915a0e91ec398746a37b601678b96d95bbe8391a
+size 47536

training_args.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:239c6eb602e2f8ad26ad20793c5485f8285cb0674b765c9c2a7f3c210b2330b3
+size 5432