learning

by Tsingke - opened Sep 10, 2023

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

+35

-94113

Files changed (26) hide show

.gitattributes +11 -10
LOGO.png +0 -0
README.md +24 -117
config.json +0 -29
generation_config.json +0 -6
model-00001-of-00007.safetensors +0 -3
model-00002-of-00007.safetensors +0 -3
model-00003-of-00007.safetensors +0 -3
model-00004-of-00007.safetensors +0 -3
model-00005-of-00007.safetensors +0 -3
model-00006-of-00007.safetensors +0 -3
model-00007-of-00007.safetensors +0 -3
model.safetensors.index.json +0 -442
pytorch_model-00001-of-00007.bin +0 -3
pytorch_model-00002-of-00007.bin +0 -3
pytorch_model-00003-of-00007.bin +0 -3
pytorch_model-00004-of-00007.bin +0 -3
pytorch_model-00005-of-00007.bin +0 -3
pytorch_model-00006-of-00007.bin +0 -3
pytorch_model-00007-of-00007.bin +0 -3
pytorch_model.bin.index.json +0 -3
requirements.txt +0 -14
special_tokens_map.json +0 -23
tokenizer.json +0 -0
tokenizer.model +0 -3
tokenizer_config.json +0 -33

.gitattributes CHANGED Viewed

@@ -1,34 +1,35 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
-*.bin.* filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
-*.zstandard filter=lfs diff=lfs merge=lfs -text
-*.tfevents* filter=lfs diff=lfs merge=lfs -text
-*.db* filter=lfs diff=lfs merge=lfs -text
-*.ark* filter=lfs diff=lfs merge=lfs -text
-**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
-**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
-**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text

 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

LOGO.png CHANGED Viewed

README.md CHANGED Viewed

@@ -1,20 +1,8 @@
 ---
 license: other
-tasks:
-- code-generation
-datasets:
-- codefuse-ai/CodeExercise-Python-27k
-- codefuse-ai/Evol-instruction-66k
-language:
-- en
-- zh
-pipeline_tag: text-generation
-library_name: transformers
-tags:
-- code
 ---
 # Model Card for CodeFuse-CodeLlama-34B
-![logo](LOGO.png)
 [[中文]](#chinese)    [[English]](#english)
@@ -30,38 +18,17 @@ The context length of finetuning is 4K while it is able to be finetuned by 16k c
 ## News and Updates
-🔥🔥🔥 2023-09-26 We are pleased to announce the release of the [4-bit quantized version](https://huggingface.co/codefuse-ai/CodeFuse-CodeLlama-34B-4bits) of CodeFuse-CodeLlama-34B. Despite the quantization process, the model still achieves a remarkable 73.8% accuracy (greedy decoding) on the HumanEval pass@1 metric.
-🔥🔥🔥 2023-09-11 CodeFuse-CodeLlama34B has achieved 74.4% of pass@1 (greedy decoding) on HumanEval, which is SOTA results for openspurced LLMs at present.
 <br>
-## Code Community
-**Homepage**: 🏡 https://github.com/codefuse-ai (**Please give us your support with a Star🌟 + Fork🚀 + Watch👀**)
-+ If you wish to fine-tune the model yourself, you can visit ✨[MFTCoder](https://github.com/codefuse-ai/MFTCoder)✨✨
-+ If you wish to deploy the model yourself, you can visit ✨[FasterTransformer4CodeFuse](https://github.com/codefuse-ai/FasterTransformer4CodeFuse)✨✨
-+ If you wish to see a demo of the model, you can visit ✨[CodeFuse Demo](https://github.com/codefuse-ai/codefuse)✨✨
 ## Performance
-| Model                       | HumanEval(pass@1) |  Date   |
-|:----------------------------|:-----------------:|:-------:|
-| **CodeFuse-CodeLlama-34B**  |     **74.4%**      | 2023.9  |
-| WizardCoder-Python-34B-V1.0 |       73.2%       | 2023.8  |
-| GPT-4(zero-shot)            |       67.0%       | 2023.3  |
-| PanGu-Coder2 15B            |       61.6%       | 2023.8  |
-| CodeLlama-34b-Python        |       53.7%       | 2023.8  |
-| CodeLlama-34b               |       48.8%       | 2023.8  |
-| GPT-3.5(zero-shot)          |       48.1%       | 2022.11 |
-| OctoCoder                   |       46.2%       | 2023.8  |
-| StarCoder-15B               |       33.6%       | 2023.5  |
-| LLaMA 2 70B(zero-shot)      |       29.9%       | 2023.7  |
 <br>
@@ -103,7 +70,6 @@ pip install -r requirements.txt
 ```
 ```python
-import torch
 from transformers import (
     AutoTokenizer,
     AutoModelForCausalLM,
@@ -112,13 +78,7 @@ tokenizer = AutoTokenizer.from_pretrained(mode_name_or_path, trust_remote_code=T
 tokenizer.padding_side = "left"
 tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<unk>")
 tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("</s>")
-# try 4bit loading if cuda memory not enough
-model = AutoModelForCausalLM.from_pretrained(mode_name_or_path,
-                                             trust_remote_code=True,
-                                             load_in_4bit=False,
-                                             device_map="auto",
-                                             torch_dtype=torch.bfloat16)
-model.eval()
 HUMAN_ROLE_START_TAG = "<|role_start|>human<|role_end|>"
 BOT_ROLE_START_TAG = "<|role_start|>bot<|role_end|>"
@@ -139,32 +99,17 @@ gen_text = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[1]:], ski
 print(gen_text)
 ```
-## MD5
-We notice that the file may be corrupted during transfer process. Please check MD5 value before use.
-| Model File                       | MD5 Value                        |
-|:---------------------------------|:--------------------------------:|
-| pytorch_model-00001-of-00007.bin | 8d544b1bcb3449934184d4141137329c |
-| pytorch_model-00002-of-00007.bin | 9d5dbb30911e48a42fb6d0fcabb322a4 |
-| pytorch_model-00003-of-00007.bin | b0d4aecee0457d9332005a187e1fffed |
-| pytorch_model-00004-of-00007.bin | 5c7e002de5eab77d0194a2b0f6de0c24 |
-| pytorch_model-00005-of-00007.bin | d22a511aa26b5b17117b665a877490ab |
-| pytorch_model-00006-of-00007.bin | a5c28ac277fac07d16dd66537e54d109 |
-| pytorch_model-00007-of-00007.bin | a967e2c6195477b7407089c0bffa2d53 |
-## Citation
-If you find our [work](https://arxiv.org/abs/2311.02303) useful or helpful for your R&D works, please feel free to cite our paper as below.
-```
-@article{mftcoder2023,
-      title={MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning},
-      author={Bingchang Liu and Chaoyu Chen and Cong Liao and Zi Gong and Huan Wang and Zhichao Lei and Ming Liang and Dajun Chen and Min Shen and Hailian Zhou and Hang Yu and Jianguo Li},
-      year={2023},
-      journal={arXiv preprint arXiv},
-      archivePrefix={arXiv},
-      eprint={2311.02303}
-}
-```
 <a id="chinese"></a>
@@ -179,31 +124,13 @@ CodeFuse-CodeLlama34B-MFT 是一个通过QLoRA对基座模型CodeLlama-34b-Pytho
 <br>
-## 代码社区
-**大本营**： 🏡 https://github.com/codefuse-ai （**欢迎为我们的项目一键三连 Star🌟 + Fork🚀 + Watch👀**）
-+ 如果您想自己微调该模型，可以访问 ✨[MFTCoder](https://github.com/codefuse-ai/MFTCoder)✨✨
-+ 如果您想自己部署该模型，可以访问 ✨[FasterTransformer4CodeFuse](https://github.com/codefuse-ai/FasterTransformer4CodeFuse)✨✨
-+ 如果您想观看该模型示例，可以访问 ✨[CodeFuse Demo](https://github.com/codefuse-ai/codefuse)✨✨
 ## 评测表现(代码)
-| 模型                          | HumanEval(pass@1) |   日期    |
-|:----------------------------|:-----------------:|:-------:|
-| **CodeFuse-CodeLlama-34B**  |     **74.4%**      | 2023.9  |
-| WizardCoder-Python-34B-V1.0 |       73.2%       | 2023.8  |
-| GPT-4(zero-shot)            |       67.0%       | 2023.3  |
-| PanGu-Coder2 15B            |       61.6%       | 2023.8  |
-| CodeLlama-34b-Python        |       53.7%       | 2023.8  |
-| CodeLlama-34b               |       48.8%       | 2023.8  |
-| GPT-3.5(zero-shot)          |       48.1%       | 2022.11 |
-| OctoCoder                   |       46.2%       | 2023.8  |
-| StarCoder-15B               |       33.6%       | 2023.5  |
-| LLaMA 2 70B(zero-shot)      |       29.9%       | 2023.7  |
 <br>
 ## Requirements
@@ -246,18 +173,12 @@ tokenizer = AutoTokenizer.from_pretrained(mode_name_or_path, trust_remote_code=T
 tokenizer.padding_side = "left"
 tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<unk>")
 tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("</s>")
-# 如果显存不够，可以考虑量化加载
-model = AutoModelForCausalLM.from_pretrained(mode_name_or_path,
-                                             trust_remote_code=True,
-                                             load_in_4bit=False,
-                                             device_map="auto",
-                                             torch_dtype=torch.bfloat16)
-model.eval()
 HUMAN_ROLE_START_TAG = "<|role_start|>human<|role_end|>"
 BOT_ROLE_START_TAG = "<|role_start|>bot<|role_end|>"
-text = f"{HUMAN_ROLE_START_TAG}请用C++实现求解第n个斐波那契数{BOT_ROLE_START_TAG}"
 inputs = tokenizer(text, return_tensors='pt', padding=True, add_special_tokens=False).to("cuda")
 outputs = model.generate(
         inputs=inputs["input_ids"],
@@ -271,18 +192,4 @@ outputs = model.generate(
     )
 gen_text = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[1]:], skip_special_tokens=True)
 print(gen_text)
-```
-## MD5
-我们发现模型文件可能会在传输过程中损坏，使用前请检查文件MD5值。
-| 模型文件                           | MD5值                            |
-|:---------------------------------|:--------------------------------:|
-| pytorch_model-00001-of-00007.bin | 8d544b1bcb3449934184d4141137329c |
-| pytorch_model-00002-of-00007.bin | 9d5dbb30911e48a42fb6d0fcabb322a4 |
-| pytorch_model-00003-of-00007.bin | b0d4aecee0457d9332005a187e1fffed |
-| pytorch_model-00004-of-00007.bin | 5c7e002de5eab77d0194a2b0f6de0c24 |
-| pytorch_model-00005-of-00007.bin | d22a511aa26b5b17117b665a877490ab |
-| pytorch_model-00006-of-00007.bin | a5c28ac277fac07d16dd66537e54d109 |
-| pytorch_model-00007-of-00007.bin | a967e2c6195477b7407089c0bffa2d53 |

 ---
 license: other
 ---
 # Model Card for CodeFuse-CodeLlama-34B
+![Creation Approach](LOGO.png)
 [[中文]](#chinese)    [[English]](#english)
 ## News and Updates
+🔥🔥🔥 CodeFuse-CodeLlama34B-MFT has achived 74.4% of pass@1 on HumanEval, which is SOTA at present.
 <br>
 ## Performance
+| Model                         | HumanEval(pass@1) |
+| :---------------------------- | :---------------: |
+| CodeLlama-34b                 |   48.8%(greedy decoding)   |
+| CodeLlama-34b-Python          |   53.7%(greedy decoding)   |
+| **CodeFuse-CodeLlama-34B** | **74.4%**(greedy decoding) |
 <br>
 ```
 ```python
 from transformers import (
     AutoTokenizer,
     AutoModelForCausalLM,
 tokenizer.padding_side = "left"
 tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<unk>")
 tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("</s>")
+model = AutoModelForCausalLM.from_pretrained(mode_name_or_path, trust_remote_code=True)
 HUMAN_ROLE_START_TAG = "<|role_start|>human<|role_end|>"
 BOT_ROLE_START_TAG = "<|role_start|>bot<|role_end|>"
 print(gen_text)
 ```
 <a id="chinese"></a>
 <br>
 ## 评测表现(代码)
+| 模型                         | HumanEval(pass@1) |
+| :---------------------------- | :---------------: |
+| CodeLlama-34b                 |   48.8%(greedy decoding)   |
+| CodeLlama-34b-Python          |   53.7%(greedy decoding)   |
+| **CodeFuse-CodeLlama-34B** | **74.4%**(greedy decoding) |
 <br>
 ## Requirements
 tokenizer.padding_side = "left"
 tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<unk>")
 tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("</s>")
+model = AutoModelForCausalLM.from_pretrained(mode_name_or_path, trust_remote_code=True)
 HUMAN_ROLE_START_TAG = "<|role_start|>human<|role_end|>"
 BOT_ROLE_START_TAG = "<|role_start|>bot<|role_end|>"
+text = f"{HUMAN_ROLE_START_TAG}write a python function of quick sort.{BOT_ROLE_START_TAG}"
 inputs = tokenizer(text, return_tensors='pt', padding=True, add_special_tokens=False).to("cuda")
 outputs = model.generate(
         inputs=inputs["input_ids"],
     )
 gen_text = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[1]:], skip_special_tokens=True)
 print(gen_text)
+```

config.json DELETED Viewed

@@ -1,29 +0,0 @@
-{
-  "_name_or_path": "/mnt/user/qumu/download_models/codellama/CodeLlama-34b-Python-hf",
-  "architectures": [
-    "LlamaForCausalLM"
-  ],
-  "bos_token_id": 1,
-  "eos_token": "</s>",
-  "eos_token_id": 2,
-  "hidden_act": "silu",
-  "hidden_size": 8192,
-  "initializer_range": 0.02,
-  "intermediate_size": 22016,
-  "max_position_embeddings": 16384,
-  "model_type": "llama",
-  "num_attention_heads": 64,
-  "num_hidden_layers": 48,
-  "num_key_value_heads": 8,
-  "pad_token": "<unk>",
-  "pad_token_id": 0,
-  "pretraining_tp": 1,
-  "rms_norm_eps": 1e-05,
-  "rope_scaling": null,
-  "rope_theta": 1000000,
-  "tie_word_embeddings": false,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.32.0",
-  "use_cache": true,
-  "vocab_size": 32000
-}

generation_config.json DELETED Viewed

@@ -1,6 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 1,
-  "eos_token_id": 2,
-  "transformers_version": "4.32.0"
-}

model-00001-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6d5a54ef32471bb89edbd806822bb1cb26b2625399985d82d7c82bc0bd41a045
-size 9852623784

model-00002-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:36711f98ab1c35cd12d64cbfad5f32c63c6051635a636c5b0c030c054133417e
-size 9689078960

model-00003-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bb22d378cd68bb5eb96d587b8ccc7154853ea46beb8982b30a2aa864163c7921
-size 9689078992

model-00004-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5440d42971927b4a1138b3428362258643f450bbb51aea455e87bb2c4fd0c4e1
-size 9689078992

model-00005-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c3a96944cf0d98734b2cbac54c52f5395e38230d9e717c48869bbb30a140baa6
-size 9689078992

model-00006-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ab1c88d8e5538b6981488d5346c25d27ccecbd4da00d02429b4660b91e091d5a
-size 9689078992

model-00007-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6ae8d424665e4c257d7a0339193c20d809c5bf6003fa2ba8dffad41c36a232cf
-size 9189972688

model.safetensors.index.json DELETED Viewed

@@ -1,442 +0,0 @@
-{
-    "metadata": {
-        "total_size": 67487940608
-    },
-    "weight_map": {
-        "lm_head.weight": "model-00007-of-00007.safetensors",
-        "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.10.input_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.input_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.input_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.13.input_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.13.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.13.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.14.input_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.input_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.input_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.input_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.input_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.input_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.20.input_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.20.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.20.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-        "model.layers.21.input_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.input_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.input_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.23.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.input_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.24.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.input_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.25.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.input_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.26.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.27.input_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.27.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.27.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.27.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.27.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.27.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.27.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.27.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-        "model.layers.28.input_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.28.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.input_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.29.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.3.input_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.30.input_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.30.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.input_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.31.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.input_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.32.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.input_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.33.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.34.input_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.34.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.34.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.34.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.34.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.34.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.34.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.34.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.34.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-        "model.layers.35.input_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.35.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.input_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.36.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.input_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.37.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.input_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.38.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.input_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.39.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.4.input_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.40.input_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.40.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.41.input_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.41.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.41.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.41.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.41.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.41.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.41.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.41.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.41.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-        "model.layers.42.input_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.42.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.input_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.43.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.input_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.44.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.input_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.45.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.input_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.46.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.input_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.47.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
-        "model.layers.5.input_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.6.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-        "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.input_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.input_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-        "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-        "model.norm.weight": "model-00007-of-00007.safetensors"
-    }
-}

pytorch_model-00001-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fb1cd3c944b6dd2ece21c09d7378a77ccc279867dfe4b8b8b7cbfa58e4ffe4a3
-size 9852638393

pytorch_model-00002-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1641f834b6d3938353873d95b642d0083ca806b7fd32dc8aaea0b3c64752b358
-size 9689094033

pytorch_model-00003-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:38ce1d749b110332ffbfc237c3271c10229f0913ed3e424aa61c4261af033357
-size 9689094033

pytorch_model-00004-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a5c7a36d9f48fdd4b629f44d6e238085fa727f393c94e6cdf17d4f5da19be613
-size 9689094033

pytorch_model-00005-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7ccdaa07cce1d16ed6d8ca1ca773b075f61c36d04430f8683b6e2bf458be4a72
-size 9689094033

pytorch_model-00006-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a257280910a701168406cc2114a669a975176ec08a373f7c2b7ba94d22c05215
-size 9689094033

pytorch_model-00007-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:aaef8ce33ccbc255d78026458d81fc9a55513a0d1ac3ef4f4f74967300af49e7
-size 9189986713

pytorch_model.bin.index.json DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9a714170172282cfbcaa120af13c0df08b06d040ff24dab30229d8a010821d3d
-size 35838

requirements.txt DELETED Viewed

@@ -1,14 +0,0 @@
-numpy
-pandas
-einops
-sentencepiece
-deepspeed==0.9.3
-transformers==4.32.0
-accelerate==0.21.0
-peft==0.4.0
-BitsAndBytes==0.40.2
-xformers==0.0.21
-ujson
-jsonlines
-tiktoken
-transformers_stream_generator

special_tokens_map.json DELETED Viewed

@@ -1,23 +0,0 @@
-{
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
-size 499723

tokenizer_config.json DELETED Viewed

@@ -1,33 +0,0 @@
-{
-  "bos_token": {
-    "__type": "AddedToken",
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "clean_up_tokenization_spaces": false,
-  "eos_token": {
-    "__type": "AddedToken",
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "legacy": null,
-  "model_max_length": 1000000000000000019884624838656,
-  "pad_token": null,
-  "sp_model_kwargs": {},
-  "tokenizer_class": "LlamaTokenizer",
-  "unk_token": {
-    "__type": "AddedToken",
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "use_default_system_prompt": true
-}