oscarqjh commited on 22 days ago

Commit

208b73d

verified ·

1 Parent(s): b1b4fdb

Upload qwen3_vl_finetuned_base_classifier classifier

Browse files

Files changed (18) hide show

.gitattributes +1 -0
README.md +84 -0
added_tokens.json +28 -0
chat_template.jinja +120 -0
config.json +12 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +723 -0
preprocessor_config.json +39 -0
requirements.txt +5 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
trainer_state.json +666 -0
training_args.bin +3 -0
video_preprocessor_config.json +41 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,84 @@

+---
+license: apache-2.0
+base_model: oscarqjh/Qwen3-VL-4B-Instruct-Flowers102-Open-QA
+tags:
+- vision
+- image-classification
+- flowers
+- multimodal
+- qwen3-vl
+- fine-tuned
+datasets:
+- flowers102
+language:
+- en
+pipeline_tag: image-classification
+---
+# Qwen3-VL Flowers102 Classifier
+Qwen3-VL classifier trained on Flowers102 dataset using the fine-tuned oscarqjh/Qwen3-VL-4B-Instruct-Flowers102-Open-QA model. This model adds a classification head for 102 flower categories on top of an already fine-tuned base model.
+This model is a fine-tuned version of [oscarqjh/Qwen3-VL-4B-Instruct-Flowers102-Open-QA](oscarqjh/Qwen3-VL-4B-Instruct-Flowers102-Open-QA) for flower classification on the Flowers102 dataset.
+## Model Description
+This is a multimodal classifier that combines:
+- **Vision Encoder**: Qwen3-VL vision transformer
+- **Language Model**: Qwen3-VL language model
+- **Classification Head**: Custom linear layers for 102 flower classes
+The model takes both image and text inputs (questions about flowers) and outputs classification predictions.
+## Usage
+```python
+from transformers import AutoProcessor
+from src.models.qwen_classifier import Qwen3VLClassifier
+import torch
+from PIL import Image
+# Load model and processor
+model = Qwen3VLClassifier.from_pretrained("your-username/model-name")
+processor = AutoProcessor.from_pretrained("oscarqjh/Qwen3-VL-4B-Instruct-Flowers102-Open-QA")
+# Prepare inputs
+image = Image.open("flower.jpg")
+text = "What type of flower is this?"
+# Create chat format
+messages = [{
+    'role': 'user',
+    'content': [
+        {'type': 'image', 'image': image},
+        {'type': 'text', 'text': text}
+    ]
+}]
+# Process inputs
+text_input = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
+inputs = processor(text=[text_input], images=[image], return_tensors="pt", padding=True)
+# Get predictions
+with torch.no_grad():
+    outputs = model(**inputs)
+    predicted_class = outputs.logits.argmax(dim=-1).item()
+    confidence = torch.softmax(outputs.logits, dim=-1).max().item()
+print(f"Predicted class: {predicted_class}, Confidence: {confidence:.4f}")
+```
+## Dataset
+The model was trained on the Flowers102 dataset, which contains 102 flower categories with:
+- 7,169 training images
+- 1,020 validation images
+- 6,149 test images
+## Citation
+If you use this model, please cite the original Qwen3-VL paper and the Flowers102 dataset.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,120 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' }}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- for message in messages %}
+    {%- if message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content_item in message.content %}
+                {%- if 'text' in content_item %}
+                    {{- content_item.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and message.content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "architectures": [
+    "Qwen3VLClassifier"
+  ],
+  "base_model_name_or_path": "oscarqjh/Qwen3-VL-4B-Instruct-Flowers102-Open-QA",
+  "dropout_rate": 0.1,
+  "dtype": "bfloat16",
+  "freeze_base_model": true,
+  "model_type": "qwen3_vl_classifier",
+  "num_classes": 102,
+  "transformers_version": "4.57.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9c1df63b207a9d05bd33cc61fd88d102029936548417c3fd3eaee08733bf409
+size 4990502384

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f74e6b39f2a5ba4c1f19b52b80e6ee13ef2bae46671217b1f5ac2d9c73728cf
+size 3885745980

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,723 @@

+{
+  "metadata": {
+    "total_parameters": 4438077030,
+    "total_size": 8876154060
+  },
+  "weight_map": {
+    "classifier.1.bias": "model-00002-of-00002.safetensors",
+    "classifier.1.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.language_model.norm.weight": "model-00002-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.19.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.20.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.21.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.22.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.23.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.0.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.0.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.0.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.0.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.0.norm.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.0.norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.1.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.1.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.1.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.1.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.1.norm.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.1.norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.2.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.2.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.2.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.2.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.2.norm.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.deepstack_merger_list.2.norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.merger.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.merger.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.merger.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.merger.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.merger.norm.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.merger.norm.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
+    "qwen3_vl.model.visual.pos_embed.weight": "model-00001-of-00002.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "disable_grouping": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Qwen2VLImageProcessorFast",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "max_pixels": null,
+  "merge_size": 2,
+  "min_pixels": null,
+  "pad_size": null,
+  "patch_size": 16,
+  "processor_class": "Qwen3VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_tensors": null,
+  "size": {
+    "longest_edge": 16777216,
+    "shortest_edge": 65536
+  },
+  "temporal_patch_size": 2
+}

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+torch>=2.0.0
+transformers>=4.40.0
+Pillow
+torchvision
+accelerate

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 262144,
+  "pad_token": "<|endoftext|>",
+  "processor_class": "Qwen3VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,666 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 897,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011154489682097044,
+      "grad_norm": 808.0,
+      "learning_rate": 2e-05,
+      "loss": 107.6756,
+      "step": 10
+    },
+    {
+      "epoch": 0.022308979364194088,
+      "grad_norm": 980.0,
+      "learning_rate": 4.222222222222222e-05,
+      "loss": 120.957,
+      "step": 20
+    },
+    {
+      "epoch": 0.03346346904629113,
+      "grad_norm": 956.0,
+      "learning_rate": 6.444444444444446e-05,
+      "loss": 112.0625,
+      "step": 30
+    },
+    {
+      "epoch": 0.044617958728388175,
+      "grad_norm": 528.0,
+      "learning_rate": 8.666666666666667e-05,
+      "loss": 99.8676,
+      "step": 40
+    },
+    {
+      "epoch": 0.05577244841048522,
+      "grad_norm": 624.0,
+      "learning_rate": 0.00010888888888888889,
+      "loss": 81.8344,
+      "step": 50
+    },
+    {
+      "epoch": 0.06692693809258227,
+      "grad_norm": 516.0,
+      "learning_rate": 0.00013111111111111111,
+      "loss": 71.5164,
+      "step": 60
+    },
+    {
+      "epoch": 0.0780814277746793,
+      "grad_norm": 568.0,
+      "learning_rate": 0.00015333333333333334,
+      "loss": 54.2641,
+      "step": 70
+    },
+    {
+      "epoch": 0.08923591745677635,
+      "grad_norm": 548.0,
+      "learning_rate": 0.00017555555555555556,
+      "loss": 55.875,
+      "step": 80
+    },
+    {
+      "epoch": 0.1003904071388734,
+      "grad_norm": 556.0,
+      "learning_rate": 0.00019777777777777778,
+      "loss": 51.6243,
+      "step": 90
+    },
+    {
+      "epoch": 0.11154489682097044,
+      "grad_norm": 470.0,
+      "learning_rate": 0.00019776951672862453,
+      "loss": 40.6197,
+      "step": 100
+    },
+    {
+      "epoch": 0.12269938650306748,
+      "grad_norm": 528.0,
+      "learning_rate": 0.0001952912019826518,
+      "loss": 45.5641,
+      "step": 110
+    },
+    {
+      "epoch": 0.13385387618516453,
+      "grad_norm": 398.0,
+      "learning_rate": 0.0001928128872366791,
+      "loss": 42.097,
+      "step": 120
+    },
+    {
+      "epoch": 0.14500836586726157,
+      "grad_norm": 516.0,
+      "learning_rate": 0.00019033457249070633,
+      "loss": 40.4828,
+      "step": 130
+    },
+    {
+      "epoch": 0.1561628555493586,
+      "grad_norm": 496.0,
+      "learning_rate": 0.0001878562577447336,
+      "loss": 42.0313,
+      "step": 140
+    },
+    {
+      "epoch": 0.16731734523145567,
+      "grad_norm": 470.0,
+      "learning_rate": 0.00018537794299876086,
+      "loss": 36.9686,
+      "step": 150
+    },
+    {
+      "epoch": 0.1784718349135527,
+      "grad_norm": 382.0,
+      "learning_rate": 0.0001828996282527881,
+      "loss": 32.9125,
+      "step": 160
+    },
+    {
+      "epoch": 0.18962632459564974,
+      "grad_norm": 616.0,
+      "learning_rate": 0.00018042131350681537,
+      "loss": 36.5671,
+      "step": 170
+    },
+    {
+      "epoch": 0.2007808142777468,
+      "grad_norm": 556.0,
+      "learning_rate": 0.00017794299876084264,
+      "loss": 28.4831,
+      "step": 180
+    },
+    {
+      "epoch": 0.21193530395984383,
+      "grad_norm": 492.0,
+      "learning_rate": 0.0001754646840148699,
+      "loss": 29.2506,
+      "step": 190
+    },
+    {
+      "epoch": 0.22308979364194087,
+      "grad_norm": 508.0,
+      "learning_rate": 0.00017298636926889714,
+      "loss": 28.3438,
+      "step": 200
+    },
+    {
+      "epoch": 0.23424428332403793,
+      "grad_norm": 520.0,
+      "learning_rate": 0.0001705080545229244,
+      "loss": 24.301,
+      "step": 210
+    },
+    {
+      "epoch": 0.24539877300613497,
+      "grad_norm": 476.0,
+      "learning_rate": 0.00016802973977695168,
+      "loss": 25.7563,
+      "step": 220
+    },
+    {
+      "epoch": 0.25655326268823203,
+      "grad_norm": 436.0,
+      "learning_rate": 0.00016555142503097895,
+      "loss": 24.0442,
+      "step": 230
+    },
+    {
+      "epoch": 0.26770775237032907,
+      "grad_norm": 502.0,
+      "learning_rate": 0.00016307311028500621,
+      "loss": 20.3451,
+      "step": 240
+    },
+    {
+      "epoch": 0.2788622420524261,
+      "grad_norm": 384.0,
+      "learning_rate": 0.00016059479553903348,
+      "loss": 22.2586,
+      "step": 250
+    },
+    {
+      "epoch": 0.29001673173452314,
+      "grad_norm": 474.0,
+      "learning_rate": 0.00015811648079306072,
+      "loss": 23.1332,
+      "step": 260
+    },
+    {
+      "epoch": 0.30117122141662017,
+      "grad_norm": 568.0,
+      "learning_rate": 0.000155638166047088,
+      "loss": 19.4339,
+      "step": 270
+    },
+    {
+      "epoch": 0.3123257110987172,
+      "grad_norm": 464.0,
+      "learning_rate": 0.00015315985130111526,
+      "loss": 19.7892,
+      "step": 280
+    },
+    {
+      "epoch": 0.3234802007808143,
+      "grad_norm": 458.0,
+      "learning_rate": 0.0001506815365551425,
+      "loss": 21.4668,
+      "step": 290
+    },
+    {
+      "epoch": 0.33463469046291133,
+      "grad_norm": 394.0,
+      "learning_rate": 0.00014820322180916976,
+      "loss": 17.7263,
+      "step": 300
+    },
+    {
+      "epoch": 0.34578918014500837,
+      "grad_norm": 384.0,
+      "learning_rate": 0.00014572490706319703,
+      "loss": 16.1147,
+      "step": 310
+    },
+    {
+      "epoch": 0.3569436698271054,
+      "grad_norm": 498.0,
+      "learning_rate": 0.0001432465923172243,
+      "loss": 17.4189,
+      "step": 320
+    },
+    {
+      "epoch": 0.36809815950920244,
+      "grad_norm": 424.0,
+      "learning_rate": 0.00014076827757125154,
+      "loss": 15.22,
+      "step": 330
+    },
+    {
+      "epoch": 0.3792526491912995,
+      "grad_norm": 408.0,
+      "learning_rate": 0.0001382899628252788,
+      "loss": 16.3009,
+      "step": 340
+    },
+    {
+      "epoch": 0.39040713887339656,
+      "grad_norm": 422.0,
+      "learning_rate": 0.0001358116480793061,
+      "loss": 16.6557,
+      "step": 350
+    },
+    {
+      "epoch": 0.4015616285554936,
+      "grad_norm": 418.0,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 14.89,
+      "step": 360
+    },
+    {
+      "epoch": 0.41271611823759063,
+      "grad_norm": 330.0,
+      "learning_rate": 0.0001308550185873606,
+      "loss": 12.7717,
+      "step": 370
+    },
+    {
+      "epoch": 0.42387060791968767,
+      "grad_norm": 502.0,
+      "learning_rate": 0.00012837670384138787,
+      "loss": 14.2706,
+      "step": 380
+    },
+    {
+      "epoch": 0.4350250976017847,
+      "grad_norm": 432.0,
+      "learning_rate": 0.00012589838909541511,
+      "loss": 15.7935,
+      "step": 390
+    },
+    {
+      "epoch": 0.44617958728388174,
+      "grad_norm": 454.0,
+      "learning_rate": 0.00012342007434944238,
+      "loss": 14.2595,
+      "step": 400
+    },
+    {
+      "epoch": 0.45733407696597883,
+      "grad_norm": 243.0,
+      "learning_rate": 0.00012094175960346965,
+      "loss": 12.5059,
+      "step": 410
+    },
+    {
+      "epoch": 0.46848856664807587,
+      "grad_norm": 400.0,
+      "learning_rate": 0.0001184634448574969,
+      "loss": 13.2633,
+      "step": 420
+    },
+    {
+      "epoch": 0.4796430563301729,
+      "grad_norm": 378.0,
+      "learning_rate": 0.00011598513011152417,
+      "loss": 10.6085,
+      "step": 430
+    },
+    {
+      "epoch": 0.49079754601226994,
+      "grad_norm": 288.0,
+      "learning_rate": 0.00011350681536555144,
+      "loss": 13.1564,
+      "step": 440
+    },
+    {
+      "epoch": 0.501952035694367,
+      "grad_norm": 402.0,
+      "learning_rate": 0.0001110285006195787,
+      "loss": 11.3698,
+      "step": 450
+    },
+    {
+      "epoch": 0.5131065253764641,
+      "grad_norm": 292.0,
+      "learning_rate": 0.00010855018587360594,
+      "loss": 10.3364,
+      "step": 460
+    },
+    {
+      "epoch": 0.524261015058561,
+      "grad_norm": 370.0,
+      "learning_rate": 0.00010607187112763321,
+      "loss": 11.7727,
+      "step": 470
+    },
+    {
+      "epoch": 0.5354155047406581,
+      "grad_norm": 416.0,
+      "learning_rate": 0.00010359355638166048,
+      "loss": 10.1074,
+      "step": 480
+    },
+    {
+      "epoch": 0.5465699944227551,
+      "grad_norm": 442.0,
+      "learning_rate": 0.00010111524163568773,
+      "loss": 12.4912,
+      "step": 490
+    },
+    {
+      "epoch": 0.5577244841048522,
+      "grad_norm": 278.0,
+      "learning_rate": 9.8636926889715e-05,
+      "loss": 10.6493,
+      "step": 500
+    },
+    {
+      "epoch": 0.5688789737869493,
+      "grad_norm": 324.0,
+      "learning_rate": 9.615861214374225e-05,
+      "loss": 10.2889,
+      "step": 510
+    },
+    {
+      "epoch": 0.5800334634690463,
+      "grad_norm": 410.0,
+      "learning_rate": 9.368029739776952e-05,
+      "loss": 11.2218,
+      "step": 520
+    },
+    {
+      "epoch": 0.5911879531511434,
+      "grad_norm": 318.0,
+      "learning_rate": 9.120198265179678e-05,
+      "loss": 9.0832,
+      "step": 530
+    },
+    {
+      "epoch": 0.6023424428332403,
+      "grad_norm": 378.0,
+      "learning_rate": 8.872366790582404e-05,
+      "loss": 9.1207,
+      "step": 540
+    },
+    {
+      "epoch": 0.6134969325153374,
+      "grad_norm": 296.0,
+      "learning_rate": 8.624535315985131e-05,
+      "loss": 9.3185,
+      "step": 550
+    },
+    {
+      "epoch": 0.6246514221974344,
+      "grad_norm": 256.0,
+      "learning_rate": 8.376703841387856e-05,
+      "loss": 7.045,
+      "step": 560
+    },
+    {
+      "epoch": 0.6358059118795315,
+      "grad_norm": 276.0,
+      "learning_rate": 8.128872366790583e-05,
+      "loss": 9.9175,
+      "step": 570
+    },
+    {
+      "epoch": 0.6469604015616286,
+      "grad_norm": 358.0,
+      "learning_rate": 7.881040892193308e-05,
+      "loss": 9.9291,
+      "step": 580
+    },
+    {
+      "epoch": 0.6581148912437256,
+      "grad_norm": 290.0,
+      "learning_rate": 7.633209417596035e-05,
+      "loss": 11.4162,
+      "step": 590
+    },
+    {
+      "epoch": 0.6692693809258227,
+      "grad_norm": 334.0,
+      "learning_rate": 7.385377942998762e-05,
+      "loss": 10.3434,
+      "step": 600
+    },
+    {
+      "epoch": 0.6804238706079196,
+      "grad_norm": 272.0,
+      "learning_rate": 7.137546468401487e-05,
+      "loss": 8.3913,
+      "step": 610
+    },
+    {
+      "epoch": 0.6915783602900167,
+      "grad_norm": 360.0,
+      "learning_rate": 6.889714993804214e-05,
+      "loss": 8.3737,
+      "step": 620
+    },
+    {
+      "epoch": 0.7027328499721138,
+      "grad_norm": 328.0,
+      "learning_rate": 6.64188351920694e-05,
+      "loss": 9.3919,
+      "step": 630
+    },
+    {
+      "epoch": 0.7138873396542108,
+      "grad_norm": 568.0,
+      "learning_rate": 6.394052044609665e-05,
+      "loss": 10.5123,
+      "step": 640
+    },
+    {
+      "epoch": 0.7250418293363079,
+      "grad_norm": 302.0,
+      "learning_rate": 6.146220570012391e-05,
+      "loss": 9.4829,
+      "step": 650
+    },
+    {
+      "epoch": 0.7361963190184049,
+      "grad_norm": 380.0,
+      "learning_rate": 5.8983890954151175e-05,
+      "loss": 8.2973,
+      "step": 660
+    },
+    {
+      "epoch": 0.747350808700502,
+      "grad_norm": 332.0,
+      "learning_rate": 5.650557620817844e-05,
+      "loss": 7.8408,
+      "step": 670
+    },
+    {
+      "epoch": 0.758505298382599,
+      "grad_norm": 201.0,
+      "learning_rate": 5.40272614622057e-05,
+      "loss": 7.4562,
+      "step": 680
+    },
+    {
+      "epoch": 0.769659788064696,
+      "grad_norm": 360.0,
+      "learning_rate": 5.154894671623296e-05,
+      "loss": 8.5639,
+      "step": 690
+    },
+    {
+      "epoch": 0.7808142777467931,
+      "grad_norm": 366.0,
+      "learning_rate": 4.907063197026023e-05,
+      "loss": 8.5916,
+      "step": 700
+    },
+    {
+      "epoch": 0.7919687674288901,
+      "grad_norm": 364.0,
+      "learning_rate": 4.6592317224287485e-05,
+      "loss": 8.4457,
+      "step": 710
+    },
+    {
+      "epoch": 0.8031232571109872,
+      "grad_norm": 346.0,
+      "learning_rate": 4.4114002478314745e-05,
+      "loss": 8.609,
+      "step": 720
+    },
+    {
+      "epoch": 0.8142777467930842,
+      "grad_norm": 280.0,
+      "learning_rate": 4.163568773234201e-05,
+      "loss": 9.5489,
+      "step": 730
+    },
+    {
+      "epoch": 0.8254322364751813,
+      "grad_norm": 185.0,
+      "learning_rate": 3.915737298636927e-05,
+      "loss": 7.9562,
+      "step": 740
+    },
+    {
+      "epoch": 0.8365867261572784,
+      "grad_norm": 290.0,
+      "learning_rate": 3.667905824039653e-05,
+      "loss": 7.4137,
+      "step": 750
+    },
+    {
+      "epoch": 0.8477412158393753,
+      "grad_norm": 197.0,
+      "learning_rate": 3.4200743494423794e-05,
+      "loss": 9.2086,
+      "step": 760
+    },
+    {
+      "epoch": 0.8588957055214724,
+      "grad_norm": 253.0,
+      "learning_rate": 3.1722428748451055e-05,
+      "loss": 8.1385,
+      "step": 770
+    },
+    {
+      "epoch": 0.8700501952035694,
+      "grad_norm": 286.0,
+      "learning_rate": 2.924411400247832e-05,
+      "loss": 7.7596,
+      "step": 780
+    },
+    {
+      "epoch": 0.8812046848856665,
+      "grad_norm": 404.0,
+      "learning_rate": 2.6765799256505576e-05,
+      "loss": 8.1014,
+      "step": 790
+    },
+    {
+      "epoch": 0.8923591745677635,
+      "grad_norm": 284.0,
+      "learning_rate": 2.4287484510532836e-05,
+      "loss": 7.4541,
+      "step": 800
+    },
+    {
+      "epoch": 0.9035136642498606,
+      "grad_norm": 229.0,
+      "learning_rate": 2.18091697645601e-05,
+      "loss": 9.0809,
+      "step": 810
+    },
+    {
+      "epoch": 0.9146681539319577,
+      "grad_norm": 418.0,
+      "learning_rate": 1.9330855018587364e-05,
+      "loss": 9.1107,
+      "step": 820
+    },
+    {
+      "epoch": 0.9258226436140546,
+      "grad_norm": 370.0,
+      "learning_rate": 1.685254027261462e-05,
+      "loss": 9.5154,
+      "step": 830
+    },
+    {
+      "epoch": 0.9369771332961517,
+      "grad_norm": 376.0,
+      "learning_rate": 1.4374225526641885e-05,
+      "loss": 10.4265,
+      "step": 840
+    },
+    {
+      "epoch": 0.9481316229782487,
+      "grad_norm": 225.0,
+      "learning_rate": 1.1895910780669145e-05,
+      "loss": 8.4274,
+      "step": 850
+    },
+    {
+      "epoch": 0.9592861126603458,
+      "grad_norm": 478.0,
+      "learning_rate": 9.417596034696406e-06,
+      "loss": 8.4255,
+      "step": 860
+    },
+    {
+      "epoch": 0.9704406023424428,
+      "grad_norm": 344.0,
+      "learning_rate": 6.939281288723669e-06,
+      "loss": 7.6423,
+      "step": 870
+    },
+    {
+      "epoch": 0.9815950920245399,
+      "grad_norm": 358.0,
+      "learning_rate": 4.4609665427509296e-06,
+      "loss": 7.3096,
+      "step": 880
+    },
+    {
+      "epoch": 0.992749581706637,
+      "grad_norm": 316.0,
+      "learning_rate": 1.982651796778191e-06,
+      "loss": 9.8214,
+      "step": 890
+    },
+    {
+      "epoch": 1.0,
+      "step": 897,
+      "total_flos": 4.962997023381914e+16,
+      "train_loss": 22.294092814127605,
+      "train_runtime": 338.838,
+      "train_samples_per_second": 21.158,
+      "train_steps_per_second": 2.647
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 897,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.962997023381914e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0adb6cbb88f46c1ec4c583c5c22925a1d2abddcb3e5bb295ca372bd2ed60fff
+size 5905

video_preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_sample_frames": true,
+  "fps": 2,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "max_frames": 768,
+  "merge_size": 2,
+  "min_frames": 4,
+  "num_frames": null,
+  "pad_size": null,
+  "patch_size": 16,
+  "processor_class": "Qwen3VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_metadata": false,
+  "size": {
+    "longest_edge": 25165824,
+    "shortest_edge": 4096
+  },
+  "temporal_patch_size": 2,
+  "video_metadata": null,
+  "video_processor_type": "Qwen3VLVideoProcessor"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff