taskarithmetic-Qwen2.5-7B-math-code / mergekit_config.yml

Upload folder using huggingface_hub

3a468a2 verified 2 months ago

512 Bytes

	# Task Arithmetic
	# Each lambda is 0.3, refer to AdaMerging Fig.1 [https://arxiv.org/abs/2310.02575]
	base_model: Qwen/Qwen2.5-7B
	models:
	- model: Qwen/Qwen2.5-Math-7B-Instruct
	parameters:
	weight: 1.0
	- model: Qwen/Qwen2.5-Coder-7B-Instruct
	parameters:
	weight: 1.0
	merge_method: task_arithmetic
	parameters:
	normalize: false
	lambda: 0.3
	dtype: float16
	tokenizer:
	source: union

	#MODEL_NAME=deepseek-ai/deepseek-math-7b-instruct
	#MODEL_NAME=deepseek-ai/deepseek-coder-7b-instruct-v1.5