FROM ghcr.io/ggml-org/llama.cpp:full

ARG MODEL_URL=$MODEL_URL

RUN apt update && apt install wget -y

RUN pip install flask

RUN wget $MODEL_URL -O /model.gguf

CMD ["--server", "-m", "/model.gguf", "--port", "7860", "--host", "0.0.0.0", "-n", "4096", "--threads", "2", "--jinja", "--reasoning-format", "none", "--mlock"]