Spaces:

lorebianchi98
/

NoctOWL

Running

App Files Files Community

lorebianchi98 commited on Oct 10

Commit

ad13250

1 Parent(s): fc85de6

First commit

Browse files

Files changed (6) hide show

.gitattributes +2 -0
app.py +129 -0
assets/desciglio.jpg +3 -0
assets/patio.jpg +3 -0
assets/pool.jpg +3 -0
requirements.txt +6 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text
+*.jpg filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,129 @@

+import torch
+import gradio as gr
+from transformers import Owlv2Processor, Owlv2ForObjectDetection
+import os
+import torchvision
+# --- Setup ---
+os.environ["GRADIO_TEMP_DIR"] = "tmp"
+os.makedirs(os.environ["GRADIO_TEMP_DIR"], exist_ok=True)
+# Handle ZeroGPU safely for local debugging
+try:
+    import spaces
+except ImportError:
+    class spaces:
+        def GPU(*args, **kwargs):
+            def decorator(fn): return fn
+            return decorator
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# --- Load Models ---
+print("Loading models...")
+noctowlv2_base = Owlv2ForObjectDetection.from_pretrained(
+    "lorebianchi98/NoctOWLv2-base-patch16"
+).to(device)
+processorv2_base = Owlv2Processor.from_pretrained("google/owlv2-base-patch16")
+noctowlv2_large = Owlv2ForObjectDetection.from_pretrained(
+    "lorebianchi98/NoctOWLv2-large-patch14"
+).to(device)
+processorv2_large = Owlv2Processor.from_pretrained("google/owlv2-large-patch14")
+MODELS = {
+    "NoctOWLv2-Base": (noctowlv2_base, processorv2_base),
+    "NoctOWLv2-Large": (noctowlv2_large, processorv2_large),
+}
+# --- Inference Function ---
+@spaces.GPU(duration=120)
+def query_image(img, text_queries, score_threshold, selected_model):
+    if img is None:
+        raise gr.Error("Please upload or select an example image first.")
+    if not text_queries.strip():
+        raise gr.Error("Please enter at least one text query.")
+    if selected_model is None or selected_model == "":
+        raise gr.Error("Please select a model before running inference.")
+    model, processor = MODELS[selected_model]
+    model = model.to(device)
+    # Prepare text
+    text_queries = [f"a {t.strip()}" for t in text_queries.split(",") if t.strip()]
+    if not text_queries:
+        raise gr.Error("No valid queries found. Please check your input text.")
+    # Preprocess
+    size = max(img.shape[:2])
+    target_sizes = torch.Tensor([[size, size]])
+    inputs = processor(text=text_queries, images=img, return_tensors="pt").to(device)
+    # Inference
+    with torch.no_grad():
+        outputs = model(**inputs)
+    # Postprocess
+    outputs.logits = outputs.logits.cpu()
+    outputs.pred_boxes = outputs.pred_boxes.cpu()
+    results = processor.post_process_object_detection(
+        outputs=outputs, target_sizes=target_sizes, threshold=score_threshold
+    )
+    boxes, scores, labels = results[0]["boxes"], results[0]["scores"], results[0]["labels"]
+    # Non-Maximum Suppression
+    keep = torchvision.ops.nms(boxes, scores, iou_threshold=0.5)
+    boxes, scores, labels = boxes[keep], scores[keep], labels[keep]
+    # Format output
+    result_labels = []
+    for box, score, label in zip(boxes, scores, labels):
+        if score < score_threshold:
+            continue
+        box = [int(i) for i in box.tolist()]
+        result_labels.append((box, f"{text_queries[label.item()]} ({score:.2f})"))
+    return img, result_labels
+# --- Interface Description ---
+description = """
+# 🦉 **NoctOWLv2: Fine-Grained Open-Vocabulary Object Detection**
+**NoctOWL** (***N***ot **o**nly **c**oarse-**t**ext **OWL**) extends **OWL-ViT** and **OWLv2** for **Fine-Grained Open-Vocabulary Detection (FG-OVD)**.
+It can recognize subtle object differences such as **color, texture, and material**, while retaining strong coarse-grained detection abilities.
+**Available Models:**
+- 🧩 **NoctOWLv2-Base** — Smaller and faster.
+- 🧠 **NoctOWLv2-Large** — More accurate, higher capacity.
+📘 [Training & evaluation code](https://github.com/lorebianchi98/FG-OVD/NoctOWL)
+"""
+# --- Gradio Interface ---
+demo = gr.Interface(
+    fn=query_image,
+    inputs=[
+        gr.Image(label="Input Image"),
+        gr.Textbox(label="Text Queries (comma-separated)", placeholder="e.g., red shoes, striped shirt, yellow ball"),
+        gr.Slider(0, 1, value=0.1, step=0.01, label="Score Threshold"),
+        gr.Dropdown(
+            choices=["NoctOWLv2-Base", "NoctOWLv2-Large"],
+            label="Select Model",
+            value=None,
+            info="Select which model to use for detection",
+        ),
+    ],
+    outputs=gr.AnnotatedImage(label="Detected Objects"),
+    title="NoctOWLv2 — Fine-Grained Zero-Shot Object Detection",
+    description=description,
+    examples=[
+        ["assets/desciglio.jpg", "striped football shirt, plain red football shirt, yellow shoes, red shoes", 0.07],
+        ["assets/pool.jpg", "white ball, blue ball, black ball, yellow ball", 0.1],
+        ["assets/patio.jpg", "ceramic mug, glass mug, pink flowers, blue flowers", 0.09],
+    ],
+)
+demo.launch()

assets/desciglio.jpg ADDED Viewed

Git LFS Details

SHA256: 46cae508c3fb2f760b6c6c7adccd3d34aa129b8d0ddce184ea9b002a654ef281
Pointer size: 130 Bytes
Size of remote file: 62.9 kB

assets/patio.jpg ADDED Viewed

Git LFS Details

SHA256: bbe11a884efe04fe6e1f7a531dcbbce7fcc8b7b03931abe82282252fe7e77000
Pointer size: 131 Bytes
Size of remote file: 263 kB

assets/pool.jpg ADDED Viewed

Git LFS Details

SHA256: da2cd6f4a34576ad3d465f85700e9a0e82c82a194b2558cc0b7e736725c0f3ce
Pointer size: 131 Bytes
Size of remote file: 311 kB

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+numpy>=1.18.5
+torch>=1.7.0
+torchvision>=0.8.1
+git+https://github.com/huggingface/transformers.git
+scipy
+spaces