--- tags: - code - python - java - javascript - go - ruby - rust - typescript - php - sentence-transformer base_model: - Shuu12121/CodeModernBERT-Owl-2.0 pipeline_tag: sentence-similarity library_name: sentence-transformers license: apache-2.0 language: - en datasets: - Shuu12121/python-codesearch-dedupe-filtered - Shuu12121/java-codesearch-dedupe-filtered - Shuu12121/javascript-codesearch-dedupe-filtered - Shuu12121/typescipt-codesearch-dedupe-filtered - Shuu12121/go-codesearch-dedupe-filtered - Shuu12121/ruby-codesearch-dedupe-filtered - Shuu12121/rust-codesearch-dedupe-filtered - Shuu12121/php-codesearch-dedupe-filtered --- # 🦉 CodeSearch-ModernBERT-Owl-2.0-Plus ## 日本語版(Japanese) **Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus** は、マルチリンガルなコード理解・検索のために設計された **CodeModernBERT-Owl** 系列の最新事前学習モデルです。 本モデルは、VSCode拡張機能 [**OwlSpotlight**](https://marketplace.visualstudio.com/items?itemName=Shun0212.owlspotlight) にて使用されており、関数レベルの意味的コード検索を実現します。 ### 🔧 特徴 - **独自コーパスで事前学習** CodeBERT (Feng et al., 2020) の約4倍の規模となる、完全独自収集の高品質なコード・docstringコーパスを用いて事前学習。 - **8言語対応** Python, Java, JavaScript, PHP, Ruby, Go, Rust に加えて、**TypeScript** を新たにサポート。 - **長文対応(最大8192トークン)** 訓練時最大2048トークン、推論時には8192トークンまでの入力を処理可能(Position Embedding拡張済み)。 - **徹底したノイズ除去・データクリーニング** - Tree-sitter による関数・docstring抽出 - 無意味な定型コメント・多言語ノイズの除去 - シークレット・APIキーの自動マスキング - ライセンス記述の除外 - 重複関数の除去によるリーク対策 ### 📦 基本情報 | 項目 | 内容 | |------|------| | モデル名 | Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus | | モデルサイズ | 約150Mパラメータ(ModernBERTベース) | | 対応言語 | Python, Java, JavaScript, PHP, Ruby, Go, Rust, TypeScript | | 最大トークン長 | 学習時: 2048 / 推論時: 8192 | | トークナイザ | 独自BPE(50,000語彙) | ### 🚀 主な用途 - 関数レベルの意味的コード検索(自然言語 → 関数コード) - コード補完・要約・分類・クローン検出などの下流タスク - Retrieval-Augmented Generation(RAG)における高精度なコード検索 ### 🧪 利用例:VSCode拡張「[OwlSpotlight](https://github.com/Shun0212/OwlSpotLight)」 本モデルは、[OwlSpotlight](https://marketplace.visualstudio.com/items?itemName=Shun0212.owlspotlight) に組み込まれており、自然言語による直感的な関数検索が可能です。 🖥 Mac(Mシリーズ含む)上で軽量に動作し、開発中のコードベースに即座にインデックス作成・検索できます。 --- ## English Version **Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus** is the latest pretrained model in the multilingual **CodeModernBERT-Owl** series, designed for high-quality code understanding and semantic retrieval. It powers the [**OwlSpotlight**](https://marketplace.visualstudio.com/items?itemName=Shun0212.owlspotlight) extension for VSCode, enabling fast and intuitive natural language to code search at the function level. ### 🔧 Highlights - **Pretrained on a custom large-scale corpus** The training corpus is ~4x larger than CodeBERT’s bimodal dataset and built entirely from scratch, ensuring high-quality code and documentation pairs. - **Supports 8 programming languages** Python, Java, JavaScript, PHP, Ruby, Go, Rust, and newly **TypeScript**. - **Long-sequence input support** Trained on sequences up to 2048 tokens, and extended to handle 8192 tokens at inference. - **Robust data cleaning & filtering** - Tree-sitter-based function/docstring extraction - Removal of templated or non-English comments - API key and secret masking - License-related content exclusion - Deduplication for data leakage prevention ### 📦 Model Specs | Item | Detail | |------|--------| | Name | Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus | | Size | ~150M parameters (ModernBERT backbone) | | Supported Languages | Python, Java, JavaScript, PHP, Ruby, Go, Rust, TypeScript | | Max Token Length | 2048 (train), 8192 (inference) | | Tokenizer | Custom BPE tokenizer (50k vocab) | ### 🚀 Use Cases - Function-level semantic code search (natural language → code) - Code completion, summarization, classification, and clone detection - Retrieval for RAG systems ### 🧪 Real-World Use: [OwlSpotlight](https://github.com/Shun0212/OwlSpotLight) This model is used in the [OwlSpotlight](https://marketplace.visualstudio.com/items?itemName=Shun0212.owlspotlight) VSCode extension. Search through your Python codebase using plain English and jump instantly to relevant functions with semantic understanding. Tested and optimized for macOS (including Apple Silicon).