Embedding Service Architecture

CPU-deployable RAG pipeline with multilingual embeddings, hybrid search, and AI-powered metadata extraction

384

Embedding Dimensions

Search Modes

100+

Languages Supported

System Architecture

API Layer

Embeddings

POST /v1/embeddings

POST /v1/search

PDF Upload

POST /v1/pdf-upload

Extract

POST /v1/extract

Processing Layer

ONNX Embedder

multilingual-e5-small

CPU-Optimized

BM25 Encoder

Sparse vectors

Keyword Search

Reranker

Cross-encoder

Relevance Boost

PDF Processor

Docling + Chunking

Document Parsing

LLM Extractor

OpenRouter API

Metadata AI

Storage Layer

Qdrant Vector Database

High-performance vector search engine

v1.16.2

Cosine Similarity

HNSW Index

Core Capabilities

Text Embeddings

Generate 384-dimensional semantic vectors for 100+ languages using E5-small model

Multilingual CPU-Fast ONNX

Hybrid Search

Combine semantic (dense) and keyword (sparse) search with Reciprocal Rank Fusion

Dense + Sparse RRF BM25

Cross-Encoder Reranking

Improve search relevance by reranking top results with cross-encoder model

Precision Boost Optional

PDF Processing

Automatic PDF parsing, chunking, and embedding using Docling document understanding

Docling Auto-Chunk Batch

LLM Extraction

Extract structured metadata from documents using AI-powered LLM analysis (Romanian + English)

OpenRouter Qwen Bilingual

Vector Search

Fast semantic search with metadata filtering, score thresholds, and pagination support

HNSW Filtering Scalable

Specs Management

View, search, and filter extracted specifications across all documents in a collection

Searchable Filterable Organized

Example Workflows

Real test data from

Using mock data - click refresh to run real benchmarks

Simple Semantic Search

Query: "How do I reset my password?"

POST /v1/embeddings → Generate 384-dim vector

Search Qdrant with cosine similarity

POST /v1/collections/docs/search → Top 5 results

Hybrid Search + Rerank

Dense (semantic) + Sparse (BM25)

Parallel search, merged with RRF

Fetch top 50 candidates

rerank_top_k: 50 → Cross-encoder scores

Return top 5 reranked results

Precision-optimized ranking

Improved relevance:

PDF Ingestion with AI Extraction

Upload product_manual.pdf

POST /v1/collections/products/pdf-upload

LLM extracts metadata (Romanian)

Embed all chunks → Store in Qdrant

47 vectors + metadata stored

Cross-Language Retrieval

Query in English: "warranty information"

E5 model understands semantic intent

Finds Romanian documents

Matches "garanție 2 ani" in stored docs

Cross-lingual magic:

Quick API Examples

Generate Embeddings

POST /v1/embeddings

{
  "input": "Hello world",
  "input_type": "document"
}

→ [0.023, -0.145, ..., 0.091]

384 dimensions, ~50ms

Hybrid Search

POST /v1/collections/docs/search

{
  "query": "password reset",
  "search_mode": "hybrid",
  "rerank": true,
  "top_k": 5
}

→ 5 results, reranked

Upload PDFs

POST /v1/collections/docs/pdf-upload

FormData:
  files: manual.pdf
  chunk_size: 400
  extract_specs: true

→ 47 chunks, metadata extracted

Extract Metadata

POST /v1/extract

{
  "text": "Router TP-Link...",
  "language_hint": "ro"
}

→ product, specs, confidence

Technology Stack

🐍

Python 3.11+

Runtime

⚡

FastAPI

Web Framework

🔢

ONNX Runtime

Inference

🗄️

Qdrant

Vector DB

📄

Docling

PDF Parser

🤖

OpenRouter

LLM API

🐳

Docker

Deployment

📦

Package Manager

Configuration

Configure your API key and service endpoint

API Key

Default: test-api-key

Base URL

The embedding service endpoint

Health Dashboard

Monitor service and dependency status

Service Status

Generate Embeddings

Convert text into 384-dimensional vector embeddings

Response

Collections

Manage your vector collections

New Collection

Similarity Search

Find similar vectors using text queries

Collection

Search Query

Search Mode

Dense (Semantic) Sparse (BM25) Hybrid (RRF)

Dense Weight:

More Keyword Balanced More Semantic

Top K

Score Threshold

Enable Cross-Encoder Reranking

Rerank results using a cross-encoder model for improved relevance

Rerank Top K (candidates)

Number of candidates to fetch before reranking (min: 10)

Search Results

Reranked ( candidates)

Extracted Specifications

View and search all extracted specifications from uploaded PDFs

Collection

Search Filename

Filter by Manufacturer

Min Confidence

Loading specifications...

Found documents with extracted specs

No specifications found

Metadata Extraction

Extract structured metadata from text using LLM (OpenRouter API)

Input Text

Text will be truncated to 14,000 characters

Language Hint

Custom Schema (JSON)

Optional: Define custom fields to extract

Extracted Metadata

Confidence:

fields

Product

Manufacturer

Model Number

Specifications

PDF Upload

Upload PDFs to automatically chunk, embed, and store

Target Collection

Click to upload or drag and drop

PDF files only (max 50MB each)

Configuration

Chunk Size (tokens)

Extract Metadata

Enable LLM extraction

Extract product specs using AI (requires API key)

Custom Schema (JSON)

Optional: Define custom extraction fields

Processing PDFs...

Converting file(s), chunking with Docling, generating embeddings, and storing vectors

Upload Results

Total PDFs

Successful

Chunks Created

Embedding Service Architecture

System Architecture

Core Capabilities

Text Embeddings

Hybrid Search

Cross-Encoder Reranking

PDF Processing

LLM Extraction

Vector Search

Specs Management

Example Workflows

Simple Semantic Search

Hybrid Search + Rerank

PDF Ingestion with AI Extraction

Cross-Language Retrieval

Quick API Examples

Generate Embeddings

Hybrid Search

Upload PDFs

Extract Metadata

Technology Stack

Configuration

Health Dashboard

Service Status

Detailed Health

Embedder

Qdrant

Generate Embeddings

Response

Collections

New Collection

No collections

Similarity Search

Search Results

Extracted Specifications

Technical Specifications:

No specifications found

Metadata Extraction

Extracted Metadata

PDF Upload

Configuration

Processing PDFs...

Upload Results

Extracted Metadata