Docpick

Document in, Structured JSON out. Locally. With your schema.

docpick is a lightweight, schema-driven document extraction pipeline that combines local OCR engines with local LLMs to extract structured JSON from any document — invoices, receipts, bills of lading, tax forms, and more.

Zero cloud dependency — runs entirely on your machine (CPU or GPU)
Custom schemas — define your own Pydantic models or use 8 built-in document schemas
Validation built-in — checkdigit verification, cross-field rules, cross-document consistency
Apache 2.0 — no GPL/AGPL dependencies

Install

pip install docpick            # core (LLM extraction only)
pip install docpick[paddle]    # + PaddleOCR (recommended)
pip install docpick[easyocr]   # + EasyOCR (Korean-optimized)
pip install docpick[got]       # + GOT-OCR2.0 (GPU, vision-language)
pip install docpick[all]       # all OCR backends

Requirements: Python 3.11+ / LLM endpoint (vLLM, Ollama, or OpenAI-compatible)

Quick Start

Python API

from docpick import DocpickPipeline
from docpick.schemas import InvoiceSchema

pipeline = DocpickPipeline()
result = pipeline.extract("invoice.pdf", schema=InvoiceSchema)

print(result.data)           # Structured dict matching schema
print(result.validation)     # Validation errors/warnings
print(result.confidence)     # Per-field confidence scores

CLI

# Extract structured data
docpick extract invoice.pdf --schema invoice --output result.json

# OCR only (no LLM)
docpick ocr document.png --lang ko,en

# Validate extracted JSON
docpick validate result.json --schema invoice

# Batch process a directory
docpick batch ./documents/ --schema invoice --output ./results/ --concurrency 4

# List available schemas
docpick schemas list

# Show schema details
docpick schemas show invoice

Built-in Schemas

Schema	Document Type	Key Validations
`invoice`	Commercial invoices	Line item sums, tax ID checkdigit, date order
`receipt`	Retail/restaurant receipts	Total = subtotal + tax + tip
`bill_of_lading`	Ocean/air B/L	Container weight sums, ISO 6346, HS code format
`purchase_order`	Purchase orders	PO total = line items, delivery date order
`kr_tax_invoice`	Korean e-tax invoice (세금계산서)	Business number checkdigit (x2), supply/tax/total sums
`bank_statement`	Bank statements	IBAN mod97, period date order
`id_document`	Passport/ID (ICAO 9303)	MRZ, ISO 3166 country codes, date ranges
`certificate_of_origin`	Certificate of Origin	ISO 3166 alpha-2 country codes

Custom Schemas

Define your own schema with Pydantic:

from pydantic import BaseModel
from docpick import DocpickPipeline
from docpick.validation.rules import SumEqualsRule, RequiredFieldRule

class MyDocument(BaseModel):
    """Custom document schema."""
    company_name: str | None = None
    total_amount: float | None = None
    tax_amount: float | None = None
    net_amount: float | None = None
    items: list[dict] | None = None

    class ValidationRules:
        rules = [
            RequiredFieldRule("company_name"),
            SumEqualsRule(["net_amount", "tax_amount"], "total_amount"),
        ]

pipeline = DocpickPipeline()
result = pipeline.extract("my_document.pdf", schema=MyDocument)

Or use a JSON Schema file:

docpick extract document.pdf --schema my_schema.json

Validation

Check Digit Algorithms

Algorithm	Use Case
`kr_business_number`	Korean business registration number (10 digits)
`luhn`	Credit card numbers
`iso_6346`	Shipping container numbers
`iban_mod97`	International bank account numbers
`awb_mod7`	Air waybill numbers
`mrz`	Machine Readable Zone (passport/ID)

Cross-Field Rules

Rule	Description
`SumEqualsRule`	Sum of fields equals target (with tolerance)
`DateBeforeRule`	Date A must precede Date B
`RequiredFieldRule`	Field must be non-null and non-empty
`FieldEqualsRule`	Two fields must be equal
`RangeRule`	Numeric field within min/max bounds
`RegexRule`	Field matches regex pattern

Cross-Document Validation

Validate consistency across related documents (e.g., Invoice + B/L + Packing List):

from docpick.validation.cross_document import create_trade_document_validator

validator = create_trade_document_validator()
result = validator.validate({
    "invoice": invoice_data,
    "bl": bl_data,
    "packing_list": packing_list_data,
    "certificate": certificate_data,
})
print(result.is_valid)

OCR Engines

Engine	Type	GPU	Languages	Best For
PaddleOCR	Traditional OCR	Optional	111	General documents (default)
EasyOCR	Traditional OCR	Optional	80+	Korean text
GOT-OCR2.0	Vision-Language	Required	Multi	Complex layouts
VLM	Vision-Language	Required	Multi	Direct image → JSON

2-Tier Auto Engine

The default auto engine uses confidence-based fallback:

Tier 1 (CPU): PaddleOCR → EasyOCR
Tier 2 (GPU): GOT-OCR2.0 → VLM

If Tier 1 average confidence falls below threshold (default 0.7), automatically escalates to Tier 2.

LLM Providers

Provider	Endpoint	Default Model
vLLM	`http://localhost:30000/v1`	Qwen/Qwen3.5-32B-AWQ
Ollama	`http://localhost:11434`	qwen3.5:7b

Configure via CLI or YAML:

docpick config set llm.provider ollama
docpick config set llm.base_url http://localhost:11434
docpick config set llm.model qwen3.5:7b

Error Handling

The pipeline is designed to be resilient:

OCR failure → automatic fallback to next available engine
LLM JSON parse failure → automatic retry with correction prompt (up to 1 retry)
Partial results → returns whatever was extracted, with errors logged in result.errors
Document load failure → returns empty result with error message

result = pipeline.extract("damaged.pdf", schema=InvoiceSchema)
if result.errors:
    print("Pipeline warnings:", result.errors)
if result.data:
    print("Partial extraction:", result.data)

Batch Processing

Process entire directories with parallel workers:

from docpick.batch import BatchProcessor
from docpick.schemas import InvoiceSchema

processor = BatchProcessor(concurrency=4)
result = processor.process_directory(
    "./invoices/",
    schema=InvoiceSchema,
    recursive=True,
)

print(f"Processed {result.succeeded}/{result.total} files")
for path, extraction in result.results.items():
    print(f"{path}: {extraction.data.get('total_amount')}")

Architecture

Document (PDF/Image)
  → DocumentLoader (pypdfium2)
  → Tier 1: OCR (PaddleOCR/EasyOCR, CPU)
    → [confidence < threshold] → Tier 2: VLM (GOT/VLM, GPU)
  → LLM Extractor (vLLM/Ollama, schema prompt)
  → Pydantic Validation (checkdigit, cross-field, cross-document)
  → ExtractionResult (structured JSON + confidence + validation)

License

Apache 2.0 — all dependencies are Apache 2.0 or MIT licensed.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
docs		docs
src/docpick		src/docpick
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
server.json		server.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Docpick

Install

Quick Start

Python API

CLI

Built-in Schemas

Custom Schemas

Validation

Check Digit Algorithms

Cross-Field Rules

Cross-Document Validation

OCR Engines

2-Tier Auto Engine

LLM Providers

Error Handling

Batch Processing

Architecture

License

About

Uh oh!

Releases 2

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Docpick

Install

Quick Start

Python API

CLI

Built-in Schemas

Custom Schemas

Validation

Check Digit Algorithms

Cross-Field Rules

Cross-Document Validation

OCR Engines

2-Tier Auto Engine

LLM Providers

Error Handling

Batch Processing

Architecture

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 2

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages