document-processor pre-1.0 AGPL-3.0-only + Komercyjna

Document Processor

Parsuj PDF, DOCX, TXT — na swoim komputerze, nie ich.

Przegląd

Aplikacja desktop — backend Rust, powłoka Tauri 2, frontend Svelte 5 — która parsuje dokumenty lokalnie i ekstrahuje tekst plus obrazy z zachowaniem otaczającego kontekstu. Baza SQLite do szybkiego wyszukiwania, watch folder do automatyzacji, cross-platform (Linux i Windows).

Sednem nie jest parsowanie. Sednem jest lokalność. Chmurowe usługi OCR i document AI istnieją; ten produkt istnieje dla zespołów, których dokumenty prawnie nie mogą opuścić hosta.

Dla kogo

Cel to organizacje, dla których poufność dokumentów jest wymogiem regulacyjnym lub kontraktowym, nie preferencją:

  • Kancelarie prawne — analiza umów, pism procesowych, opinii. Tajemnica zawodowa adwokata wyklucza chmurowe AI.
  • Badania medyczne i laboratoria kliniczne — historie choroby, protokoły badań, dane prób. RODO i zgoda pacjenta nie obejmują zagranicznych usług LLM.
  • Kancelarie patentowe — wnioski przed złożeniem. Nawet embedding wyciekły do training setu modelu wystarczy, żeby stracić nowość.
  • Zespoły inżynieryjne i R&D — niezopatentowane IP, badania pre-publikacyjne, projekty wewnętrzne.
  • Sektor publiczny — materiały klasyfikowane, objęte ograniczeniami albo kontrolą suwerenności.
  • Korporacje z M&A albo strategicznym IP — raporty zarządu, materiały due diligence, modele finansowe.

Możliwości

  • Parsowanie wielu formatów — PDF, DOCX, DOC, TXT, RTF.
  • Ekstrakcja obrazów z otaczającym kontekstem — każdy obraz niesie 200 znaków poprzedzającego i następującego tekstu, marker pozycji, opcjonalny OCR i opcjonalny opis AI. Wykresy i diagramy zostają zakotwiczone do prozy, która je opisuje.
  • Klasyfikacja typu dokumentu — automatyczne wykrywanie typów (konfigurowalne; przykłady prawne dostarczone: umowa, pozew, ustawa).
  • Watch folder — wrzuć pliki do monitorowanego katalogu; zostaną sparsowane i zindeksowane automatycznie.
  • Baza SQLite — szybkie wyszukiwanie cross-document bez serwera. Pojedynczy plik, łatwy backup, brak dodatkowej usługi.
  • Nowoczesny UI — dark theme, drag-and-drop, responsywny. Zbudowany na Svelte 5; reaktywny, mały bundle.
  • Cross-platform binary — Linux i Windows. Tauri zachowuje pakiet mały (~10–20 MB) i runtime szybki.

Struktura wyjścia

Każdy przetworzony dokument tworzy samowystarczalny katalog:

processed/<id>/
processed/<document-id>/
├── document.md          # Markdown czytelny dla człowieka
├── document.json        # Strukturalne dane do AI
├── images/
│   ├── img_001.png      # Wyekstrahowane obrazy
│   ├── img_001.json     # Metadata + kontekst tekstowy obrazu
│   └── thumb_001.png    # Miniaturka
└── original.pdf         # Kopia oryginału (audit trail)

Dwa równoległe formaty: document.md dla ludzi i document.json do ingestu przez AI. Obrazy żyją obok siebie, każdy z własną metadatą sidecar opisującą kontekst tekstowy, z którego został wyekstrahowany. Oryginał zachowany dla audytu.

Miejsce w ekosystemie

Document Processor jest producentem; reszta BuildOnAI konsumuje to, co produkuje.

  • Consciousness Server — zaingestuj folder dokumentów, każdy sparsowany rezultat staje się rekordem treningowym i notatką we wspólnej pamięci. Archiwum Twojego zespołu staje się odpytywalne przez każdego agenta.
  • Cortex — Cortex czyta document.json jako kontekst, odpowiada na pytania o sparsowany korpus lokalnie. "Pokaż mi wszystkie klauzule kontraktu dłuższe niż 12 miesięcy." Bez chmurowego LLM, bez danych opuszczających host.
  • Key Server — dystrybuuj Document Processor na wiele stanowisk w kancelarii lub laboratorium; każdy pobiera swój token API z vaulta zamiast mieć go zaszytego w .env.

Instalacja (build ze źródła)

pre-1.0 dostarczane ze źródła. Pre-built installery dla Linuksa i Windows pojawią się z v1.0.

terminal
# Linux (Ubuntu/Debian) — zależności systemowe
sudo apt install -y libwebkit2gtk-4.1-dev libappindicator3-dev \
                    librsvg2-dev patchelf libssl-dev

# Zainstaluj Rusta
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

# Sklonuj i zbuduj
git clone https://github.com/build-on-ai/document-processor.git
cd document-processor
npm install
npm run tauri build

Uwaga Windows: najpierw zainstaluj WebView2 i Visual Studio Build Tools. Tauri używa systemowego WebView; nic nie jest bundlowane.

Status

pre-1.0 — działa i jest aktywnie używane, ale jeszcze nie zahartowane produkcyjnie. Publiczne wydanie to celowe czyste cięcie z trajektorii prywatnego rozwoju; bez wycieków prywatnych danych, bez wbudowanych ID klientów.

Co "pre-1.0" oznacza w praktyce:

  • API może się zmienić bez okresu deprecacji. Nazwy pól w document.json, ścieżki pod processed/, hooki pluginów — wszystko podlega rewizji do v1.0.
  • Edge-case PDF mogą zawodzić lub produkować zaszumiony output. Nietypowe layouty, ciężkie skany, pliki powyżej 100 MB — działa na większości dokumentów, ale failure modes są realne.
  • Brak pre-built installerów. Build ze źródła na razie (instrukcje wyżej). Linux .AppImage + .deb i Windows .msi przyjdą z v1.0.
  • Pipeline OCR jest generyczny. Skany przechodzą przez podstawowy OCR; tuningowany pod konkretną branżę OCR (formularze prawne, dokumentacja medyczna) w roadmapie do v1.0.
  • Bezpieczne na realnych dokumentach — output trafia do lokalnego katalogu, oryginał zachowany bez zmian, brak destrukcyjnych operacji na inpucie.

Jeśli próbujesz Document Processora w workflow regulowanym, uczciwa rekomendacja: najpierw sparsuj reprezentatywny podzbiór, sprawdź że format wyjścia spełnia Twoje potrzeby, potem rozszerzaj. v1.0 zamknie schemat.

Dalsze kroki