Przegląd
Aplikacja desktop — backend Rust, powłoka Tauri 2, frontend Svelte 5 — która parsuje dokumenty lokalnie i ekstrahuje tekst plus obrazy z zachowaniem otaczającego kontekstu. Baza SQLite do szybkiego wyszukiwania, watch folder do automatyzacji, cross-platform (Linux i Windows).
Sednem nie jest parsowanie. Sednem jest lokalność. Chmurowe usługi OCR i document AI istnieją; ten produkt istnieje dla zespołów, których dokumenty prawnie nie mogą opuścić hosta.
Dla kogo
Cel to organizacje, dla których poufność dokumentów jest wymogiem regulacyjnym lub kontraktowym, nie preferencją:
- Kancelarie prawne — analiza umów, pism procesowych, opinii. Tajemnica zawodowa adwokata wyklucza chmurowe AI.
- Badania medyczne i laboratoria kliniczne — historie choroby, protokoły badań, dane prób. RODO i zgoda pacjenta nie obejmują zagranicznych usług LLM.
- Kancelarie patentowe — wnioski przed złożeniem. Nawet embedding wyciekły do training setu modelu wystarczy, żeby stracić nowość.
- Zespoły inżynieryjne i R&D — niezopatentowane IP, badania pre-publikacyjne, projekty wewnętrzne.
- Sektor publiczny — materiały klasyfikowane, objęte ograniczeniami albo kontrolą suwerenności.
- Korporacje z M&A albo strategicznym IP — raporty zarządu, materiały due diligence, modele finansowe.
Możliwości
- Parsowanie wielu formatów — PDF, DOCX, DOC, TXT, RTF.
- Ekstrakcja obrazów z otaczającym kontekstem — każdy obraz niesie 200 znaków poprzedzającego i następującego tekstu, marker pozycji, opcjonalny OCR i opcjonalny opis AI. Wykresy i diagramy zostają zakotwiczone do prozy, która je opisuje.
- Klasyfikacja typu dokumentu — automatyczne
wykrywanie typów (konfigurowalne; przykłady prawne dostarczone:
umowa,pozew,ustawa). - Watch folder — wrzuć pliki do monitorowanego katalogu; zostaną sparsowane i zindeksowane automatycznie.
- Baza SQLite — szybkie wyszukiwanie cross-document bez serwera. Pojedynczy plik, łatwy backup, brak dodatkowej usługi.
- Nowoczesny UI — dark theme, drag-and-drop, responsywny. Zbudowany na Svelte 5; reaktywny, mały bundle.
- Cross-platform binary — Linux i Windows. Tauri zachowuje pakiet mały (~10–20 MB) i runtime szybki.
Struktura wyjścia
Każdy przetworzony dokument tworzy samowystarczalny katalog:
processed/<document-id>/
├── document.md # Markdown czytelny dla człowieka
├── document.json # Strukturalne dane do AI
├── images/
│ ├── img_001.png # Wyekstrahowane obrazy
│ ├── img_001.json # Metadata + kontekst tekstowy obrazu
│ └── thumb_001.png # Miniaturka
└── original.pdf # Kopia oryginału (audit trail)
Dwa równoległe formaty: document.md dla ludzi i
document.json do ingestu przez AI. Obrazy żyją obok
siebie, każdy z własną metadatą sidecar opisującą kontekst tekstowy,
z którego został wyekstrahowany. Oryginał zachowany dla audytu.
Miejsce w ekosystemie
Document Processor jest producentem; reszta BuildOnAI konsumuje to, co produkuje.
- → Consciousness Server — zaingestuj folder dokumentów, każdy sparsowany rezultat staje się rekordem treningowym i notatką we wspólnej pamięci. Archiwum Twojego zespołu staje się odpytywalne przez każdego agenta.
- → Cortex — Cortex
czyta
document.jsonjako kontekst, odpowiada na pytania o sparsowany korpus lokalnie. "Pokaż mi wszystkie klauzule kontraktu dłuższe niż 12 miesięcy." Bez chmurowego LLM, bez danych opuszczających host. - → Key Server —
dystrybuuj Document Processor na wiele stanowisk w kancelarii lub
laboratorium; każdy pobiera swój token API z vaulta zamiast
mieć go zaszytego w
.env.
Instalacja (build ze źródła)
pre-1.0 dostarczane ze źródła. Pre-built installery dla Linuksa i Windows pojawią się z v1.0.
# Linux (Ubuntu/Debian) — zależności systemowe
sudo apt install -y libwebkit2gtk-4.1-dev libappindicator3-dev \
librsvg2-dev patchelf libssl-dev
# Zainstaluj Rusta
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# Sklonuj i zbuduj
git clone https://github.com/build-on-ai/document-processor.git
cd document-processor
npm install
npm run tauri build Uwaga Windows: najpierw zainstaluj WebView2 i Visual Studio Build Tools. Tauri używa systemowego WebView; nic nie jest bundlowane.
Status
pre-1.0 — działa i jest aktywnie używane, ale jeszcze nie zahartowane produkcyjnie. Publiczne wydanie to celowe czyste cięcie z trajektorii prywatnego rozwoju; bez wycieków prywatnych danych, bez wbudowanych ID klientów.
Co "pre-1.0" oznacza w praktyce:
- API może się zmienić bez okresu deprecacji. Nazwy
pól w
document.json, ścieżki podprocessed/, hooki pluginów — wszystko podlega rewizji do v1.0. - Edge-case PDF mogą zawodzić lub produkować zaszumiony output. Nietypowe layouty, ciężkie skany, pliki powyżej 100 MB — działa na większości dokumentów, ale failure modes są realne.
- Brak pre-built installerów. Build ze źródła na
razie (instrukcje wyżej). Linux
.AppImage+.debi Windows.msiprzyjdą z v1.0. - Pipeline OCR jest generyczny. Skany przechodzą przez podstawowy OCR; tuningowany pod konkretną branżę OCR (formularze prawne, dokumentacja medyczna) w roadmapie do v1.0.
- Bezpieczne na realnych dokumentach — output trafia do lokalnego katalogu, oryginał zachowany bez zmian, brak destrukcyjnych operacji na inpucie.
Jeśli próbujesz Document Processora w workflow regulowanym, uczciwa rekomendacja: najpierw sparsuj reprezentatywny podzbiór, sprawdź że format wyjścia spełnia Twoje potrzeby, potem rozszerzaj. v1.0 zamknie schemat.
Dalsze kroki
- Key Server →
- Zobacz na GitHub
- Profil bezpieczeństwa →