Strukturovaná data z <jakéhokoliv> webu.
//bez tichých chyb
- 01AI Fáze (Učení & Samo-oprava):
- AI se spouští pouze tehdy, když se tvoří nová šablona (první běh) nebo když selže validace (samo-oprava). AI zanalyzuje strukturu webu a vygeneruje rychlý lokální parser.
- 02Rychlá Fáze (SLA & Běžný provoz):
- Běžný provoz spouští lokální parser nad čerstvým HTML (< 1 s). Každá hodnota je však v reálném čase sémanticky ověřena mikro-AI modelem pro 100% garanci validity výstupů bez tichých chyb (naše SLA).
- 03Síťový stack:
- Vlastní fyzická LTE mobilní infrastruktura v ČR. Platí fixní cena za feed bez skrytých poplatků za objem přenesených proxy dat (No Bandwidth Tax).
- 04WAF Bypassing:
- Aktivní emulace JA4+ TLS a HTTP/2 otisků. Průchod přes DataDome, Cloudflare, Akamai, PerimeterX a Kasada.
- 05Validace:
- Duální křížová kontrola (deterministický got skript + kognitivní sémantická AI validace). Specifická validační pravidla a podmínky se konfigurují na míru pro každý datový feed v rámci dodávky.
- 06Doručení:
- Surový JSON, CSV nebo Parquet přes AWS S3 (GCS), SFTP, Webhook nebo dostupné přes REST API.
Živé demo (Příklad sémantické extrakce)
Self-healing a verifikační pipeline je univerzální a dokáže projektově parsovat jakákoliv strukturovaná data (reality, inzerci, B2B registry). Toto živé demo představuje technologii na přednastaveném schématu e-commerce produktů.
* V tomto veřejném demu je technologie demonstrována na produktovém schématu. Ostatní datové modely se konfigurují na klíč v rámci B2B dodávek.
První běh = plná generace (AI analýza struktury + vývoj parseru). Druhý běh = rychlá cache cesta.
Bojujete s udržováním vlastních scraperů?
Nechte doručování dat na mně. Nastavím vám bezplatný 30denní testovací feed (S3 / SFTP / Webhook / API) pro vaše cílové weby.
Jak garantuji kvalitu dat
Každá hodnota projde několika nezávislými vrstvami ověření. Systém vrací buď ověřená data, nebo poctivou míru jistoty — nikdy tiché chyby.
Duální křížová validace (Ground Truth)
Při učení cílového webu se křížově porovnávají dva nezávislé pohledy: strukturovaná extrakce z HTML a sémantická analýza screenshotu (Vision LLM). Shoda obou zdrojů tvoří ověřenou pravdu.
Sémantická arbitráž
Při rozporu rozhodne deterministický JSON-LD (včetně slevové SalePrice). Pokud strukturovaná data chybí, rozhodnutí provede asynchronní sémantický AI validátor na základě kontextu.
Self-healing parser
AI generátor systému napíše rychlý JS parser a v uzavřené smyčce ho optimalizuje tak dlouho, dokud jeho vygenerovaný výstup stoprocentně nesedí na ověřenou výchozí pravdu (Ground Truth).
Always-On AI Guard
Systém se nespoléhá slepě na vygenerovaný parser. Při každé extrakci se vyřízne HTML kontext a mikro-AI ověří sémantiku hodnoty podle validačních pravidel, která jsou v rámci dodávky nakonfigurována na míru.
Kontrolní číslice EAN + identita
Ověřuje se GTIN kontrolní číslice u EAN kódů. Shoda identity produktu vůči URL je hlídána, aby byly okamžitě odhaleny skryté redirecty nebo klamavé stránky (decoy).
Skóre spolehlivosti 0–1
Každé pole i celý výsledek nese exaktní skóre jistoty. Vícevariantní produkty nebo nejednoznačné rozvržení prvků systém poctivě označí. Raději klientovi vrátí varování než tichou chybu.
Systém překonává i zabezpečené weby
Systém autonomně detekuje typ ochrany (DataDome, Cloudflare, Imperva...) a volí optimální cestu — rychlý HTTP fetch, nebo stealth prohlížeč. U každého feedu reportuje, jaké zabezpečení obestoupil.
Kdo za tím stojí?
Jmenuji se Jan Hilgard a přes 20 let v ČR stavím internetovou infrastrukturu. Tento projekt je mým osobním dílem — sám spravuji hardware i kód, abych vám mohl osobně garantovat stabilitu doručení.
- 01HOSTING90 systems s.r.o. (exit 2020):
- 18 let jsem budoval a technicky řídil hostingovou infrastrukturu HOSTING90 systems s.r.o. až do jejího úspěšného prodeje mezinárodní skupině.
- 02GuruWatch (exit 2024):
- Vyvinul jsem a úspěšně prodal platformu GuruWatch.cz, která spolehlivě zpracovává produktová data pro značky jako Niceboy nebo Infinix.
- 03Open-Source:
- Aktivně přispívám do vývoje lokální AI inference (spoluautorství v projektu vllm-mlx na Apple Siliconu).
- 04Osobní SLA:
- Nejsem anonymní korporace. Pokud se objeví anomálie v datech, neřešíte ji přes anonymní support tikety, ale přímo se mnou.