LALS
Lematizácia pre slovenčinu

Presné vyhľadávanie v slovenskom jazyku bez kompromisov

LALS je vysokovýkonná REST služba pre lematizáciu slovenského textu. Pomáha vyhľadávaniu, DMS systémom a NLP pipeline správne pracovať so skloňovaním, časovaním, HTML dokumentmi aj textom bez diakritiky.

400 000+ slov/s Vysoká priepustnosť pri produkčnej záťaži
~1 ms až ~10 ms Latencia v jednotkách milisekúnd
On-premise Dáta zostávajú vo vašom prostredí
Problém

Bežné fulltextové vyhľadávanie v slovenčine nestačí

Slovenský jazyk má bohatú morfológiu. Ak systém nepracuje s lemma tvarmi, rôzne tvary toho istého slova sa správajú ako rozdielne výrazy.

Čo sa deje bez lematizácie

  • „zákon“, „zákona“ a „zákony“ sa správajú ako odlišné výrazy.
  • Relevantné dokumenty sa nemusia nájsť, aj keď obsahujú správny význam.
  • Text bez diakritiky situáciu ešte zhoršuje.
  • Stemming pre slovenčinu často nestačí a vedie k nepresným výsledkom.

Čo robí LALS

  • Prevádza slová na základné tvary vhodné pre vyhľadávanie.
  • Pri nejednoznačných slovách vracia viac relevantných lemma kandidátov.
  • Podporuje spracovanie HTML a zachovanie pozícií slov pre highlighting.
  • Vie pracovať aj s textom bez diakritiky.
Prečo lematizácia

Slovenčina potrebuje lematizáciu, nie len orezávanie slov

Pri stemmingu zostávajú príbuzné tvary často neprepojené. Lematizácia vracia spoločný základný tvar a výrazne zlepšuje kvalitu vyhľadávania.

Príklad 1

Stemming
človek → člov
ľudia → ľud

Lematizácia
človek → človek
ľudia → človek

Príklad 2

Stemming
ísť → ís
ide → ide
išiel → iš

Lematizácia
ísť → ísť
ide → ísť
išiel → ísť

Výkon

Navrhnuté pre produkčné nasadenie

LALS je optimalizovaný na nízku latenciu, vysokú priepustnosť a stabilné správanie pri súbežnej záťaži.

426 000+ slov za sekundu na 12-jadrovom serveri
~2000 požiadaviek za sekundu pri dlhých textoch
~1 ms priemerná latencia pri krátkych textoch
< 40 ms p99 latencia aj pri vysokej záťaži

Kde LALS prináša hodnotu

  • fulltextové vyhľadávanie a enterprise search
  • dokumentové systémy a archívy
  • analýza e-mailov a komunikácie
  • eGovernment, compliance a právne systémy
  • NLP pipeline a predspracovanie textu pre AI

Kľúčové vlastnosti

  • špecializácia na slovenský jazyk
  • spracovanie HTML dokumentov a pozícií slov
  • podpora vstupu bez diakritiky
  • samostatná REST služba bez externých databáz
  • možnosť on-premise nasadenia cez .deb balík a systemd
Integrácia

Rýchle nasadenie do existujúcich systémov

LALS funguje ako standalone HTTP služba na embedded Jetty serveri a nevyžaduje externú databázu ani zložitú infraštruktúru.

REST API

Jednoduché endpointy pre voľný text aj HTML umožňujú rýchlu integráciu do backendových služieb, pipeline a vyhľadávacích systémov.

Apache Solr

Vlastný tokenizer pre Solr umožňuje lematizáciu, prácu s diakritikou aj highlighting vo formátovanom HTML obsahu.

Jednoduché nasadenie

Debian balík, systemd služba, konfiguračné súbory v /etc/lals a nemenné jazykové dáta v /usr/share/lals/data.

Pre partnerov

Pridaná hodnota pre integrátorov a enterprise dodávateľov

LALS je vhodný ako komponent do vlastných produktov a riešení, kde je dôležitá kvalita vyhľadávania v slovenskom jazyku bez potreby vlastného NLP vývoja.

  • zlepšenie vyhľadávania pre klientov bez budovania vlastného jazykového modulu
  • jednoduchá integrácia do DMS, archívov, knowledge base a enterprise search riešení
  • on-premise prevádzka vhodná pre citlivé dáta a regulované prostredia
  • možnosť rozšírenia o inteligentné query expansion ako samostatne licencovanú funkcionalitu
Dokumentácia

Podklady pripravené pre technické aj obchodné rokovania

K produktu je pripravená technická a integračná dokumentácia, benchmark aj materiál pre systémových integrátorov.

Technical Overview

Prehľad princípu fungovania, API endpointov, spracovania HTML, diakritiky a voliteľného query expansion.

Deployment Guide

Inštalácia .deb balíka, konfigurácia, systemd služba, upgrade postup a prevádzkové odporúčania.

Solr Integration Guide

Konfigurácia tokenizera, schéma, endpointy /text/ a /html/, highlighting a end-to-end scenár.

Benchmark a partner materiály

Výkonnostné čísla, latencie, škálovanie a argumenty pre partnerov a pilotné nasadenie.

Kontakt

Máte záujem o demo alebo technickú konzultáciu?

Rád ukážem reálne spracovanie slovenského textu, možnosti integrácie a vhodný spôsob nasadenia pre váš systém.

Napísať e-mail
Róbert Baláž

bohem303@gmail.com

+421 950 259 480

bob303.duckdns.org

Možnosť krátkeho dema, technickej konzultácie alebo partner diskusie.