ICR (intelligent character recognition) je technika v oblasti rozpoznávání znaků v ručně psaném textu (z předem určených oblastí, například dotazník, formuláře) a následný převod na znaky. Jedná se o pokročilejší úroveň známého OCR. OCR je technika rozpoznávání znaků z již vytisknutých souborů (např. vytisknutý dokument a program s OCR dokáže znovu pomocí scanneru rozpoznat znaky a převést je do virtuálního prostředí a umožnit např. editaci). V případě ICR se pak nejedná o rozpoznávání znaků z textu, ale o strojové rozpoznávaní ručně psaného textu a jeho převod na znaky.

Proces rozpoznání znaků editovat

Funkce je ještě k tomu rozšířena o učící algoritmus, který v průběhu urychluje práci programu a snižuje nároky na zásah od uživatele. Tím, že se program dokáže učit mu stačí jednou "říci", že tento zkomolený znak je "a" a program když jej příště neskenuje, tak jej automaticky vyhodnotí jako "a" a již se víc neptá. Tato technologie učení je založena konceptu neuronových sítí. Učení je velmi efektivní, ale přesto se nedá zaručit stoprocentní přesnost programu, v reálu průměrně 97%. Stejnou přesnost měla i forma zpracování v předcházející podobě. Dříve se celý proces transformace nestrukturovaných dat prováděl ručně. Člověk přesně přepisoval tištěnou formu i s formátováním do počítačové formy, ať už se jednalo o psaný či strukturovaný text. Tento způsob byl velmi pomalý a ani tak se nikdy nedosáhlo 100% úspěchu kvůli lidskému faktoru a nečitelným znakům z textu. Nyní se stále potýkáme s nerozpoznatelnými znaky, zato se tento proces velmi urychlil, snížila se časová náročnost na lidskou jednotku a automatizoval se (existují i tiskárny s automatickými podavači jednotlivých stránek se zásobníky na tisíce stránek).

Proces ICR je zakončen zobrazením všech naskenovaných a rozpoznaných stránek. V této části korektor opraví všechny znaky, které program označil jako nejisté a poté se zkompletuje a uloží celý dokument.

Zechnologie je velmi důležitá kvůli jejím využití při transformaci dat z nestrukturovaných do podoby dat strukturovaných, uložených a editovatelných v počítači, proto úzce souvisí s Enterprise content management.

Společnosti zabývající se ICR editovat

  • Parascript
  • A2iA
  • ABBYY
  • Acusoft
  • Cognitive Technologies
  • ExperVision
  • I. R. I. S. group
  • LEADTOOLS
  • Digital Syphon, ...

Další vývojový stupeň ICR editovat

Dalším stupněm ve vývoji technologii založené na OCR je Intelligent word recognition (IWR), neboli inteligentní rozpoznávání slov. Tato technologie nejenže dokáže rozpoznávat ručně psané znaky, ale je obohacena o schopnost rozpoznat znaky pod úhlem (známé taktéž jako kurzíva). Dalším rozdílem oproti ICR je, že IWR dokáže rozeznat celá slova, až celé fráze najednou.

Nepředpokládá se, že by IWR nahradilo ICR/OCR, ale spíše se jedná o optimalizované odvětví této tematiky. Slouží k minimalizaci ruční práce na transformaci nestrukturovaných dat.

Literatura editovat

  • Kunstová Renáta, Efektivní správa dokumentů, Grada, 2010, Praha