Verze z 1. 2. 2011, 19:27 editovat Kacir (diskuse \| příspěvky) Prověření uživatelé, Správci 212 653 editací m Stránka Extrakce n-gramu přemístěna na stránku N-gram: název dle iw ← Přejít na předchozí porovnání		Verze z 2. 2. 2011, 12:04 editovat zrušit editaci Jvs (diskuse \| příspěvky) Prověření uživatelé, Správci 83 615 editací minus nesrozumitelné a nesouvisející části Přejít na další porovnání →
Řádek 1: {{neověřeno}} {{Kategorizovat}} '''N-gram''' je definován jako [[sled]] n po sobě jdoucích položek z dané [[~~sekvence~~posloupnost]]i. Ze [[sémantika\|sémantického]] pohledu může být tato posloupnost buď posloupností slov nebo písmen. V praxi se častěji vyskytují n-gramy jako sled slov. Sled dvou po sobě jdoucích slov bývá často označován jako [[bigram]], pro sled tří položek je zažitý pojem [[trigram]]. Od čtyř a výše se používá označení Nn-gram, kde Nn je nahrazeno počtem za sebou jdoucích elementů. Při řešení úloh z oblasti počítačového [[zpracování přirozeného jazyka]] se na reprezentaci textu využívají ve většině případů slova nebo n-gramy slov. ~~== Extrakce N-gramů ==~~ [[Zpracování přirozeného jazyka]] je obor na rozhraní [[lingvistika\|lingvistiky]] a [[Informatika_(počítačová_věda)\|počítačové vědy]]. Tento pojem stejně symbolizuje zpracování ať už psaného nebo mluveného jazyka pro praktické a užitečné účely: překlad [[jazyk\|jazyků]], získávání znalostí z [[Webový portál\|webových portálů]], vedení konverzace s počítačem za účelem získání nových, smysluplných informací. V konečném důsledku jde o dosažení lepšího porozumění přirozeného jazyka počítačem. Při řešení úloh z oblasti počítačového zpracování přirozeného jazyka se na reprezentaci textu využívají ve většině případů slova. Do popředí se však dostává využívání několika po sobě jdoucích n-tic slov, které se označují jako n-gramy. ~~Systém se zabývá vyhledáváním nejčastějších n-tic slov v rozsáhlém textu. Popsány jsou v něm základní metody pro extrakci slovních n-gramů:~~ * Nagao '94 algoritmus, * Metoda využívající LZW algoritmus, * Sufixové pole, * Sufixový strom, * Srovnání metod založených na sufixovom poli a sufixovom stromě, * invertní index. {{Pahýl}}

N-gram: Porovnání verzí