N-gram: Porovnání verzí

Smazaný obsah Přidaný obsah
m Stránka Extrakce n-gramu přemístěna na stránku N-gram: název dle iw
minus nesrozumitelné a nesouvisející části
Řádek 1:
{{neověřeno}}
{{Kategorizovat}}
'''N-gram''' je definován jako [[sled]] n po sobě jdoucích položek z dané [[sekvenceposloupnost]]i. Ze [[sémantika|sémantického]] pohledu může být tato posloupnost buď posloupností slov nebo písmen. V praxi se častěji vyskytují n-gramy jako sled slov. Sled dvou po sobě jdoucích slov bývá často označován jako [[bigram]], pro sled tří položek je zažitý pojem [[trigram]]. Od čtyř a výše se používá označení Nn-gram, kde Nn je nahrazeno počtem za sebou jdoucích elementů. Při řešení úloh z oblasti počítačového [[zpracování přirozeného jazyka]] se na reprezentaci textu využívají ve většině případů slova nebo n-gramy slov.
 
== Extrakce N-gramů ==
[[Zpracování přirozeného jazyka]] je obor na rozhraní [[lingvistika|lingvistiky]] a [[Informatika_(počítačová_věda)|počítačové vědy]]. Tento pojem stejně symbolizuje zpracování ať už psaného nebo mluveného jazyka pro praktické a užitečné účely: překlad [[jazyk|jazyků]], získávání znalostí z [[Webový portál|webových portálů]], vedení konverzace s počítačem za účelem získání nových, smysluplných informací. V konečném důsledku jde o dosažení lepšího porozumění přirozeného jazyka počítačem.
 
Při řešení úloh z oblasti počítačového zpracování přirozeného jazyka se na reprezentaci textu využívají ve většině případů slova. Do popředí se však dostává využívání několika po sobě jdoucích n-tic slov, které se označují jako n-gramy.
 
Systém se zabývá vyhledáváním nejčastějších n-tic slov v rozsáhlém textu. Popsány jsou v něm základní metody pro extrakci slovních n-gramů:
* Nagao '94 algoritmus,
* Metoda využívající LZW algoritmus,
* Sufixové pole,
* Sufixový strom,
* Srovnání metod založených na sufixovom poli a sufixovom stromě,
* invertní index.
 
{{Pahýl}}