'''N-gram''' je definován jako [[sled]] n po sobě jdoucích položek z dané [[sekvenceposloupnost]]i. Ze [[sémantika|sémantického]] pohledu může být tato posloupnost buď posloupností slov nebo písmen. V praxi se častěji vyskytují n-gramy jako sled slov. Sled dvou po sobě jdoucích slov bývá často označován jako [[bigram]], pro sled tří položek je zažitý pojem [[trigram]]. Od čtyř a výše se používá označení Nn-gram, kde Nn je nahrazeno počtem za sebou jdoucích elementů. Při řešení úloh z oblasti počítačového [[zpracování přirozeného jazyka]] se na reprezentaci textu využívají ve většině případů slova nebo n-gramy slov.
== Extrakce N-gramů ==
[[Zpracování přirozeného jazyka]] je obor na rozhraní [[lingvistika|lingvistiky]] a [[Informatika_(počítačová_věda)|počítačové vědy]]. Tento pojem stejně symbolizuje zpracování ať už psaného nebo mluveného jazyka pro praktické a užitečné účely: překlad [[jazyk|jazyků]], získávání znalostí z [[Webový portál|webových portálů]], vedení konverzace s počítačem za účelem získání nových, smysluplných informací. V konečném důsledku jde o dosažení lepšího porozumění přirozeného jazyka počítačem.
Při řešení úloh z oblasti počítačového zpracování přirozeného jazyka se na reprezentaci textu využívají ve většině případů slova. Do popředí se však dostává využívání několika po sobě jdoucích n-tic slov, které se označují jako n-gramy.
Systém se zabývá vyhledáváním nejčastějších n-tic slov v rozsáhlém textu. Popsány jsou v něm základní metody pro extrakci slovních n-gramů:
* Nagao '94 algoritmus,
* Metoda využívající LZW algoritmus,
* Sufixové pole,
* Sufixový strom,
* Srovnání metod založených na sufixovom poli a sufixovom stromě,