Strojový překlad: Porovnání verzí

Smazaný obsah Přidaný obsah
→‎Akademické systémy: typo in surname
m →‎Statistický strojový překlad: typografické úpravy
Řádek 20:
Zvyšování výpočetní síly počítačů umožnilo v 90. letech 20. století masivní nástup statistických metod do počítačové lingvistiky, což v mnoha jejích oblastech způsobilo doslova revoluci. Nejinak tomu bylo u strojového překladu. Najednou již nebylo potřeba jazykových expertů desítek let vývoje. Ukázalo se, že dostatečné množství paralelních jazykových dat a statistické modelování dokáží v krátkém čase a s nevelkými náklady překonat mnohé stávající pravidlové systémy; stejně tak stvoření překladového systému pro nový jazykový pár se prakticky stalo pouze otázkou získání dostatečného množství dat.
 
Základem statistického překladového systému (SMT, Statistical Machine Translation) je dvojjazyčný (paralelní) korpus - sada dokumentů ve zdrojovém jazyce a jejich lidských překladů do cílového jazyka (nebo obráceně), typicky automaticky sesbíraných z internetu a dalších volně dostupných zdrojů. Z těchto dat si překladový systém extrahuje překladovou tabulku, tj. slovník obohacený o pravděpodobnosti (četnosti) jednotlivých možných překladů. Nejobvyklejším přístupem je frázový překlad, kdy překladová tabulka (zde nazývaná frázová tabulka) obsahuje nejen překlady jednotlivých slov, ale zejména krátkých frází - je tomu tak mimo jiné proto, že slova zdrojového a cílového jazyka si obvykle neodpovídají 1:1, a překlad celých víceslovných frází proto obvykle vede k lepším výsledkům.
 
Druhou zásadní částí statistického překladače je jazykový model pro cílový jazyk, který má za úkol z možných překladů jednotlivých frází vybrat takovou kombinaci, která vede ke koherentní a smysluplné cílové větě. Jazykový model se vytváří na základě jednojazyčného (monolinguálního) korpusu cílového jazyka. Pokud takový není k dispozici, lze použít i cílovou stranu paralelního korpusu, ale v typickém případě je jednojazyčných dat k dispozici řádově více než dvojjazyčných.