Verze z 3. 7. 2018, 17:27 editovat 31.31.235.92 (diskuse) →‎Akademické systémy: typo in surname značka: editace z Vizuálního editoru ← Přejít na předchozí porovnání		Verze z 8. 12. 2018, 16:59 editovat zrušit editaci DraceaBot (diskuse \| příspěvky) Roboti 27 876 editací m →‎Statistický strojový překlad: typografické úpravy Přejít na další porovnání →
Řádek 20: Zvyšování výpočetní síly počítačů umožnilo v 90. letech 20. století masivní nástup statistických metod do počítačové lingvistiky, což v mnoha jejích oblastech způsobilo doslova revoluci. Nejinak tomu bylo u strojového překladu. Najednou již nebylo potřeba jazykových expertů desítek let vývoje. Ukázalo se, že dostatečné množství paralelních jazykových dat a statistické modelování dokáží v krátkém čase a s nevelkými náklady překonat mnohé stávající pravidlové systémy; stejně tak stvoření překladového systému pro nový jazykový pár se prakticky stalo pouze otázkou získání dostatečného množství dat. Základem statistického překladového systému (SMT, Statistical Machine Translation) je dvojjazyčný (paralelní) korpus -– sada dokumentů ve zdrojovém jazyce a jejich lidských překladů do cílového jazyka (nebo obráceně), typicky automaticky sesbíraných z internetu a dalších volně dostupných zdrojů. Z těchto dat si překladový systém extrahuje překladovou tabulku, tj. slovník obohacený o pravděpodobnosti (četnosti) jednotlivých možných překladů. Nejobvyklejším přístupem je frázový překlad, kdy překladová tabulka (zde nazývaná frázová tabulka) obsahuje nejen překlady jednotlivých slov, ale zejména krátkých frází -– je tomu tak mimo jiné proto, že slova zdrojového a cílového jazyka si obvykle neodpovídají 1:1, a překlad celých víceslovných frází proto obvykle vede k lepším výsledkům. Druhou zásadní částí statistického překladače je jazykový model pro cílový jazyk, který má za úkol z možných překladů jednotlivých frází vybrat takovou kombinaci, která vede ke koherentní a smysluplné cílové větě. Jazykový model se vytváří na základě jednojazyčného (monolinguálního) korpusu cílového jazyka. Pokud takový není k dispozici, lze použít i cílovou stranu paralelního korpusu, ale v typickém případě je jednojazyčných dat k dispozici řádově více než dvojjazyčných.

Strojový překlad: Porovnání verzí