OPUS

projekt zpracování textů v různých jazycích

OPUS (Open Source Parallel Corpus) je projekt, zabývající se zpracováním vícejazyčných textů za účelem získání dat, která lze následně využít například při rozšiřování slovníků či strojovém překladu.

Náplň projektu

editovat

K samotnému zpracování dochází výhradně strojově, za použití několika open source nástrojů. OPUS sám o sobě je balík pod licencí open source. Při zpracování v podstatě dochází především k přiřazení odpovídajících si vět v různých jazycích k sobě. Podle povahy dokumentů je tak získáno velké množství dat, ve kterých je několik vět mezi stejnými jazyky překládáno často mnoha způsoby, nezřídka je vyhodnocována i situace, kdy je jediná věta v jednom jazyce přeložena několika větami jazyka druhého. K dosažení kýženého výsledku je využíváno různých heuristik, v závislosti mimo jiné i na povaze zpracovávaných dokumentů. Lingvisté vzorky výsledků ohodnotili ve valné většině správností přesahující 80%, často je výsledek i 100%, a to dokonce i při srovnávání jazyků, jako jsou bulharština a nizozemština.[zdroj?]

Příklady již zpracovaných dat

editovat

Součástí projektu se stalo zpracování několika zdrojů dokumentů, dostupných ve více jazycích. Výsledky zpracování, jakož i mnoho dalších informací a dokumentů, jsou dostupné na serveru projektu. Například při zpracování databáze filmových titulků, poskytnuté serverem opensubtitles.org, bylo získáno 361 souborů, obsahujících dvojjazyčné zarovnané texty. Zpracovávané texty byly ve 30 různých jazycích a celkem bylo zpracováno 20400 filmových titulků, obsahujících 22268624 větných fragmentů.

Externí odkazy

editovat