DELPH-IN
Deep Linguistic Processing with HPSG – INitiative (DELPH-IN, iniciativa pro hloubkové lingvistické zpracování s HPSG) byl projekt spolupráce, v jehož rámci počítačoví lingvisté po celém světě vyvíjeli nástroje pro hloubkové zpracování přirozeného jazyka.[1] Cílem DELPH-IN bylo kombinovat lingvistické a statistické metody zpracování, za účelem výpočetního porozumění významu textů a výpovědí.
Academics | |
---|---|
Discipline: Formalisms: | Zpracování přirozeného jazyka HPSG, MRS |
DELPH-IN Summits | |
Inaugural: | LisbonTop (2005) |
Latest: | Virtual2021Top (2021) |
Upcoming: | FairhavenTop (2022) |
Nástroje vyvinuté v DELPH-IN využívají dva formalismy pro hlubokou lingvistickou analýzu – Head-driven phrase structure grammar (HPSG) a Sémantika s minimální rekurzí (anglicky minimal recursion semantics, MRS).[2] Všechny nástroje vzniklé v rámci spolupráce DELPH-IN byly vyvinuty pro obecné použití na základě Open-source licence.
Od roku 2005 pořádá DELPH-IN každoroční summit. Jedná se o volně strukturovanou unconferenci, jejíž účastníci se vzájemně informují o práci, kterou dělají, hledají zpětnou vazbu pro svou aktuální práci, a příležitostně se dohodnou o standardy a osvědčených postupech.
Technologie a nástroje DELPH-IN
editovatV rámci spolupráce DELPH-IN byly postupně vytvořeny softwarové nástroje pro hluboké lingvistické zpracování, např.:
- LKB systém (Linguistic Knowledge Builder): prostředí pro gramatické inženýrství, ve kterém mohou lingvisté vytvářet unifikační gramatiky s formalismem Head-driven phrase structure grammar
- PET analyzátor (platforma pro experimentování s efektivními technikami zpracování HPSG): s otevřeným zdrojovým textem analyzátor který produkuje HPSG derivační stromy s MRS výstupy [3]
- ESO procesor (Odpověď Omezení Stroj): efektivní systém zpracovávat DELPH-IN gramatiky, který poskytuje HPSG syntaktická analýzy s MRS výstupy. Nejnovější verze ESO umožňuje generovat věty přirozeného jazyka.[4]
- Infrastruktura LOGON je kolekce softwaru a DELPH-IN gramatik, které poskytují strojový překlad založený na přenosu. Prokázalo se, že tento přístup ke strojovému překladu poskytuje kvalitní hybridní (využívající jak pravidlový tak stochastický přístup) překlady.[5]
V rámci DELPH-IN vznikly i jiné nástroje než pro hluboké lingvistické zpracování, např. počítačové HPSG gramatiky a jazykové prototypy:
- DELPH-IN gramatiky: katalog ručně vytvořených počítačových HPSG gramatik zpracovaných tak, aby zachycovaly hlubokou lingvistickou analýzu pro konkrétní jazyky.[6]
- LinGO Grammar Matrix: Startovní kit s otevřeným zdrojovým textem pro velmi rychlé prototypování přesných gramatik se širokým pokrytím kompatibilních s LKB. Obsahuje knihovnu obvyklých jazykových jevů, kterou mohou využívat počítačoví gramatici pro své HPSG gramatiky.[7]
- CLIMB knihovny (Comparative Libraries of Implementations with Matrix Basis): rozšířená jazyková knihovna postavená na Grammar Matrix. Účelem knihovny CLIMB je udržovat alternativní analýzy stejného jevu v různých jazycích pro testování jejich dopadu na dlouhodobý vývoj gramatiky.[8]
Řada dalších nástrojů DELPH-IN se neliší od dat používaných pro mělké lingvistické zpracování, jako je jazykový korpus a treebanky:
- MRS Test Suite: malá ale reprezentativní sada vět navržená tak, aby zachycovala některé jevy sémantiky s minimální rekurzí. Obsahuje soubory testů pro bulharštinu, angličtinu, francouzštinu, němčinu, řečtinu, japonštinu, mandarínštinu, norštinu, portugalštinu, ruštinu a španělštinu.[9]
- Wikiwoods: WikiWoods je analyzovaný korpus, který poskytuje množství syntakticko-sémantických anotací anglické Wikipedie.[10]
- DeepBank: pokračující projekt na anotaci jednoho milionu slov z textů Wall Street Journal z roku 1989 (stejná sada vět byla anotována v původním projektu Penn Treebank) s použitím English Resource Grammar, rozšířené o robustní aproximaci PCFG pro dosažení úplného pokrytí.[11][12]
- Cathedral a Bazaar: raná esej o Open Source od Erica Raymonda s překlady do více jazyků. Byla navržena jako vícejazyčný sdílený soubor testů pro porovnání analýz vytvořených různými gramatikami.[13][14]
Kultura softwaru s otevřeným zdrojovým textem v rámci DELPH-IN spolupráce přinesla komunitě zpracování přirozeného jazyka nástroje a prostředky pro hluboké lingvistické zpracování. Použitelnost nástrojů DELPH-IN byla však obtížná pro uživatele a vývojáře aplikací, kteří neměli zkušenosti s prostředím DELPH-IN.[zdroj?] Vývojáři DELPH-IN si jsou vědomi těchto problémů použitelnosti a neustále probíhají pokusy o zlepšení dokumentace a tutoriálů technologie DELPH-IN.[15]
Odkazy
editovatReference
editovatV tomto článku byl použit překlad textu z článku DELPH-IN na anglické Wikipedii.
- ↑ DELPH-IN: Open-Source Deep Processing [online]. Dostupné online.
- ↑ COPESTAKE, Ann; FLICKINGER, Dan; POLLARD, Carl; SAG, Ivan A. Minimal Recursion Semantics: An Introduction. [s.l.]: [s.n.], 2005. Dostupné online. Archivováno 17. 7. 2012 na Wayback Machine.
- ↑ PET Parser website [online]. [cit. 2023-06-30]. Dostupné v archivu pořízeném dne 2022-03-29.
- ↑ ACE parser/generator homepage [online]. Dostupné online.
- ↑ OEPEN, Stephan; VELLDAL, Erik; LØNNING, Jan Tore; MEURER, Paul; ROSÉN, Victoria; FLICKINGER, Dan. Towards hybrid quality-oriented machine translation. On linguistics and probabilities in MT. Skövde, Sweden: [s.n.], 2007. Dostupné online. S. 144–153. Archivováno 6. 8. 2020 na Wayback Machine.
- ↑ DELPH-IN catalog of grammars [online]. Dostupné online.
- ↑ FOKKENS, Antske; BENDER, Emily M.; GRACHEVA, Varvara. LinGO Grammar Matrix Customization System Documentation. [s.l.]: [s.n.], 2012. Dostupné online.
- ↑ FOKKENS, A.; AVGUSTINOVA, T.; ZHANG, Y. Climb grammars: three projects using metagrammar engineering. Istanbul, Turkey: [s.n.], 2012. Dostupné online. Archivováno 23. 9. 2020 na Wayback Machine.
- ↑ MRS Test Suite page [online]. Dostupné online.
- ↑ FLICKINGER, Dan; OEPEN, Stephan; YTRESTØL, Gisle. WikiWoods: Syntakticko-semantic anotation for English Wikipedia. [s.l.]: [s.n.], 2010. Dostupné online. S. 1665–1671.
- ↑ FLICKINGER, Dan; KORDONI, Valia; ZHANG, Yi. DeepBank: A Dynamically Annotated Treebank of the Wall Street Journal. Lisbon, Portugal: [s.n.], 2012. Dostupné online. Archivováno 4. 3. 2016 na Wayback Machine.
- ↑ DeepBank homepage [online]. Dostupné online.
- ↑ DELPH-IN CatB page [online]. Dostupné online.
- ↑ Official Cathedral and the Bazaar webpage [online]. Dostupné online.
- ↑ DELPH-IN 2013 Summit: Special Interest Group in Useability [online]. Dostupné online.