Paralelný slovensko-anglický korpus
V korpuse sa dá vyhľadávať tu.
Databáza paralelného slovensko-anglického korpusu obsahuje vzájomné preklady oboch jazykov, t. j. texty slovenského jazyka preložené do anglického jazyka a opačne. Texty sú automaticky zarovnané po vetách.
Do políčka hľadať napíšte hľadané slovo alebo regulárny výraz. V políčku korpus si zvoľte zdroj, v ktorom sa má dané slovo vyhľadať: par-sken-*-sk znamená vyhľadávanie v slovenských textoch a par-sken-*-en znamená vyhľadávanie v anglických textoch. Po kliknutí na číslo v ľavom stĺpci tabuľky sa zobrazia stručné bibliografické údaje o zdroji textu.
Slovenské texty sú automaticky morfologicky anotované tagsetom, ktorý sa používa v Slovenskom národnom korpuse, anglické texty sú anotované tagsetom použitým v The Penn Treebank Project.
Verzia 2.0
Korpus sa skladá z dvoch častí: podkorpus beletrie a podkorpus voľne dostupných textov.
Podkorpus beletrie obsahuje cca. 4 milióny párov viet (63 miliónov tokenov v anglickej časti a 54 miliónov tokenov v slovenskej časti).
V podkorpuse beletrie sa dá vyhľadávať tu.
Podkorpus voľne dostupných textov je vytvorený z textov, ktorých licencia umožňuje ich šírenie a dajú sa stiahnuť tu.
Je možné vyhľadávať aj v celom slovensko-anglickom paralelnom korpuse (beletria + voľne dostupné texty), ktorý obsahuje 10 miliónov párov viet (196 miliónov tokenov v anglickej časti a 173 miliónov tokenov v slovenskej časti).
Verzia 1.0
Korpus par-sken-1.0 obsahoval 1600 tisíc párov viet (24 miliónov tokenov v anglickej časti, 20 miliónov tokenov v slovenskej časti).
Korpus vznikol na základe projektu 7. rámcového programu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X).
Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV a Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze.
