→English

Paralelný slovensko-anglický korpus

V korpuse sa dá vyhľadávať tu.

Databáza paralelného slovensko-anglického korpusu obsahuje vzájomné preklady oboch jazykov, t. j. texty slovenského jazyka preložené do anglického jazyka a opačne. Texty sú automaticky zarovnané po vetách.

Do políčka hľadať napíšte hľadané slovo alebo regulárny výraz. V políčku korpus si zvoľte zdroj, v ktorom sa má dané slovo vyhľadať: par-sken-*-sk znamená vyhľadávanie v slovenských textoch a par-sken-*-en znamená vyhľadávanie v anglických textoch. Po kliknutí na číslo v ľavom stĺpci tabuľky sa zobrazia stručné bibliografické údaje o zdroji textu.

Slovenské texty sú automaticky morfologicky anotované tagsetom, ktorý sa používa v Slovenskom národnom korpuse, anglické texty sú anotované tagsetom použitým v The Penn Treebank Project.

Verzia 2.0

Korpus sa skladá z dvoch častí: podkorpus beletrie a podkorpus voľne dostupných textov.

Podkorpus beletrie obsahuje cca. 4 milióny párov viet (63 miliónov tokenov v anglickej časti a 54 miliónov tokenov v slovenskej časti).

V podkorpuse beletrie sa dá vyhľadávať tu.

Podkorpus voľne dostupných textov je vytvorený z textov, ktorých licencia umožňuje ich šírenie a dajú sa stiahnuť tu.

Je možné vyhľadávať aj v celom slovensko-anglickom paralelnom korpuse (beletria + voľne dostupné texty), ktorý obsahuje 10 miliónov párov viet (196 miliónov tokenov v anglickej časti a 173 miliónov tokenov v slovenskej časti).

Verzia 1.0

Korpus par-sken-1.0 obsahoval 1600 tisíc párov viet (24 miliónov tokenov v anglickej časti, 20 miliónov tokenov v slovenskej časti).


Korpus vznikol na základe projektu 7. rámcového programu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X).

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV a Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze.