→English

Paralelný slovensko-český korpus

V korpuse sa dá vyhľadávať tu.

Databáza paralelného slovensko-českého korpusu obsahuje vzájomné preklady oboch jazykov, t. j. texty slovenského jazyka preložené do českého jazyka i opačne a preklady z iných jazykov. Texty sú automaticky zarovnané po vetách.

Do políčka hľadať napíšte hľadané slovo alebo regulárny výraz. V políčku korpus si zvoľte zdroj, v ktorom sa má dané slovo vyhľadať: par-skcs-*-sk znamená vyhľadávanie v slovenských textoch a par-skcs-*-cs znamená vyhľadávanie v českých textoch. Po kliknutí na číslo v ľavom stĺpci tabuľky sa zobrazia stručné bibliografické údaje o zdroji textu.

Slovenské texty sú automaticky morfologicky anotované tagsetom, ktorý sa používa v Slovenskom národnom korpuse, české texty sú anotované tagsetom použitým v Českom národnom korpuse.

Verzia 2.0

Korpus sa skladá z dvoch častí: podkorpus beletrie a podkorpus voľne dostupných textov.

V podkorpuse beletrie sa okrem beletrie nachádza aj nezanedbateľné množstvo iných textov, napr. populárnovedecká literatúra, literatúra faktu a pod. Jeho rozsah je 740 tisíc párov viet (približne 10 miliónov slov v každom jazyku).

V podkorpuse beletrie sa dá vyhľadávať tu.

Podkorpus voľne dostupných textov obsahuje prevažne preklady právnych textov a správ Európskej únie, počítačových a iných manuálov z tretieho jazyka (angličtiny). Texty sa dajú stiahnuť tu.

Je možné vyhľadávať aj v celom slovensko-českom paralelnom korpuse (beletria + voľne dostupné texty), ktorý obsahuje 6433 tisíc párov viet (120 miliónov tokenov v každom jazyku).

Verzia 1.0

Korpus par-skcs-1.0 obsahoval približne 735 000 párov viet (10 mil. tokenov v každom z jazykov).


Podkorpus voľne dostupných textov bol vytvorený s podporou grantu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X).

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV, Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze a Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze.