Paralelný slovensko-český korpus
V korpuse sa dá vyhľadávať tu.
Databáza paralelného slovensko-českého korpusu obsahuje vzájomné preklady oboch jazykov, t. j. texty slovenského jazyka preložené do českého jazyka i opačne a preklady z iných jazykov. Texty sú automaticky zarovnané po vetách.
Do políčka hľadať napíšte hľadané slovo alebo regulárny výraz. V políčku korpus si zvoľte zdroj, v ktorom sa má dané slovo vyhľadať: par-skcs-*-sk znamená vyhľadávanie v slovenských textoch a par-skcs-*-cs znamená vyhľadávanie v českých textoch. Po kliknutí na číslo v ľavom stĺpci tabuľky sa zobrazia stručné bibliografické údaje o zdroji textu.
Slovenské texty sú automaticky morfologicky anotované tagsetom, ktorý sa používa v Slovenskom národnom korpuse, české texty sú anotované tagsetom použitým v Českom národnom korpuse.
Verzia 2.0
Korpus sa skladá z dvoch častí: podkorpus beletrie a podkorpus voľne dostupných textov.
V podkorpuse beletrie sa okrem beletrie nachádza aj nezanedbateľné množstvo iných textov, napr. populárnovedecká literatúra, literatúra faktu a pod. Jeho rozsah je 740 tisíc párov viet (približne 10 miliónov slov v každom jazyku).
V podkorpuse beletrie sa dá vyhľadávať tu.
Podkorpus voľne dostupných textov obsahuje prevažne preklady právnych textov a správ Európskej únie, počítačových a iných manuálov z tretieho jazyka (angličtiny). Texty sa dajú stiahnuť tu.
Je možné vyhľadávať aj v celom slovensko-českom paralelnom korpuse (beletria + voľne dostupné texty), ktorý obsahuje 6433 tisíc párov viet (120 miliónov tokenov v každom jazyku).
Verzia 1.0
Korpus par-skcs-1.0 obsahoval približne 735 000 párov viet (10 mil. tokenov v každom z jazykov).
Podkorpus voľne dostupných textov bol vytvorený s podporou grantu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X).
Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV, Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze a Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze.
