Slovensko-maďarský paralelný korpus

Aktuálna verzia par-skhu-1.0 bola sprístupnená 7. 12. 2015 v rozsahu 99 mil. tokenov (51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie (4 mil. tokenov – 2 mil. tokenov v slovenskej časti, 2 mil. tokenov v maďarskej časti) a podkorpusu voľne dostupných textov. V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v maďarskej časti, v slovenskej časti.

V celom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketch Engine v maďarskej časti, v slovenskej časti; vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Slovensko-maďarský paralelný korpus obsahuje vzájomné preklady prevažne beletristických textov z oboch jazykov, t. j. texty v slovenskom jazyku preložené do maďarského jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a maďarčiny vrátane voľne dostupných textov. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom Morče natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, maďarské texty sú anotované tagerom HUNPOS.

Predchádzajúce verzie korpusu

Verzia par-skhu-0.2 bola sprístupnená v máji 2015 v rozsahu takmer 4 mil. tokenov (približne 2 mil. tokenov v každom jazyku).

Testovacia verzia par-skhu-0.1 bola sprístupnená v januári 2014 v rozsahu 3 mil. tokenov (približne 1,5 mil. tokenov v každom jazyku).

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV a Magyar Tudományos Akadémia, Nyelvtudományi Intézet.