Slovensko-poľský paralelný korpus

Prvá verzia par-skpl-1.0 bola sprístupnená 3. decembra 2018 v rozsahu takmer 8,2 mil. tokenov (4 122 236 tokenov v slovenskej časti, 4 063 598 tokenov v poľskej časti).

V korpuse sa dá vyhľadávať po registrácii v nástroji NoSketch Engine v poľskej časti, v slovenskej časti.

Potrebné sú znalosti práce s NoSketch Engine a CQL.

Slovensko-poľský paralelný korpus obsahuje preklady 42 literárnych textov: z poľštiny do slovenčiny (25), zo slovenčiny do poľštiny (6), z iných jazykov do slovenčiny aj poľštiny (11); a tiež jeden dokument o vzájomnej spolupráci. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, poľské texty sú anotované TreeTaggerom.