Slovensko-latinský paralelný korpus

Aktuálna verzia par-skla-3.0 bola sprístupnená 13. 12. 2018 v rozsahu takmer 5 mil. tokenov (2,66 mil. tokenov v slovenskej časti a 2,3 mil. tokenov v latinskej časti).

Slovensko-latinský paralelný korpus obsahuje 36 prekladov z latinčiny (14 z klasickej, 8 zo stredovekej, 14 z novovekej latinčiny), pričom dva texty sú preklady z pôvodne talianskeho a kombinovaného textu.

Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, latinské texty sú anotované TreeTaggerom.

Vyhľadávanie v korpuse je možné po registrácii v nástroji NoSketchEngine v latinskej časti alebo v slovenskej časti.

Potrebné sú znalosti práce s NoSketch Engine a CQL.

Verzia 2.0

Korpus par-skla-2.0 bol sprístupnený v r. 2014 v rozsahu vyše 1,44 mil. tokenov (780 953 tokenov v slovenskej časti, 661 612 tokenov v latinskej časti). Oproti verzii 1.0 nebol rozšírený o nové texty, ale kvalitatívne zlepšený z hľadiska tokenizácie a morfologickej anotácie.

Verzia 1.0

Korpus par-skla-1.0 bol sprístupnený koncom r. 2012 v rozsahu vyše 1,44 mil. tokenov (781 193 tokenov v slovenskej časti a 661 691 tokenov v latinskej časti).

Verzia 0.1

Korpus par-skla-0.1 bol vytvorený začiatkom r. 2012 v rozsahu takmer 1,1 mil. tokenov (580 975 tokenov v slovenskej časti a 516 493 tokenov v latinskej časti).