Slovensko-latinský paralelný korpus
Aktuálna verzia par-skla-3.0 bola sprístupnená 13. 12. 2018 v rozsahu takmer 5 mil. tokenov (2,66 mil. tokenov v slovenskej časti a 2,3 mil. tokenov v latinskej časti).
Slovensko-latinský paralelný korpus obsahuje 36 prekladov z latinčiny (14 z klasickej, 8 zo stredovekej, 14 z novovekej latinčiny), pričom dva texty sú preklady z pôvodne talianskeho a kombinovaného textu.
Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, latinské texty sú anotované TreeTaggerom.
Vyhľadávanie v korpuse je možné po registrácii v nástroji NoSketchEngine v latinskej časti alebo v slovenskej časti.
Potrebné sú znalosti práce s NoSketch Engine a CQL.
Verzia 2.0
Korpus par-skla-2.0 bol sprístupnený v r. 2014 v rozsahu vyše 1,44 mil. tokenov (780 953 tokenov v slovenskej časti, 661 612 tokenov v latinskej časti). Oproti verzii 1.0 nebol rozšírený o nové texty, ale kvalitatívne zlepšený z hľadiska tokenizácie a morfologickej anotácie.
Verzia 1.0
Korpus par-skla-1.0 bol sprístupnený koncom r. 2012 v rozsahu vyše 1,44 mil. tokenov (781 193 tokenov v slovenskej časti a 661 691 tokenov v latinskej časti).
Verzia 0.1
Korpus par-skla-0.1 bol vytvorený začiatkom r. 2012 v rozsahu takmer 1,1 mil. tokenov (580 975 tokenov v slovenskej časti a 516 493 tokenov v latinskej časti).