Slovensko-nemecký paralelný korpus
Aktuálna verzia par-skde-all-2.0 bola sprístupnená 25. 5. 2016 v rozsahu takmer 446,2 mil. tokenov (219,8 mil. tokenov v slovenskej časti, 226,4 mil. tokenov v nemeckej časti).
Korpus sa skladá z dvoch častí: podkorpusu beletrie (7,5 mil. tokenov) a podkorpusu voľne dostupných textov (prevažne dokumenty Európskej únie).
V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti, v slovenskej časti.
V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v nemeckej časti, v slovenskej časti.
Vyžadujú sa znalosti práce s NoSketch Engine a CQL.
Slovensko-nemecký paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis.
Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.
Verzia 1.0
Korpus par-skde-1.0 bol sprístupnený 15. 12. 2014 v rozsahu takmer 263 mil. tokenov (129,5 mil. tokenov v slovenskej časti, 133 mil. tokenov v nemeckej časti).
Podkorpus beletrie obsahoval 7,5 mil. tokenov.