Štruktúra korpusu prim-10.0

Slovenský národný korpus vo verzii prim-10.0 obsahuje verejne prístupné podkorpusy:

Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované tagerom spaCy. Okrem toho boli pri príprave korpusu použité oproti predchádzajúcej verzii vylepšené nástroje na spracovanie textu a to tokenizácia textu založená na unitok a segmentácia na vety.

Frekvenčné štatistiky korpusov

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých korpusov a podkorpusov:

Prístupné sú aj štatistiky predchádzajúcich verzií: prim-9.0, prim-8.0, prim-7.0, prim-6.1, prim-6.0, prim-5.0, prim-4.0, prim-3.0 a prim-2.1.