Štruktúra korpusu prim-10.0
Slovenský národný korpus vo verzii prim-10.0 obsahuje verejne prístupné podkorpusy:
- prim-10.0-public-all – všetky verejne prístupné texty SNK (71,00 % publicistické, 16,82 % umelecké, 11,28 % odborné, 0,90 % iné texty), 1 688 211 881 tokenov, 1 355 262 962 slov
- prim-10.0-public-sane – bez textov s nesprávnou diakritikou a z oblastí mimo Slovenska (70,52 % publicistické, 17,15 % umelecké, 11,46 % odborné, 0,87 % iné texty), 1 649 561 653 tokenov, 1 323 046 192 slov
- prim-10.0-public-vyv – vyvážený podkorpus (33,33 % publicistické, 33,33 % umelecké, 33,33 % odborné texty), 571 526 056 tokenov, 459 358 995 slov
- prim-10.0-public-inf – podkorpus publicistických (informatívnych) textov, 1 163 232 349 tokenov, 931 861 092 slov
- prim-10.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 189 007 940 tokenov, 153 180 224 slov
- prim-10.0-public-img – podkorpus umeleckých textov, 282 950 554 tokenov, 226 154 881 slov
- prim-10.0-public-sk – podkorpus pôvodných slovenských textov (79,82 % publicistické, 7,09 % umelecké, 12,06 % odborné, 1,03 % iné texty), 1 361 493 241 tokenov, 1 093 242 491 slov
- prim-10.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 96 575 573 tokenov, 77 595 977 slov
- r1955az1989-7.0 – osobitný korpus textov z rokov 1955 – 1989 (3,99 % publicistické, 81,15 % umelecké, 11,10 % odborné, 3,76 % iné texty), 108 567 651 tokenov, 87 398 831 slov
Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované tagerom spaCy. Okrem toho boli pri príprave korpusu použité oproti predchádzajúcej verzii vylepšené nástroje na spracovanie textu a to tokenizácia textu založená na unitok a segmentácia na vety.
Frekvenčné štatistiky korpusov
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých korpusov a podkorpusov:
Frekvenčné zoznamy lem, tvarov slov a slovných druhov z verejne prístupných korpusov SNK
Atribúty a štruktúrne značky vo verejne prístupných korpusoch SNK
Prístupné sú aj štatistiky predchádzajúcich verzií: prim-9.0, prim-8.0, prim-7.0, prim-6.1, prim-6.0, prim-5.0, prim-4.0, prim-3.0 a prim-2.1.