Štruktúra korpusu prim-7.0
Slovenský národný korpus vo verzii prim-7.0 obsahuje verejne prístupné podkorpusy:
- prim-7.0-public-all – všetky verejne prístupné texty SNK (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné a 10,3 % iné texty), 1 250 382 876 tokenov, 971 799 239 slov
- prim-7.0-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov, 1 089 102 930 tokenov, 848 547 025 slov
- prim-7.0-public-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 340 708 046 tokenov, 266 732 524 slov
- prim-7.0-public-inf – podkorpus publicistických (informatívnych) textov, 771 248 707 tokenov, 597 141 681 slov
- prim-7.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 114 081 861 tokenov, 89 152 482 slov
- prim-7.0-public-img – podkorpus umeleckých textov, 187 749 798 tokenov, 149 220 076 slov
- prim-7.0-public-sk – podkorpus pôvodných slovenských textov, 806 707 046 tokenov, 629 681 531 slov
- prim-7.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 65 009 205 tokenov, 51 839 437 slov
- r1955az1989-4.0 – osobitný korpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné a 6,7 % iné texty), 67 392 068 tokenov, 53 998 092 slov
Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované.
Štatistiky korpusu prim-7.0
Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 908 kB]
Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 2,3 MB] (v zjednodušenej podobe tu)
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-7.0:
Frekvencie bigramov slov, trigramov slov a tetragramov slov
Prístupné sú aj štatistiky predchádzajúcich verzií: prim-6.1, prim-6.0, prim-5.0, prim-4.0, prim-3.0 a prim-2.1.