Štruktúra korpusu prim-6.1
Slovenský národný korpus vo verzii prim-6.1 (po odstránení chybne skonvertovaných textov z verzie prim-6.0) obsahuje verejne prístupné podkorpusy:
- prim-6.1-public-all – všetky verejne prístupné texty SNK (68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné a 2 % iné texty), 829 771 945 tokenov, 655 572 511 slov
- prim-6.1-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov, 773 493 137 tokenov, 610 493 493 slov
- prim-6.1-public-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 317 496 718 tokenov, 251 519 537 slov
- prim-6.1-public-inf – podkorpus publicistických (informatívnych) textov, 540 812 859 tokenov, 425 325 094 slov
- prim-6.1-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 105 886 349 tokenov, 83 885 837 slov
- prim-6.1-public-img – podkorpus umeleckých textov, 113 820 575 tokenov, 90 714 140 slov
- prim-6.1-public-sk – podkorpus pôvodných slovenských textov, 558 261 948 tokenov, 440 708 351 slov
- prim-6.1-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 35 283 156 tokenov, 28 260 019 slov
- r55az89-3.0 – osobitný korpus textov z rokov 1955 – 1989 (11,9 % publicistika, 55,5 % umelecké, 24,1 % odborné a 8,5 % iné texty), 62 885 729 tokenov, 50 531 833 slov
Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované.
Štatistiky korpusu prim-6.1
Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 548 kB]
Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 1,4 MB] (v zjednodušenej podobe tu)
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-6.1:
Frekvencie bigramov slov, trigramov slov a tetragramov slov
Prístupné sú aj štatistiky predchádzajúcich verzií: prim-6.0, prim-5.0, prim-4.0, prim-3.0 a prim-2.1.