Štruktúra korpusu prim-6.0
Slovenský národný korpus vo verzii prim-6.0 obsahuje verejne prístupné podkorpusy:
- prim-6.0-public-all – všetky verejne prístupné texty SNK (77,8 % publicistické, 9,8 % umelecké, 11 % odborné a 1,4 % iné texty), 1 155 742 085 tokenov, 881 084 173 slov
- prim-6.0-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov, 1 121 400 341 tokenov, 854 175 017 slov
- prim-6.0-public-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 313 465 778 tokenov, 244 845 182 slov
- prim-6.0-public-inf – podkorpus publicistických (informatívnych) textov, 888 867 082 tokenov, 669 224 534 slov
- prim-6.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 106 482 645 tokenov, 84 326 245 slov
- prim-6.0-public-img – podkorpus umeleckých textov, 113 570 423 tokenov, 90 466 310 slov
- prim-6.0-public-sk – podkorpus pôvodných slovenských textov, 905 332 650 tokenov, 683 770 527 slov
- prim-6.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 34 773 737 tokenov, 27 842 352 slov
- r55az89-3.0 – osobitný korpus textov z rokov 1955 – 1989 (11,9 % publicistické, 55,5 % umelecké, 24,1 % odborné a 8,5 % iné texty), 62 885 729 tokenov, 50 531 833 slov
Štatistiky korpusu prim-6.0
Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 672 kB]
Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 2484 kB]
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-6.0:
Frekvencie bigramov slov, trigramov slov a tetragramov slov
Prístupné sú aj štatistiky predchádzajúcich verzií: prim-5.0, prim-4.0, prim-3.0 a prim-2.1.