Štruktúra korpusu prim-5.0
Slovenský národný korpus vo verzii prim-5.0 obsahuje verejne prístupné podkorpusy:
- prim-5.0-public-all – všetky verejne prístupné texty SNK, 719 499 235 tokenov (73 % publicistické, 14 % umelecké, 12 % odborné a 1 % iné texty)
- prim-5.0-public-inf – podkorpus publicistických (informatívnych) textov, 514 588 190 tokenov
- prim-5.0-public-prf – podkorpus vedeckých a odborných textov, 82 390 173 tokenov
- prim-5.0-public-img – podkorpus umeleckých textov, 99 235 619 tokenov
- prim-5.0-public-sk – podkorpus pôvodných slovenských textov, 508 662 478 tokenov
- prim-5.0-public-skimg – podkorpus pôvodných slovenských umeleckých textov, 31 745 338 tokenov
- prim-5.0-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 699 496 280 tokenov
- prim-5.0-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 247 180 756 tokenov
Štatistiky korpusu prim-5.0
Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 424 kB]
Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 1239 kB]
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-5.0:
Frekvencie bigramov slov a trigramov slov
Prístupné sú aj štatistiky prechádzajúcich verzií: prim-4.0, prim-3.0 a prim-2.1.