Štruktúra korpusu prim-5.0
Korpus prim-5.0 sa delí na nasledujúce podkorpusy:
- prim-5.0-public-all - korpus obsahujúci všetky texty. 719 499 235 tokenov (73 % publicistika, 14 % umelecké, 12 % odborné texty a 1 % neurčené).
- prim-5.0-public-inf - korpus obsahujúci iba publicistické (informatívne) texty. 514 588 190 tokenov.
- prim-5.0-public-prf - korpus obsahujúci iba vedecké a odborné texty. 82 390 173 tokenov.
- prim-5.0-public-img - korpus obsahujúci iba umelecké texty. 99 235 619 tokenov.
- prim-5.0-public-sk - korpus obsahujúci iba pôvodné slovenské texty. 508 662 478 tokenov.
- prim-5.0-public-skimg - korpus obsahujúci iba pôvodné slovenské umelecké texty. 31 745 338 tokenov.
- prim-5.0-public-sane - vyčistený korpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty). 699 496 280 tokenov.
- prim-5.0-vyv - vyvážený korpus (33,3 % publicistika, 33,3 % umelecké, 33,3 % odborné texty). 247 180 756 tokenov.
Štatistiky korpusu prim-5.0
Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 424 kB]
Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 1239 kB]
Podiel textov v korpuse
Tu sú graficky znázornené podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-5.0:
Frekvencie bigramov slov a trigramov slov
Prístupné sú aj štatistiky prechádzajúcich verzií: prim-4.0, prim-3.0 a prim-2.1.
