Štruktúra korpusu prim-2.1
Slovenský národný korpus vo verzii prim-2.1 obsahuje verejne prístupné podkorpusy:
- prim-2.1-public-all – všetky verejne prístupné texty SNK (60,6 % publicistické, 17,5 % umelecké, 11,6 % odborné a 10,3 % iné texty), 294 087 581 tokenov
- prim-2.1-public-inf – podkorpus publicistických (informatívnych) textov, 178 070 839 tokenov
- prim-2.1-public-prf – podkorpus vedeckých a odborných textov, 34 118 166 tokenov
- prim-2.1-public-img – podkorpus umeleckých textov, 51 365 542 tokenov
- prim-2.1 public-skimg – podkorpus pôvodných slovenských umeleckých textov, 12 508 261 tokenov
- prim-2.1-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 285 700 835 tokenov
- prim-2.1-vyv – vyvážený podkorpus (60 % publicistika, 20 % umelecké, 20 % odborné texty), 54 357 894 tokenov
Štatistiky korpusu prim-2.1
Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 147 kB]
Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 298 kB]
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-2.1:
Frekvencie bigramov slov: Celý súbor (bzip2 kompresia, 219MB).
Frekvencie trigramov slov: Celý súbor (bzip2 kompresia, 250MB).