Štruktúra korpusu prim-4.0
Slovenský národný korpus vo verzii prim-4.0 obsahuje verejne prístupné podkorpusy:
- prim-4.0-public-all – všetky verejne prístupné texty SNK, 526 082 640 tokenov (65 % publicistika, 17 % umelecké, 16 % odborné a 2 % iné texty)
- prim-4.0-public-inf – podkorpus publicistických (informatívnych) textov, 329 876 429 tokenov
- prim-4.0-public-prf – podkorpus vedeckých a odborných textov, 84 745 747 tokenov
- prim-4.0-public-img – podkorpus umeleckých textov, 88 628 350 tokenov
- prim-4.0-public-sk – podkorpus pôvodných slovenských textov, 314 708 915 tokenov
- prim-4.0-public-skimg – podkorpus pôvodných slovenských umeleckých textov, 26 462 144 tokenov
- prim-4.0-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 507 101 251 tokenov
- prim-4.0-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 254 236 903 tokenov
Štatistiky korpusu prim-4.0
Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 345 kB]
Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 939 kB]
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-4.0:
Frekvencie bigramov slov a trigramov slov
Prístupné sú aj štatistiky prechádzajúcich verzií: prim-3.0 a prim-2.1.