Štatistiky korpusu prim-4.0
- Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 932 kB]
- Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 345 kB]
- Zoznam prekladov v SNK
Podiel textov v korpuse
Tu sú graficky znázornené podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-4.0:
- Dĺžky textov (podľa počtu viet a počtu tokenov)
- Frekvencie bigramov slov a trigramov slov
Prístupné sú aj štatistiky prechádzajúcich verzií: prim-3.0, prim-2.1 a prim-2.0.


