→English

Frekvenčné zoznamy lem, tvarov slov a slovných druhov z verejne prístupných korpusov SNK

1. Korpusy písaných textov − synchrónne, všeobecné

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

prim-10.0-public-all

1 688 mil. tokenov / 1 355 mil. slov

top1000
celý_súbor (kompresia_.bz2, 20,4_MB)

top1000
celý_súbor (kompresia_.bz2, 27,5_MB)

top1000
celý_súbor (kompresia_.bz2, 22,3_MB)

top1000
celý_súbor (kompresia_.bz2, 562_MB)

top1000
celý_súbor (kompresia_.bz2, 1,8_GB)

top1000
celý_súbor (kompresia_.bz2, 2,9_GB)

slovné_druhy

prim-10.0-public-sane

1 650 mil. tokenov / 1 323 mil. slov

top1000
celý_súbor (kompresia_.bz2, 19,9_MB)

top1000
celý_súbor (kompresia_.bz2, 26,6_MB)

top1000
celý_súbor (kompresia_.bz2, 21,9_MB)

top1000
celý_súbor (kompresia_.bz2, 551_MB)

top1000
celý_súbor (kompresia_.bz2, 1,8_GB)

top1000
celý_súbor (kompresia_.bz2, 2,9_GB)

slovné_druhy

prim-10.0-public-inf

1 163 mil. tokenov / 932 mil. slov

top1000
celý_súbor (kompresia_.bz2, 14,0_MB)

top1000
celý_súbor (kompresia_.bz2, 19,4_MB)

top1000
celý_súbor (kompresia_.bz2, 15,7_MB)

top1000
celý_súbor (kompresia_.bz2, 399_MB)

top1000
celý_súbor (kompresia_.bz2, 1,3_GB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

slovné_druhy

prim-10.0-public-prf

189 mil. tokenov / 153 mil. slov

top1000
celý_súbor (kompresia_.bz2, 6,3_MB)

top1000
celý_súbor (kompresia_.bz2, 9,5_MB)

top1000
celý_súbor (kompresia_.bz2, 7,8_MB)

top1000
celý_súbor (kompresia_.bz2, 114_MB)

top1000
celý_súbor (kompresia_.bz2, 279_MB)

top1000
celý_súbor (kompresia_.bz2, 380_MB)

slovné_druhy

prim-10.0-public-img

283 mil. tokenov / 226 mil. slov

top1000
celý_súbor (kompresia_.bz2, 4,7_MB)

top1000
celý_súbor (kompresia_.bz2, 8,4_MB)

top1000
celý_súbor (kompresia_.bz2, 6,9_MB)

top1000
celý_súbor (kompresia_.bz2, 133_MB)

top1000
celý_súbor (kompresia_.bz2, 354_MB)

top1000
celý_súbor (kompresia_.bz2, 487_MB)

slovné_druhy

prim-10.0-public-img-sk

97 mil. tokenov / 78 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 62,2_MB)

top1000
celý_súbor (kompresia_.bz2, 147_MB)

top1000
celý_súbor (kompresia_.bz2, 189_MB)

slovné_druhy

r1955az1989-7.0

109 mil. tokenov / 87 mil. slov

top1000
celý_súbor (kompresia_.bz2, 3,1_MB)

top1000
celý_súbor (kompresia_.bz2, 5,9_MB)

top1000
celý_súbor (kompresia_.bz2, 4,9_MB)

top1000
celý_súbor (kompresia_.bz2, 72,3_MB)

top1000
celý_súbor (kompresia_.bz2, 169_MB)

top1000
celý_súbor (kompresia_.bz2, 217_MB)

slovné_druhy

prim-9.0-public-all

1 652 mil. tokenov / 1 282 mil. slov

top1000
celý_súbor (kompresia_.bz2, 20,4_MB)

top1000
celý_súbor (kompresia_.bz2, 27,5_MB)

top1000
celý_súbor (kompresia_.bz2, 22,3_MB)

top1000
celý_súbor (kompresia_.bz2, 562_MB)

top1000
celý_súbor (kompresia_.bz2, 1,8_GB)

top1000
celý_súbor (kompresia_.bz2, 2,9_GB)

slovné_druhy

prim-9.0-public-sane

1 621 mil. tokenov / 1 257 mil. slov

top1000
celý_súbor (kompresia_.bz2, 19,9_MB)

top1000
celý_súbor (kompresia_.bz2, 26,6_MB)

top1000
celý_súbor (kompresia_.bz2, 21,9_MB)

top1000
celý_súbor (kompresia_.bz2, 551_MB)

top1000
celý_súbor (kompresia_.bz2, 1,8_GB)

top1000
celý_súbor (kompresia_.bz2, 2,9_GB)

slovné_druhy

prim-9.0-public-inf

1 194 mil. tokenov / 920 mil. slov

top1000
celý_súbor (kompresia_.bz2, 14,0_MB)

top1000
celý_súbor (kompresia_.bz2, 19,4_MB)

top1000
celý_súbor (kompresia_.bz2, 15,7_MB)

top1000
celý_súbor (kompresia_.bz2, 399_MB)

top1000
celý_súbor (kompresia_.bz2, 1,3_GB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

slovné_druhy

prim-9.0-public-prf

150 mil. tokenov / 117 mil. slov

top1000
celý_súbor (kompresia_.bz2, 6,3_MB)

top1000
celý_súbor (kompresia_.bz2, 9,5_MB)

top1000
celý_súbor (kompresia_.bz2, 7,8_MB)

top1000
celý_súbor (kompresia_.bz2, 114_MB)

top1000
celý_súbor (kompresia_.bz2, 279_MB)

top1000
celý_súbor (kompresia_.bz2, 380_MB)

slovné_druhy

prim-9.0-public-img

263 mil. tokenov / 208 mil. slov

top1000
celý_súbor (kompresia_.bz2, 4,7_MB)

top1000
celý_súbor (kompresia_.bz2, 8,4_MB)

top1000
celý_súbor (kompresia_.bz2, 6,9_MB)

top1000
celý_súbor (kompresia_.bz2, 133_MB)

top1000
celý_súbor (kompresia_.bz2, 354_MB)

top1000
celý_súbor (kompresia_.bz2, 487_MB)

slovné_druhy

prim-9.0-public-img-sk

93 mil. tokenov / 74 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 62,2_MB)

top1000
celý_súbor (kompresia_.bz2, 147_MB)

top1000
celý_súbor (kompresia_.bz2, 189_MB)

slovné_druhy

r1955az1989-6.0

99 mil. tokenov / 79 mil. slov

top1000
celý_súbor (kompresia_.bz2, 3,1_MB)

top1000
celý_súbor (kompresia_.bz2, 5,9_MB)

top1000
celý_súbor (kompresia_.bz2, 4,9_MB)

top1000
celý_súbor (kompresia_.bz2, 72,3_MB)

top1000
celý_súbor (kompresia_.bz2, 169_MB)

top1000
celý_súbor (kompresia_.bz2, 217_MB)

slovné_druhy

prim-8.0-public-all

1 477 mil. tokenov / 1 160 mil. slov

top1000
celý_súbor (kompresia_.bz2, 18,7_MB)

top1000
celý_súbor (kompresia_.bz2, 25,7_MB)

top1000
celý_súbor (kompresia_.bz2, 20,8_MB)

top1000
celý_súbor (kompresia_.bz2, 521_MB)

top1000
celý_súbor (kompresia_.bz2, 1,7_GB)

top1000
celý_súbor (kompresia_.bz2, 2,7_GB)

slovné_druhy

prim-8.0-public-sane

1 369 mil. tokenov / 1 076 mil. slov

top1000
celý_súbor (kompresia_.bz2, 16,9_MB)

top1000
celý_súbor (kompresia_.bz2, 23,7_MB)

top1000
celý_súbor (kompresia_.bz2, 19,2_MB)

top1000
celý_súbor (kompresia_.bz2, 489_MB)

top1000
celý_súbor (kompresia_.bz2, 1,6_GB)

top1000
celý_súbor (kompresia_.bz2, 2,5_GB)

slovné_druhy

prim-8.0-public-inf

1 010 mil. tokenov / 791 mil. slov

top1000
celý_súbor (kompresia_.bz2, 11,8_MB)

top1000
celý_súbor (kompresia_.bz2, 17,1_MB)

top1000
celý_súbor (kompresia_.bz2, 13,8_MB)

top1000
celý_súbor (kompresia_.bz2, 355_MB)

top1000
celý_súbor (kompresia_.bz2, 1,2_GB)

top1000
celý_súbor (kompresia_.bz2, 1,8_GB)

slovné_druhy

prim-8.0-public-prf

122 mil. tokenov / 96 mil. slov

top1000
celý_súbor (kompresia_.bz2, 5,2_MB)

top1000
celý_súbor (kompresia_.bz2, 8,2_MB)

top1000
celý_súbor (kompresia_.bz2, 6,7_MB)

top1000
celý_súbor (kompresia_.bz2, 97,3_MB)

top1000
celý_súbor (kompresia_.bz2, 235_MB)

top1000
celý_súbor (kompresia_.bz2, 315_MB)

slovné_druhy

prim-8.0-public-img

224 mil. tokenov / 178 mil. slov

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 7,7_MB)

top1000
celý_súbor (kompresia_.bz2, 6,4_MB)

top1000
celý_súbor (kompresia_.bz2, 118_MB)

top1000
celý_súbor (kompresia_.bz2, 309_MB)

top1000
celý_súbor (kompresia_.bz2, 422_MB)

slovné_druhy

prim-8.0-public-img-sk

83 mil. tokenov / 66 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,2_MB)

top1000
celý_súbor (kompresia_.bz2, 4,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,8_MB)

top1000
celý_súbor (kompresia_.bz2, 55,7_MB)

top1000
celý_súbor (kompresia_.bz2, 130_MB)

top1000
celý_súbor (kompresia_.bz2, 167_MB)

slovné_druhy

r1955az1989-5.0

84 mil. tokenov / 67 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,8_MB)

top1000
celý_súbor (kompresia_.bz2, 5,4_MB)

top1000
celý_súbor (kompresia_.bz2, 4,5_MB)

top1000
celý_súbor (kompresia_.bz2, 64,4_MB)

top1000
celý_súbor (kompresia_.bz2, 148_MB)

top1000
celý_súbor (kompresia_.bz2, 189_MB)

slovné_druhy

prim-7.0-public-all

1 250 mil. tokenov / 972 mil. slov

top1000
celý_súbor (kompresia .gz, 14,7_MB)

top1000
celý_súbor (kompresia_.gz, 24,3_MB)

top1000
celý_súbor (kompresia_.bz2, 19,7_MB)

top1000
celý_súbor (kompresia_.bz2, 518_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

top1000
celý_súbor (kompresia_.bz2, 4,4_GB)

slovné_druhy

prim-7.0-public-sane

1 089 mil. tokenov / 849 mil. slov

top1000
celý_súbor (kompresia_.gz, 12,8_MB)

top1000
celý_súbor (kompresia_.gz, 21,6_MB)

top1000
celý_súbor (kompresia_.bz2, 17,6_MB)

top1000
celý_súbor (kompresia_.bz2, 427_MB)

top1000
celý_súbor (kompresia_.bz2, 1,3_GB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

slovné_druhy

prim-7.0-public-inf

771 mil. tokenov / 597 mil. slov

top1000
celý_súbor (kompresia_.gz, 8,8_MB)

top1000
celý_súbor (kompresia_.gz, 15,3_MB)

top1000
celý_súbor (kompresia_.bz2, 12,2_MB)

top1000
celý_súbor (kompresia_.bz2, 301_MB)

top1000
celý_súbor (kompresia_.bz2, 972_MB)

top1000
celý_súbor (kompresia_.bz2, 1,5_GB)

slovné_druhy

prim-7.0-public-prf

114 mil. tokenov / 89 mil. slov

top1000
celý_súbor (kompresia_.gz, 4,5_MB)

top1000
celý_súbor (kompresia_.gz, 8,0_MB)

top1000
celý_súbor (kompresia_.bz2, 6,6_MB)

top1000
celý_súbor (kompresia_.bz2, 92,3_MB)

top1000
celý_súbor (kompresia_.bz2, 220_MB)

top1000
celý_súbor (kompresia_.bz2, 294_MB)

slovné_druhy

prim-7.0-public-img

188 mil. tokenov / 149 mil. slov

top1000
celý_súbor (kompresia_.gz, 3,3_MB)

top1000
celý_súbor (kompresia_.gz, 7,0_MB)

top1000
celý_súbor (kompresia_.bz2, 5,8_kB)

top1000
celý_súbor (kompresia_.bz2, 104_MB)

top1000
celý_súbor (kompresia_.bz2, 268_MB)

top1000
celý_súbor (kompresia_.bz2, 362_MB)

slovné_druhy

prim-7.0-public-img-sk

65 mil. tokenov / 52 mil. slov

top1000
celý_súbor (kompresia_.gz, 1,8_MB)

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 46,8_MB)

top1000
celý_súbor (kompresia_.bz2, 107_MB)

top1000
celý_súbor (kompresia_.bz2, 136_MB)

slovné_druhy

r1955az1989-4.0

67 mil. tokenov / 54 mil. slov

top1000
celý_súbor (kompresia_.gz, 2,3_MB)

top1000
celý_súbor (kompresia_.gz, 4,9_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 55,8_MB)

top1000
celý_súbor (kompresia_.bz2, 125_MB)

top1000
celý_súbor (kompresia_.bz2, 160_MB)

slovné_druhy

prim-6.1-public-all

830 mil. tokenov / 656 mil. slov

top1000
celý_súbor (kompresia_.gz, 11,5_MB)

top1000
celý_súbor (kompresia_.gz, 19,8_MB)

top1000
celý_súbor (kompresia_.bz2, 16,0_MB)

top1000
celý_súbor (kompresia_.bz2, 399_MB)

top1000
celý_súbor (kompresia_.bz2, 1,6_GB)

top1000
celý_súbor (kompresia_.bz2, 3,1_GB)

slovné_druhy

prim-6.1-public-inf

541 mil. tokenov / 425 mil. slov

top1000
celý_súbor (kompresia_.gz, 7,1_MB)

top1000
celý_súbor (kompresia_.gz, 12,7_MB)

top1000
celý_súbor (kompresia_.bz2, 10,1_MB)

top1000
celý_súbor (kompresia_.bz2, 237_MB)

top1000
celý_súbor (kompresia_.bz2, 740_MB)

top1000
celý_súbor (kompresia_.bz2, 1,1_GB)

slovné_druhy

prim-6.1-public-prf

106 mil. tokenov / 84 mil. slov

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.gz, 7,6_MB)

top1000
celý_súbor (kompresia_.bz2, 6,2_MB)

top1000
celý_súbor (kompresia_.bz2, 87,7_MB)

top1000
celý_súbor (kompresia_.bz2, 209_MB)

top1000
celý_súbor (kompresia_.bz2, 281_MB)

slovné_druhy

prim-6.1-public-img

114 mil. tokenov / 91 mil. slov

top1000
celý_súbor (kompresia_.gz, 2,7_MB)

top1000
celý_súbor (kompresia_.gz, 5,8_MB)

top1000
celý_súbor (kompresia_.bz2, 4,8_MB)

top1000
celý_súbor (kompresia_.bz2, 74,9_MB)

top1000
celý_súbor (kompresia_.bz2, 180_MB)

top1000
celý_súbor (kompresia_.bz2, 236_MB)

slovné_druhy

prim-6.1-public-img-sk

35 mil. tokenov / 28 mil. slov

top1000
celý_súbor (kompresia_.gz, 1,3_MB)

top1000
celý_súbor (kompresia_.gz, 3,1_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 30,2_MB)

top1000
celý_súbor (kompresia_.bz2, 64,3_MB)

top1000
celý_súbor (kompresia_.bz2, 79,1_MB)

slovné_druhy

r55az89-3.0

63 mil. tokenov / 51 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,0_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 55,0_MB)

top1000
celý_súbor (kompresia_.bz2, 122_MB)

top1000
celý_súbor (kompresia_.bz2, 156_MB)

slovné_druhy

2. Korpusy písaných textov − synchrónne, špecializované

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

blf-2.0

66 mil. tokenov / 54 mil. slov

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 2,8_kB)

top1000
celý_súbor (kompresia_.bz2, 41,3_MB)

top1000
celý_súbor (kompresia_.bz2, 104_MB)

top1000
celý_súbor (kompresia_.bz2, 142_MB)

slovné_druhy

cw-2014-all

1,6 mil. tokenov / 1,2 mil. slov

top1000
celý_súbor (kompresia_.bz2, 242_kB)

top1000
celý_súbor (kompresia_.bz2, 459_kB)

top1000
celý_súbor (kompresia_.bz2, 377_kB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 2,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,1_MB)

slovné_druhy

ecn-2.0-public

165 mil. tokenov / 140 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,8_MB)

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 92,3_MB)

top1000
celý_súbor (kompresia_.bz2, 270_MB)

top1000
celý_súbor (kompresia_.bz2, 404_MB)

slovné_druhy

ecn-1.0-public

20 mil. tokenov / 17 mil. slov

top1000
celý_súbor (kompresia_.bz2, 779_kB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_kB)

top1000
celý_súbor (kompresia_.bz2, 18,5_MB)

top1000
celý_súbor (kompresia_.bz2, 42,4_MB)

top1000
celý_súbor (kompresia_.bz2, 56,4_MB)

slovné_druhy

judikat-1.0

1,5 mil. tokenov / 1,3 mil. slov

top1000
celý_súbor (kompresia_.bz2, 72,6_kB)

top1000
celý_súbor (kompresia_.bz2, 166_kB)

top1000
celý_súbor (kompresia_.bz2, 150_kB)

top1000
celý_súbor (kompresia_.bz2, 1,2_MB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

slovné_druhy

legal-1.1

49 mil. tokenov / 40 mil. slov

top1000
celý_súbor (kompresia_.bz2, 1,3_MB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_MB)

top1000
celý_súbor (kompresia_.bz2, 16,4_MB)

top1000
celý_súbor (kompresia_.bz2, 42,7_MB)

top1000
celý_súbor (kompresia_.bz2, 64,0_MB)

slovné_druhy

prim-7.0-frk

253 mil. tokenov / 203 mil. slov

top1000
celý_súbor (kompresia_.bz2, 7,2_MB)

top1000
celý_súbor (kompresia_.bz2, 10,6_MB)

top1000
celý_súbor (kompresia_.bz2, 8,7_MB)

top1000
celý_súbor (kompresia_.bz2, 164_MB)

top1000
celý_súbor (kompresia_.bz2, 437_MB)

top1000
celý_súbor (kompresia_.bz2, 612_MB)

slovné_druhy

r-mak-6.0

1,2 mil. tokenov / 978 000 slov

top1000
celý_súbor (kompresia_.bz2, 238_kB)

top1000
celý_súbor (kompresia_.bz2, 537_kB)

top1000
celý_súbor (kompresia_.bz2, 475_kB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 3,6_MB)

top1000
celý_súbor (kompresia_.bz2, 4,0_MB)

slovné_druhy

r-mak-5.0

1,2 mil. tokenov / 978 000 slov

top1000
celý_súbor (kompresia_.bz2, 238_kB)

top1000
celý_súbor (kompresia_.bz2, 537_kB)

top1000
celý_súbor (kompresia_.bz2, 476_kB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 3,6_MB)

top1000
celý_súbor (kompresia_.bz2, 4,0_MB)

slovné_druhy

r-mak-4.0

1,2 mil. tokenov / 977 000 slov

top1000
celý_súbor (kompresia_.bz2, 232_kB)

top1000
celý_súbor (kompresia_.bz2, 536_kB)

top1000
celý_súbor (kompresia_.bz2, 474_kB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 3,5_MB)

top1000
celý_súbor (kompresia_.bz2, 3,9_MB)

slovné_druhy

3. Korpusy písaných textov spred roka 1954

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

r864az1843-1.0

2,1 mil. tokenov / 1,6 mil. slov

---

top1000
celý_súbor (kompresia_.bz2, 823_kB)

top1000
celý_súbor (kompresia_.bz2, 733_kB)

top1000
celý_súbor (kompresia_.bz2, 3,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,3_MB)

top1000
celý_súbor (kompresia_.bz2, 5,6_MB)

---

r1843az1954-1.0

24 mil. tokenov / 19 mil. slov

---

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 24,1_MB)

top1000
celý_súbor (kompresia_.bz2, 46,6_MB)

top1000
celý_súbor (kompresia_.bz2, 54,1_MB)

---

4. Historický korpus

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

hist-5.0

998 000 tokenov / 731 000 slov

---

top1000
celý_súbor (kompresia_.bz2, 574_kB)

top1000
celý_súbor (kompresia_.bz2, 520_kB

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 2,2_MB)

---

hist-4.0

918 000 tokenov / 668 000 slov

---

top1000
celý_súbor (kompresia_.bz2, 528_kB)

top1000
celý_súbor (kompresia_.bz2, 483_kB

top1000
celý_súbor (kompresia_.bz2, 1,6_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_MB)

---

hist-3.0

836 000 tokenov / 600 000 slov

---

top1000
celý_súbor (kompresia_.bz2, 484_kB)

top1000
celý_súbor (kompresia_.bz2, 443_kB

top1000
celý_súbor (kompresia_.bz2, 1,5_MB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

---

5. Korpusy hovorených prejavov − synchrónne, štandardné

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

s-hovor-6.0

6,6 mil. tokenov 5,5 mil. slov

top1000
celý_súbor (kompresia_.bz2, 378_kB)

top1000
celý_súbor (kompresia_.bz2, 814_kB)

top1000
celý_súbor (kompresia_.bz2, 726_kB

top1000
celý_súbor (kompresia_.bz2, 5,4_MB)

top1000
celý_súbor (kompresia_.bz2, 11,4_MB)

top1000
celý_súbor (kompresia_.bz2, 14,2_MB)

slovné_druhy

s-hovor-5.0

5,7 mil. tokenov / 4,7 mil. slov

top1000
celý_súbor (kompresia_.bz2, 351_kB)

top1000
celý_súbor (kompresia_.bz2, 753_kB)

top1000
celý_súbor (kompresia_.bz2, 670_kB

top1000
celý_súbor (kompresia_.bz2, 4,8_MB)

top1000
celý_súbor (kompresia_.bz2, 10,0_MB)

top1000
celý_súbor (kompresia_.bz2, 12,4_MB)

slovné_druhy

6. Korpusy nárečí SNK

korpus

rozsah počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

dialekt-4.0

712 000 tokenov / 571 000 slov

---

top1000
celý_súbor (kompresia_.bz2, 387_kB)

top1000
celý_súbor (kompresia_.bz2, 357_kB)

top1000
celý_súbor (kompresia_.bz2, 1,1_MB)

top1000
celý_súbor (kompresia_.bz2, 1,5_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_MB)

---

dialekt-3.0

495 000 tokenov / 403 000 slov

---

top1000
celý_súbor (kompresia_.bz2, 292_kB)

top1000
celý_súbor (kompresia_.bz2, 269_kB)

top1000
celý_súbor (kompresia_.bz2, 775_kB)

top1000
celý_súbor (kompresia_.bz2, 1,0_MB)

top1000
celý_súbor (kompresia_.bz2, 967_kB)

---

dialekt-2.0

329 000 tokenov / 252 000 slov

---

top1000
celý_súbor (kompresia_.bz2, 202_kB)

top1000
celý_súbor (kompresia_.bz2, 186_kB)

top1000
celý_súbor (kompresia_.bz2, 527_kB)

top1000
celý_súbor (kompresia_.bz2, 690_kB)

top1000
celý_súbor (kompresia_.bz2, 634_kB)

---