korpus |
rozsah − počet tokenov / počet slov |
lemma |
word |
word non case sensitive |
2-gramy |
3-gramy |
4-gramy |
slovné druhy |
prim-10.0-public-all |
1 688 mil. tokenov / 1 355 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 20,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 27,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 22,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 562_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-10.0-public-sane |
1 650 mil. tokenov / 1 323 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 19,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 26,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 21,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 551_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-10.0-public-inf |
1 163 mil. tokenov / 932 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 14,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 15,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 399_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,3_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
slovné_druhy |
prim-10.0-public-prf |
189 mil. tokenov / 153 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 6,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 9,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 7,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 114_MB) |
top1000
celý_súbor (kompresia_.bz2, 279_MB) |
top1000
celý_súbor (kompresia_.bz2, 380_MB) |
slovné_druhy |
prim-10.0-public-img |
283 mil. tokenov / 226 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 4,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 8,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 133_MB) |
top1000
celý_súbor (kompresia_.bz2, 354_MB) |
top1000
celý_súbor (kompresia_.bz2, 487_MB) |
slovné_druhy |
prim-10.0-public-img-sk |
97 mil. tokenov / 78 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 2,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 62,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 147_MB) |
top1000
celý_súbor (kompresia_.bz2, 189_MB) |
slovné_druhy |
r1955az1989-7.0 |
109 mil. tokenov / 87 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 3,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 72,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 169_MB) |
top1000
celý_súbor (kompresia_.bz2, 217_MB) |
slovné_druhy |
prim-9.0-public-all |
1 652 mil. tokenov / 1 282 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 20,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 27,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 22,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 562_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-9.0-public-sane |
1 621 mil. tokenov / 1 257 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 19,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 26,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 21,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 551_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-9.0-public-inf |
1 194 mil. tokenov / 920 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 14,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 15,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 399_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,3_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
slovné_druhy |
prim-9.0-public-prf |
150 mil. tokenov / 117 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 6,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 9,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 7,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 114_MB) |
top1000
celý_súbor (kompresia_.bz2, 279_MB) |
top1000
celý_súbor (kompresia_.bz2, 380_MB) |
slovné_druhy |
prim-9.0-public-img |
263 mil. tokenov / 208 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 4,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 8,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 133_MB) |
top1000
celý_súbor (kompresia_.bz2, 354_MB) |
top1000
celý_súbor (kompresia_.bz2, 487_MB) |
slovné_druhy |
prim-9.0-public-img-sk |
93 mil. tokenov / 74 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 2,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 62,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 147_MB) |
top1000
celý_súbor (kompresia_.bz2, 189_MB) |
slovné_druhy |
r1955az1989-6.0 |
99 mil. tokenov / 79 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 3,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 72,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 169_MB) |
top1000
celý_súbor (kompresia_.bz2, 217_MB) |
slovné_druhy |
prim-8.0-public-all |
1 477 mil. tokenov / 1 160 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 18,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 25,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 20,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 521_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,7_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,7_GB) |
slovné_druhy |
prim-8.0-public-sane |
1 369 mil. tokenov / 1 076 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 16,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 23,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 489_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,6_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,5_GB) |
slovné_druhy |
prim-8.0-public-inf |
1 010 mil. tokenov / 791 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 11,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 17,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 13,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 355_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,2_GB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
slovné_druhy |
prim-8.0-public-prf |
122 mil. tokenov / 96 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 5,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 8,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 97,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 235_MB) |
top1000
celý_súbor (kompresia_.bz2, 315_MB) |
slovné_druhy |
prim-8.0-public-img |
224 mil. tokenov / 178 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 4,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 7,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 118_MB) |
top1000
celý_súbor (kompresia_.bz2, 309_MB) |
top1000
celý_súbor (kompresia_.bz2, 422_MB) |
slovné_druhy |
prim-8.0-public-img-sk |
83 mil. tokenov / 66 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 2,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 3,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 55,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 130_MB) |
top1000
celý_súbor (kompresia_.bz2, 167_MB) |
slovné_druhy |
r1955az1989-5.0 |
84 mil. tokenov / 67 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 2,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 64,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 148_MB) |
top1000
celý_súbor (kompresia_.bz2, 189_MB) |
slovné_druhy |
prim-7.0-public-all |
1 250 mil. tokenov / 972 mil. slov |
top1000
celý_súbor (kompresia .gz, 14,7_MB) |
top1000
celý_súbor (kompresia_.gz, 24,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 518_MB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
top1000
celý_súbor (kompresia_.bz2, 4,4_GB) |
slovné_druhy |
prim-7.0-public-sane |
1 089 mil. tokenov / 849 mil. slov |
top1000
celý_súbor (kompresia_.gz, 12,8_MB) |
top1000
celý_súbor (kompresia_.gz, 21,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 17,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 427_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,3_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
slovné_druhy |
prim-7.0-public-inf |
771 mil. tokenov / 597 mil. slov |
top1000
celý_súbor (kompresia_.gz, 8,8_MB) |
top1000
celý_súbor (kompresia_.gz, 15,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 12,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 301_MB) |
top1000
celý_súbor (kompresia_.bz2, 972_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,5_GB) |
slovné_druhy |
prim-7.0-public-prf |
114 mil. tokenov / 89 mil. slov |
top1000
celý_súbor (kompresia_.gz, 4,5_MB) |
top1000
celý_súbor (kompresia_.gz, 8,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 92,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 220_MB) |
top1000
celý_súbor (kompresia_.bz2, 294_MB) |
slovné_druhy |
prim-7.0-public-img |
188 mil. tokenov / 149 mil. slov |
top1000
celý_súbor (kompresia_.gz, 3,3_MB) |
top1000
celý_súbor (kompresia_.gz, 7,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,8_kB) |
top1000
celý_súbor (kompresia_.bz2, 104_MB) |
top1000
celý_súbor (kompresia_.bz2, 268_MB) |
top1000
celý_súbor (kompresia_.bz2, 362_MB) |
slovné_druhy |
prim-7.0-public-img-sk |
65 mil. tokenov / 52 mil. slov |
top1000
celý_súbor (kompresia_.gz, 1,8_MB) |
top1000
celý_súbor (kompresia_.gz, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 3,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 46,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 107_MB) |
top1000
celý_súbor (kompresia_.bz2, 136_MB) |
slovné_druhy |
r1955az1989-4.0 |
67 mil. tokenov / 54 mil. slov |
top1000
celý_súbor (kompresia_.gz, 2,3_MB) |
top1000
celý_súbor (kompresia_.gz, 4,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 55,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 125_MB) |
top1000
celý_súbor (kompresia_.bz2, 160_MB) |
slovné_druhy |
prim-6.1-public-all |
830 mil. tokenov / 656 mil. slov |
top1000
celý_súbor (kompresia_.gz, 11,5_MB) |
top1000
celý_súbor (kompresia_.gz, 19,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 16,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 399_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,6_GB) |
top1000
celý_súbor (kompresia_.bz2, 3,1_GB) |
slovné_druhy |
prim-6.1-public-inf |
541 mil. tokenov / 425 mil. slov |
top1000
celý_súbor (kompresia_.gz, 7,1_MB) |
top1000
celý_súbor (kompresia_.gz, 12,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 10,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 237_MB) |
top1000
celý_súbor (kompresia_.bz2, 740_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,1_GB) |
slovné_druhy |
prim-6.1-public-prf |
106 mil. tokenov / 84 mil. slov |
top1000
celý_súbor (kompresia_.gz, 4,1_MB) |
top1000
celý_súbor (kompresia_.gz, 7,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 87,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 209_MB) |
top1000
celý_súbor (kompresia_.bz2, 281_MB) |
slovné_druhy |
prim-6.1-public-img |
114 mil. tokenov / 91 mil. slov |
top1000
celý_súbor (kompresia_.gz, 2,7_MB) |
top1000
celý_súbor (kompresia_.gz, 5,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 74,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 180_MB) |
top1000
celý_súbor (kompresia_.bz2, 236_MB) |
slovné_druhy |
prim-6.1-public-img-sk |
35 mil. tokenov / 28 mil. slov |
top1000
celý_súbor (kompresia_.gz, 1,3_MB) |
top1000
celý_súbor (kompresia_.gz, 3,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 2,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 30,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 64,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 79,1_MB) |
slovné_druhy |
r55az89-3.0 |
63 mil. tokenov / 51 mil. slov |
top1000
celý_súbor (kompresia_.bz2, 2,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 55,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 122_MB) |
top1000
celý_súbor (kompresia_.bz2, 156_MB) |
slovné_druhy |