corpus |
size − number of tokens / number of words |
lemma |
word |
word non case sensitive |
2-grams |
3-grams |
4-grams |
parts of speech |
prim-10.0-public-all |
1 688 million tokens / 1 355 million words |
top1000
celý_súbor (kompresia_.bz2, 20,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 27,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 22,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 562_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-10.0-public-sane |
1 650 million tokens / 1 323 million words |
top1000
celý_súbor (kompresia_.bz2, 19,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 26,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 21,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 551_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-10.0-public-inf |
1 163 million tokens / 932 million words |
top1000
celý_súbor (kompresia_.bz2, 14,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 15,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 399_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,3_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
slovné_druhy |
prim-10.0-public-prf |
189 million tokens / 153 million words |
top1000
celý_súbor (kompresia_.bz2, 6,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 9,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 7,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 114_MB) |
top1000
celý_súbor (kompresia_.bz2, 279_MB) |
top1000
celý_súbor (kompresia_.bz2, 380_MB) |
slovné_druhy |
prim-10.0-public-img |
283 million tokens / 226 million words |
top1000
celý_súbor (kompresia_.bz2, 4,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 8,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 133_MB) |
top1000
celý_súbor (kompresia_.bz2, 354_MB) |
top1000
celý_súbor (kompresia_.bz2, 487_MB) |
slovné_druhy |
prim-10.0-public-img-sk |
97 million tokens / 78 million words |
top1000
celý_súbor (kompresia_.bz2, 2,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 62,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 147_MB) |
top1000
celý_súbor (kompresia_.bz2, 189_MB) |
slovné_druhy |
r1955az1989-7.0 |
109 million tokens / 87 million words |
top1000
celý_súbor (kompresia_.bz2, 3,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 72,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 169_MB) |
top1000
celý_súbor (kompresia_.bz2, 217_MB) |
slovné_druhy |
prim-9.0-public-all |
1 652 million tokens / 1 282 million words |
top1000
celý_súbor (kompresia_.bz2, 20,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 27,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 22,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 562_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-9.0-public-sane |
1 621 million tokens / 1 257 million words |
top1000
celý_súbor (kompresia_.bz2, 19,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 26,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 21,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 551_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,9_GB) |
slovné_druhy |
prim-9.0-public-inf |
1 194 million tokens / 920 million words |
top1000
celý_súbor (kompresia_.bz2, 14,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 15,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 399_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,3_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
slovné_druhy |
prim-9.0-public-prf |
150 million tokens / 117 million words |
top1000
celý_súbor (kompresia_.bz2, 6,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 9,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 7,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 114_MB) |
top1000
celý_súbor (kompresia_.bz2, 279_MB) |
top1000
celý_súbor (kompresia_.bz2, 380_MB) |
slovné_druhy |
prim-9.0-public-img |
263 million tokens / 208 million words |
top1000
celý_súbor (kompresia_.bz2, 4,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 8,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 133_MB) |
top1000
celý_súbor (kompresia_.bz2, 354_MB) |
top1000
celý_súbor (kompresia_.bz2, 487_MB) |
slovné_druhy |
prim-9.0-public-img-sk |
93 million tokens / 74 million words |
top1000
celý_súbor (kompresia_.bz2, 2,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 62,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 147_MB) |
top1000
celý_súbor (kompresia_.bz2, 189_MB) |
slovné_druhy |
r1955az1989-6.0 |
99 million tokens / 79 million words |
top1000
celý_súbor (kompresia_.bz2, 3,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 72,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 169_MB) |
top1000
celý_súbor (kompresia_.bz2, 217_MB) |
slovné_druhy |
prim-8.0-public-all |
1 477 million tokens / 1 160 million words |
top1000
celý_súbor (kompresia_.bz2, 18,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 25,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 20,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 521_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,7_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,7_GB) |
slovné_druhy |
prim-8.0-public-sane |
1 369 million tokens / 1 076 million words |
top1000
celý_súbor (kompresia_.bz2, 16,9_MB) |
top1000
celý_súbor (kompresia_.bz2, 23,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 489_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,6_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,5_GB) |
slovné_druhy |
prim-8.0-public-inf |
1 010 million tokens / 791 million words |
top1000
celý_súbor (kompresia_.bz2, 11,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 17,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 13,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 355_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,2_GB) |
top1000
celý_súbor (kompresia_.bz2, 1,8_GB) |
slovné_druhy |
prim-8.0-public-prf |
122 million tokens / 96 million words |
top1000
celý_súbor (kompresia_.bz2, 5,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 8,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 97,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 235_MB) |
top1000
celý_súbor (kompresia_.bz2, 315_MB) |
slovné_druhy |
prim-8.0-public-img |
224 million tokens / 178 million words |
top1000
celý_súbor (kompresia_.bz2, 4,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 7,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 118_MB) |
top1000
celý_súbor (kompresia_.bz2, 309_MB) |
top1000
celý_súbor (kompresia_.bz2, 422_MB) |
slovné_druhy |
prim-8.0-public-img-sk |
83 million tokens / 66 million words |
top1000
celý_súbor (kompresia_.bz2, 2,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 3,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 55,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 130_MB) |
top1000
celý_súbor (kompresia_.bz2, 167_MB) |
slovné_druhy |
r1955az1989-5.0 |
84 million tokens / 67 million words |
top1000
celý_súbor (kompresia_.bz2, 2,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 64,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 148_GB) |
top1000
celý_súbor (kompresia_.bz2, 189_GB) |
slovné_druhy |
prim-7.0-public-all |
1 250 million tokens / 972 million words |
top1000
celý_súbor (kompresia .gz, 14,7_MB) |
top1000
celý_súbor (kompresia_.gz, 24,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 19,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 518_MB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
top1000
celý_súbor (kompresia_.bz2, 4,4_GB) |
slovné_druhy |
prim-7.0-public-sane |
1 089 million tokens / 849 milion words |
top1000
celý_súbor (kompresia_.gz, 12,8_MB) |
top1000
celý_súbor (kompresia_.gz, 21,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 17,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 427_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,3_GB) |
top1000
celý_súbor (kompresia_.bz2, 2,1_GB) |
slovné_druhy |
prim-7.0-public-inf |
771 million tokens / 597 milion words |
top1000
celý_súbor (kompresia_.gz, 8,8_MB) |
top1000
celý_súbor (kompresia_.gz, 15,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 12,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 333_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,0_GB) |
top1000
celý_súbor (kompresia_.bz2, 1,5_GB) |
slovné_druhy |
prim-7.0-public-prf |
114 million tokens / 89 million words |
top1000
celý_súbor (kompresia_.gz, 4,5_MB) |
top1000
celý_súbor (kompresia_.gz, 8,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 99,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 229_MB) |
top1000
celý_súbor (kompresia_.bz2, 303_MB) |
slovné_druhy |
prim-7.0-public-img |
188 million tokens / 149 million words |
top1000
celý_súbor (kompresia_.gz, 3,3_MB) |
top1000
celý_súbor (kompresia_.gz, 7,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,8_kB) |
top1000
celý_súbor (kompresia_.bz2, 112_MB) |
top1000
celý_súbor (kompresia_.bz2, 280_MB) |
top1000
celý_súbor (kompresia_.bz2, 374_MB) |
slovné_druhy |
prim-7.0-public-img-sk |
65 million tokens / 52 million words |
top1000
celý_súbor (kompresia_.gz, 1,8_MB) |
top1000
celý_súbor (kompresia_.gz, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 3,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 50,4_MB) |
top1000
celý_súbor (kompresia_.bz2, 111_MB) |
top1000
celý_súbor (kompresia_.bz2, 140_MB) |
slovné_druhy |
r1955az1989-4.0 |
67 million tokens / 54 million words |
top1000
celý_súbor (kompresia_.gz, 4,9_MB) |
top1000
celý_súbor (kompresia_.gz, 2,3_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 60_MB) |
top1000
celý_súbor (kompresia_.bz2, 131_MB) |
top1000
celý_súbor (kompresia_.bz2, 164_MB) |
slovné_druhy |
prim-6.1-public-all |
830 million tokens / 656 million word |
top1000
celý_súbor (kompresia_.gz, 11,5_MB) |
top1000
celý_súbor (kompresia_.gz, 19,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 16,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 399_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,6_GB) |
top1000
celý_súbor (kompresia_.bz2, 3,1_GB) |
slovné_druhy |
prim-6.1-public-inf |
541 million tokens / 425 million words |
top1000
celý_súbor (kompresia_.gz, 7,1_MB) |
top1000
celý_súbor (kompresia_.gz, 12,7_MB) |
top1000
celý_súbor (kompresia_.bz2, 10,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 261_MB) |
top1000
celý_súbor (kompresia_.bz2, 780_MB) |
top1000
celý_súbor (kompresia_.bz2, 1,2_GB) |
slovné_druhy |
prim-6.1-public-prf |
106 million tokens / 84 million words |
top1000
celý_súbor (kompresia_.gz, 4,1_MB) |
top1000
celý_súbor (kompresia_.gz, 7,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 6,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 95,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 219_MB) |
top1000
celý_súbor (kompresia_.bz2, 290_MB) |
slovné_druhy |
prim-6.1-public-img |
114 million tokens / 91 million words |
top1000
celý_súbor (kompresia_.gz, 2,7_MB) |
top1000
celý_súbor (kompresia_.gz, 5,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,8_MB) |
top1000
celý_súbor (kompresia_.bz2, 80,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 188_MB) |
top1000
celý_súbor (kompresia_.bz2, 244_MB) |
slovné_druhy |
prim-6.1-public-img-sk |
35 million tokens / 28 million words |
top1000
celý_súbor (kompresia_.gz, 1,3_MB) |
top1000
celý_súbor (kompresia_.gz, 3,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 2,6_MB) |
top1000
celý_súbor (kompresia_.bz2, 32,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 67,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 81,6_MB) |
slovné_druhy |
r55az89-3.0 |
63 million tokens / 51 million words |
top1000
celý_súbor (kompresia_.bz2, 2,5_MB) |
top1000
celý_súbor (kompresia_.bz2, 5,0_MB) |
top1000
celý_súbor (kompresia_.bz2, 4,2_MB) |
top1000
celý_súbor (kompresia_.bz2, 59,1_MB) |
top1000
celý_súbor (kompresia_.bz2, 128_MB) |
top1000
celý_súbor (kompresia_.bz2, 161_MB) |
slovné_druhy |