Atribúty a štruktúrne značky vo verejne prístupných korpusoch SNK
Obsah
1. Korpusy písaných textov − synchrónne, všeobecné
korpus |
rozsah − počet tokenov / počet slov |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
atribúty |
štruktúry |
1 688 mil. tokenov / 1 355 mil. slov |
áno |
2020 |
všetky verejne prístupné texty SNK (71,0 % publicistické, 16,8 % umelecké, 11,3 % odborné, 0,9 % iné texty) |
word, lemma, tag, word_lc lemma_lc |
doc, s, p, g, noise, hi |
|
1 650 mil. tokenov / 1 323 mil. slov |
áno |
2020 |
bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov |
word, lemma, tag, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
572 mil. tokenov / 459 mil. slov |
áno |
2020 |
vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
word, lemma, tag, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
1 163 mil. tokenov / 932 mil. slov |
áno |
2020 |
podkorpus publicistických (informatívnych) textov |
word, lemma, tag, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
189 mil. tokenov / 153 mil. slov |
áno |
2020 |
podkorpus vedeckých, odborných a populárno-náučných textov |
word, lemma, tag, word_lc, lemma_lc |
doc, s, p, g, hi |
|
283 mil. tokenov / 226 mil. slov |
áno |
2020 |
podkorpus umeleckých textov |
word, lemma, tag, word_lc, lemma_lc |
doc, s, p, g, hi |
|
1 361 mil. tokenov / 1 093 mil. slov |
áno |
2020 |
podkorpus pôvodných slovenských textov |
word, lemma, tag, word_lc, lemma_lc |
doc, s, p, g, hi |
|
97 mil. tokenov / 78 mil. slov |
áno |
2020 |
podkorpus pôvodných slovenských umeleckých textov |
word, lemma, tag, word_lc, lemma_lc |
doc, s, p, g, hi |
|
109 mil. tokenov / 87 mil. slov |
áno |
2020 |
osobitný korpus textov z rokov 1955 – 1989 (4,0 % publicistické, 81,2 % umelecké, 11,1 % odborné, 3,7 % iné texty) |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
1 652 mil. tokenov / 1 282 mil. slov |
áno |
2020 |
všetky verejne prístupné texty SNK (74,0 % publicistické, 16,0 % umelecké, 9,2 % odborné, 0,9 % iné texty) |
word, lemma, tag, prec, word_lc lemma_lc |
doc, s, p, g, noise, hi |
|
1 621 mil. tokenov / 1 257 mil. slov |
áno |
2020 |
bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
454 mil. tokenov / 355 mil. slov |
áno |
2020 |
vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
1 194 mil. tokenov / 920 mil. slov |
áno |
2020 |
podkorpus publicistických (informatívnych) textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
150 mil. tokenov / 117 mil. slov |
áno |
2020 |
podkorpus vedeckých, odborných a populárno-náučných textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
263 mil. tokenov / 208 mil. slov |
áno |
2020 |
podkorpus umeleckých textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
1 258 mil. tokenov / 977 mil. slov |
áno |
2020 |
podkorpus pôvodných slovenských textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
93 mil. tokenov / 74 mil. slov |
áno |
2020 |
podkorpus pôvodných slovenských umeleckých textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
99 mil. tokenov / 79 mil. slov |
áno |
2020 |
osobitný korpus textov z rokov 1955 – 1989 (4,5 % publicistické, 78,6 % umelecké, 12,4 % odborné, 4,4 % iné texty) |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
1 477 mil. tokenov / 1 160 mil. slov |
áno |
2018 |
všetky verejne prístupné texty SNK (71,1 % publicistické, 15,4 % umelecké, 8,5 % odborné, 5,0 % iné texty) |
word, lemma, tag, prec, word_lc lemma_lc |
doc, s, p, g, noise, hi |
|
1 369 mil. tokenov / 1 076 mil. slov |
áno |
2018 |
bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
377 mil. tokenov / 298 mil. slov |
áno |
2018 |
vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
1 010 mil. tokenov / 791 mil. slov |
áno |
2018 |
podkorpus publicistických (informatívnych) textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, noise, hi |
|
122 mil. tokenov / 96 mil. slov |
áno |
2018 |
podkorpus vedeckých, odborných a populárno-náučných textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
224 mil. tokenov / 178 mil. slov |
áno |
2018 |
podkorpus umeleckých textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
1 043 mil. tokenov / 822 mil. slov |
áno |
2018 |
podkorpus pôvodných slovenských textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
83 mil. tokenov / 66 mil. slov |
áno |
2018 |
podkorpus pôvodných slovenských umeleckých textov |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
84 mil. tokenov / 67 mil. slov |
áno |
2018 |
osobitný korpus textov z rokov 1955 – 1989 (5,3 % publicistické, 75,3 % umelecké, 14,0 % odborné, 5,4 % iné texty) |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, s, p, g, hi |
|
1 250 mil. tokenov / 972 mil. slov |
áno |
2015 |
všetky verejne prístupné texty SNK (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné, 10,3 % iné texty) |
word, lemma, tag, prec |
doc, s, p, g |
|
1 089 mil. tokenov / 849 mil. slov |
áno |
2015 |
bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov |
word, lemma, tag, prec |
doc, s, p, g |
|
341 mil. tokenov / 267 mil. slov |
áno |
2015 |
vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
word, lemma, tag, prec |
doc, s, p, g |
|
771 mil. tokenov / 597 mil. slov |
áno |
2015 |
podkorpus publicistických (informatívnych) textov |
word, lemma, tag, prec |
doc, s, p, g |
|
114 mil. tokenov / 89 mil. slov |
áno |
2015 |
podkorpus vedeckých, odborných a populárno-náučných textov |
word, lemma, tag, prec |
doc, s, p, g |
|
188 mil. tokenov / 149 mil. slov |
áno |
2015 |
podkorpus umeleckých textov |
word, lemma, tag, prec |
doc, s, p, g |
|
807 mil. tokenov / 630 mil. slov |
áno |
2015 |
podkorpus pôvodných slovenských textov |
word, lemma, tag, prec |
doc, s, p, g |
|
65 mil. tokenov / 52 mil. slov |
áno |
2015 |
podkorpus pôvodných slovenských umeleckých textov |
word, lemma, tag, prec |
doc, s, p, g |
|
67 mil. tokenov / 54 mil. slov |
áno |
2015 |
osobitný korpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné, 6,7 % iné texty) |
word, lemma, tag, prec |
doc, s, p, g |
|
830 mil. tokenov / 656 mil. slov |
áno |
2013 |
všetky verejne prístupné texty SNK: 68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné, 2 % iné texty |
word, lemma, tag, prec |
doc, s, p, g |
|
773 mil. tokenov / 610 mil. slov |
áno |
2013 |
bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov |
word, lemma, tag, prec |
doc, s, p, g |
|
317 mil. tokenov / 252 mil. slov |
áno |
2013 |
vyvážený; podkorpus: 33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty |
word, lemma, tag, prec |
doc, s, p, g |
|
541 mil. tokenov / 425 mil. slov |
áno |
2013 |
podkorpus publicistických (informatívnych) textov |
word, lemma, tag, prec |
doc, s, p, g |
|
106 mil. tokenov / 84 mil. slov |
áno |
2013 |
podkorpus vedeckých, odborných a populárno-náučných textov |
word, lemma, tag, prec |
doc, s, p, g |
|
114 mil. tokenov / 91 mil. slov |
áno |
2013 |
podkorpus umeleckých textov |
word, lemma, tag, prec |
doc, s, p, g |
|
558 mil. tokenov / 441 mil. slov |
áno |
2013 |
podkorpus pôvodných slovenských textov |
word, lemma, tag, prec |
doc, s, p, g |
|
35 mil. tokenov / 28 mil. slov |
áno |
2013 |
podkorpus pôvodných slovenských umeleckých textov |
word, lemma, tag, prec |
doc, s, p, g |
|
63 mil. tokenov / 51 mil. slov |
áno |
2013 |
osobitný korpus textov z rokov 1955 – 1989: 11,9 % publicistika, 55,5 % umelecké, 24,1 % odborné, 8,5 % iné texty |
word, lemma, tag, prec |
doc, s, p, g |
|
1 155 mil. tokenov / 939 mil. slov |
áno |
2013 |
všetky verejne prístupné texty SNK: 77,8 % publicistické, 9,8 % umelecké, 11 % odborné, 1,4 % iné texty |
word, lemma, tag, prec |
doc, s, p, g |
|
719 mil. tokenov / 599 mil. slov |
áno |
2011 |
všetky verejne prístupné texty SNK: 73 % publicistické, 14 % umelecké, 12 % odborné, 1 % iné texty |
word, lemma, tag, prec |
doc, s, p, br, noise, picture, head, hi, equation, table |
|
526 mil. tokenov / 429 mil. slov |
áno |
2009 |
všetky verejne prístupné texty SNK: 65 % publicistické, 17 % umelecké, 16 % odborné, 2 % iné texty |
word, lemma, tag, prec |
doc, s, p, br, noise, picture, head, hi, equation, table |
|
339 mil. tokenov / 276 mil. slov |
áno |
2007 |
všetky verejne prístupné texty SNK: 57 % publicistické, 21,5 % umelecké, 18,5 % odborné, 3 % iné texty |
word, lemma, tag, hlemma, htag |
doc, s, p, br, noise, picture, head, hi, equation, table |
|
294 mil. tokenov / 240 mil. slov |
áno |
2006 |
všetky verejne prístupné texty SNK: 63 % publicistické, 20 % umelecké, 12 % odborné, 5 % iné texty |
word, lemma, tag, hlemma, htag |
doc, s, p, br, noise, picture, head, hi, equation, table |
|
4 042 mil. tokenov / 3 326 mil. slov |
áno |
2020 |
korpus slovenských textov dostupných na webe |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, p, s, g, pgap, sgap |
|
2 963 mil. tokenov / 2 440 mil. slov |
áno |
2018 |
korpus slovenských textov dostupných na webe |
word, lemma, tag, prec, word_lc, lemma_lc |
doc, p, s, g, pgap, sgap |
|
2 372 mil. tokenov / 1 993 mil. slov |
áno |
2015 |
korpus slovenských textov dostupných na webe |
word, lemma, tag, prec |
doc, p, s, g, gap |
|
51 mil. tokenov / 38 mil. slov |
áno |
2020 |
korpus slovenských textov z Wikipédie |
word, lemma, tag, prec |
doc, s, p, m, g |
|
47 mil. tokenov / 35 mil. slov |
áno |
2018 |
korpus slovenských textov z Wikipédie a Necyklopédie |
word, lemma, tag, prec |
doc, s, p |
|
45 mil. tokenov / 34 mil. slov |
áno |
2017 |
korpus slovenských textov z Wikipédie a Necyklopédie |
word, lemma, tag, prec |
doc, s, p |
|
43 mil. tokenov / 34 mil. slov |
áno |
2016 |
korpus slovenských textov z Wikipédie a Necyklopédie |
word, lemma, tag, prec |
doc, s, p |
|
40 mil. tokenov / 32 mil. slov |
áno |
2015 |
korpus slovenských textov z Wikipédie a Necyklopédie |
word, lemma, tag, prec |
doc, s, p |
|
253 mil. tokenov / 203 mil. slov |
áno |
2018 |
Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi. |
word, lemma, tag, prec |
doc, s, p, g |
|
1,2 mil. tokenov / 978 000 slov |
áno |
2017 |
ručne morfologicky anotovaný korpus SNK: 30,6 % publicistické, 50,2 % umelecké, 19,2 % odborné texty |
word, lemma, tag |
doc, s, p, br, noise, picture, head, hi, equation, table |
|
1,2 mil. tokenov / 978 000 slov |
áno |
2016 |
ručne morfologicky anotovaný korpus SNK: 28,5 % publicistické, 44,5 % umelecké, 27 % odborné texty |
word, lemma, tag |
doc, s, p, br, noise, picture, head, hi, equation, table |
|
1,2 mil. tokenov / 977 000 slov |
áno |
2013 |
ručne morfologicky anotovaný korpus SNK: 36,2 % publicistické, 44,9 % umelecké, 18,9 % odborné texty |
word, lemma, tag |
doc, s, p, hi |
2. Korpusy písaných textov − synchrónne, špecializované
korpus |
rozsah − počet tokenov / počet slov |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
atribúty |
štruktúry |
66 mil. tokenov / 54 mil. slov |
áno |
2014 |
korpus náboženských textov |
word, lemma, tag, prec |
doc, s, p, g |
|
1,6 mil. tokenov / 1,2 mil. slov |
áno |
2014 |
korpus copywriterských textov |
word, lemma, tag, prec |
doc, s, p, g |
|
165 mil. tokenov / 140 mil. slov |
áno |
2016 |
korpus ekonomických textov: 3,76 % odborných a 96,24 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva |
word, lemma, tag, prec |
doc, s, p, g |
|
20 mil. tokenov / 17 mil. slov |
áno |
2014 |
korpus ekonomických textov: 81,4 % odborných a 18,6 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva |
word, lemma, tag, prec |
doc, s, p, g |
|
39 mil. tokenov / 30 mil. slov |
áno |
2016 |
korpus humanitných textov |
word, lemma, tag, prec |
doc, s, p, g |
|
1,5 mil. tokenov / 1,3 mil. slov |
áno |
2015 |
korpus súdnych rozhodnutí |
word, lemma, tag, prec |
doc, s, p |
|
49 mil. tokenov / 40 mil. slov |
áno |
|
korpus právnych textov (deduplikovaný) |
word, lemma, tag, ftag, rgtag |
doc, p, s, s0, g |
|
147 mil. tokenov / 114 mil. slov |
áno |
2011 |
korpus právnych textov |
|
|
3. Korpusy písaných textov − paralelné
korpus |
rozsah − počet tokenov / počet slov |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
atribúty |
štruktúry |
163 mil. tokenov / 108 mil. slov |
áno, |
2014 |
slovensko-bulharský paralelný korpus: 78 mil. tokenov v slovenskej časti, 85 mil. tokenov v bulharskej časti |
word, lemma, tag |
doc, s |
|
418 mil. tokenov / 306 mil. slov |
áno, |
2016 |
slovensko-český paralelný korpus: 209 mil. tokenov v slovenskej časti, 209 mil. tokenov v českej časti |
word, lemma, tag |
doc, s |
|
31,5 mil. tokenov / 25,0 mil. slov |
áno, |
2018 |
slovensko-český paralelný korpus, podkorpus beletrie: 15,7 mil. tokenov v slovenskej časti, 15,8 mil. tokenov v českej časti |
word, lemma, tag |
doc, s |
|
446 mil. tokenov / 300 mil. slov |
áno, |
2016 |
slovensko-nemecký paralelný korpus: 220 mil. tokenov v slovenskej časti, 226 mil. tokenov v nemeckej časti |
word, lemma, tag |
doc, s |
|
556 mil. tokenov / 436 mil. slov |
áno, |
2015 |
slovensko-anglický paralelný korpus: 261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti |
word, lemma, tag |
doc, s |
|
449 mil. tokenov / 332 mil. slov |
áno, |
2016 |
slovensko-francúzsky paralelný korpus: 217 mil. tokenov v slovenskej časti, 232 mil. tokenov vo francúzskej časti |
word, lemma, tag |
doc, s |
|
99 mil. tokenov / 75 mil. slov |
áno, |
2015 |
slovensko-maďarský paralelný korpus: 51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti |
word, lemma, tag |
doc, s |
|
3,9 mil. tokenov |
áno, |
2015 |
slovensko-maďarský paralelný korpus: 2,0 mil. tokenov v slovenskej časti, 1,9 mil. tokenov v maďarskej časti |
word, lemma, tag |
doc, s |
|
5,0 mil. tokenov / 4,1 mil. slov |
áno, |
2018 |
slovensko-latinský paralelný korpus: 2,7 mil. tokenov v slovenskej časti, 2,3 mil. tokenov v latinskej časti |
word, lemma, tag |
doc, s |
|
8,2 mil. tokenov / 6,5 mil. slov |
áno, |
2018 |
slovensko-poľský paralelný korpus: 4,1 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v poľskej časti |
word, lemma, tag |
doc, s |
|
1,3 mil. tokenov / 1,0 mil. slov |
áno, |
2017 |
slovensko-rumunský paralelný korpus: 603 000 tokenov v slovenskej časti, 689 000 tokenov v rumunskej časti |
word, lemma, tag |
doc, s |
|
8,5 mil. tokenov / 6,6 mil. slov |
áno, |
2014 |
slovensko-ruský paralelný korpus: 4,2 mil. tokenov v slovenskej časti, 4,2 mil. tokenov v ruskej časti |
word, lemma, tag |
doc, s |
4. Korpusy písaných textov spred roka 1954
korpus |
rozsah − počet tokenov / počet slov |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
atribúty |
štruktúry |
2,1 mil. tokenov / 1,6 mil. slov |
nie |
2015 |
korpus textov z r. 864 − 1843 |
word |
doc, s, p, g |
|
24 mil. tokenov / 19 mil. slov |
nie |
2015 |
korpus textov z r. 1843 − 1954 |
word |
doc, s, p, g |
5. Historický korpus
korpus |
rozsah − počet tokenov / počet slov |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
atribúty |
štruktúry |
998 000 tokenov / 731 000 slov |
nie |
2020 |
Historický korpus slovenčiny |
word, lemma |
doc, s, p, g, noise, rem, miss |
|
918 000 tokenov / 668 000 slov |
nie |
2016 |
Historický korpus slovenčiny |
word, lemma |
doc, s, p, g |
|
836 000 tokenov / 600 000 slov |
nie |
2015 |
Historický korpus slovenčiny |
word, lemma |
doc, s, p, g |
|
552 000 tokenov / 422 000 slov |
nie |
2014 |
Historický korpus slovenčiny |
word, lemma |
doc, s, p, g |
|
371 000 tokenov |
nie |
2012 |
Historický korpus slovenčiny |
word, nword |
doc, s, p, g |
6. Korpusy hovorených prejavov − synchrónne, štandardné
korpus |
rozsah − počet tokenov / počet slov |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
atribúty |
štruktúry |
6,6 mil. tokenov / 5,5 mil. slov |
áno |
2017 |
Slovenský hovorený korpus |
word, pron, lemma, tag, prec |
||
5,7 mil. tokenov / 4,7 mil. slov |
áno |
2015 |
Slovenský hovorený korpus |
word, pron, lemma, tag, prec |
doc, section, turn, event, sync, background, who, spk |
|
2,6 mil. tokenov / 2,2 mil. slov |
áno |
2012 |
Slovenský hovorený korpus |
word, pron, lemma, tag, prec |
doc, section, turn, event, sync, background, who, spk |
|
2,1 mil. tokenov / 1,4 mil. slov |
áno |
2011 |
Slovenský hovorený korpus |
word, pron, lemma, tag, dcount |
doc, section, turn, event, sync, background, who |
|
679 000 tokenov / 561 000 slov |
áno |
2010 |
Slovenský hovorený korpus |
word, pron, lemma, tag, dcount |
doc, section, turn, event, sync, background, who |
|
128 000 tokenov / 104 000 slov |
áno |
2008 |
Slovenský hovorený korpus |
word, pron, lemma, tag, dcount |
doc, section, turn, event, sync, background, who |
7. Korpusy nárečí SNK
korpus |
rozsah − počet tokenov / počet slov |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
atribúty |
štruktúry |
712 000 tokenov / 571 000 slov |
nie |
2020 |
Korpus nárečí Slovenského národného korpusu |
word, lemma |
doc, spk, s, p, rem |
|
495 000 tokenov / 403 000 slov |
nie |
2016 |
Korpus nárečí Slovenského národného korpusu |
word, lemma |
doc, spk, s, p, rem |
|
329 000 tokenov / 252 000 slov |
nie |
2015 |
Korpus nárečí Slovenského národného korpusu |
word, lemma |
doc, spk, s, p, rem |
|
74 000 tokenov / 55 000 slov |
nie |
2014 |
Korpus nárečí Slovenského národného korpusu |
word, lemma |
doc, s, p |