Verejne prístupné korpusy SNK
Obsah
- Korpusy a podkorpusy písaných textov − synchrónne, všeobecné
- Korpusy písaných textov − synchrónne, webové
- Korpusy písaných textov − synchrónne, špecializované
- Korpusy písaných textov − paralelné
- Korpusy písaných textov spred roka 1955 (prevažne texty kníh zo Zlatého fondu SME)
- Historický korpus
- Korpusy hovorených prejavov − synchrónne, štandardné
- Korpusy nárečí SNK
1. Korpusy a podkorpusy písaných textov − synchrónne, všeobecné
verzia hlavného korpusu a podkorpusov |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusov a podkorpusov |
1 961 mil. tokenov / 1 572 mil. slov |
áno |
– |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 |
|
1 688 mil. tokenov / 1 355 mil. slov |
áno |
2022 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (71,0 % publicistické, 16,8 % umelecké, 11,3 % odborné, 0,9 % iné texty) |
|
1 921 mil. tokenov / 1 540 mil. slov |
áno |
– |
hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. |
|
1 650 mil. tokenov / 1 323 mil. slov |
áno |
2022 |
hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. – z neho sa tvoria podkorpusy |
|
572 mil. tokenov / 459 mil. slov |
áno |
2022 |
štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
|
1 163 mil. tokenov / 932 mil. slov |
áno |
2022 |
podkorpus publicistických textov |
|
189 mil. tokenov / 153 mil. slov |
áno |
2022 |
podkorpus vedeckých, odborných a populárno-náučných textov |
|
283 mil. tokenov / 226 mil. slov |
áno |
2022 |
podkorpus umeleckých textov |
|
1 361 mil. tokenov / 1 093 mil. slov |
áno |
2022 |
podkorpus pôvodných slovenských textov |
|
97 mil. tokenov / 78 mil. slov |
áno |
2022 |
podkorpus pôvodných slovenských umeleckých textov |
|
109 mil. tokenov / 87 mil. slov |
áno |
2022 |
podkorpus textov z rokov 1955 – 1989 (4,0 % publicistické, 81,2 % umelecké, 11,1 % odborné, 3,7 % iné texty) |
|
1 870 mil. tokenov / 1 455 mil. slov |
áno |
– |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 |
|
1 652 mil. tokenov / 1 282 mil. slov |
áno |
2020 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (74,0 % publicistické, 16,0 % umelecké, 9,2 % odborné, 0,9 % iné texty) |
|
1 838 mil. tokenov / 1 429 mil. slov |
áno |
– |
hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. |
|
1 621 mil. tokenov / 1 257 mil. slov |
áno |
2020 |
hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. – z neho sa tvoria podkorpusy |
|
454 mil. tokenov / 355 mil. slov |
áno |
2020 |
štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
|
1 194 mil. tokenov / 920 mil. slov |
áno |
2020 |
podkorpus publicistických textov |
|
150 mil. tokenov / 117 mil. slov |
áno |
2020 |
podkorpus vedeckých, odborných a populárno-náučných textov |
|
263 mil. tokenov / 208 mil. slov |
áno |
2020 |
podkorpus umeleckých textov |
|
1 258 mil. tokenov / 977 mil. slov |
áno |
2020 |
podkorpus pôvodných slovenských textov |
|
93 mil. tokenov / 74 mil. slov |
áno |
2020 |
podkorpus pôvodných slovenských umeleckých textov |
|
99 mil. tokenov / 79 mil. slov |
áno |
2020 |
podkorpus textov z rokov 1955 – 1989 (4,5 % publicistické, 78,6 % umelecké, 12,4 % odborné, 4,4 % iné texty) |
|
1 647 mil. tokenov / 1 295 mil. slov |
áno |
– |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 |
|
1 477 mil. tokenov / 1 160 mil. slov |
áno |
2018 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (71,1 % publicistické, 15,4 % umelecké, 8,5 % odborné, 5,0 % iné texty) |
|
1 518 mil. tokenov / 1 195 mil. slov |
áno |
– |
hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. |
|
1 369 mil. tokenov / 1 076 mil. slov |
áno |
2018 |
hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. – z neho sa tvoria podkorpusy |
|
377 mil. tokenov / 298 mil. slov |
áno |
2018 |
štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
|
1 010 mil. tokenov / 791 mil. slov |
áno |
2018 |
podkorpus publicistických textov |
|
122 mil. tokenov / 96 mil. slov |
áno |
2018 |
podkorpus vedeckých, odborných a populárno-náučných textov |
|
224 mil. tokenov / 178 mil. slov |
áno |
2018 |
podkorpus umeleckých textov |
|
1 043 mil. tokenov / 822 mil. slov |
áno |
2018 |
podkorpus pôvodných slovenských textov |
|
83 mil. tokenov / 66 mil. slov |
áno |
2018 |
podkorpus pôvodných slovenských umeleckých textov |
|
84 mil. tokenov / 67 mil. slov |
áno |
2018 |
podkorpus textov z rokov 1955 – 1989 (5,3 % publicistické, 75,3 % umelecké, 14,0 % odborné, 5,4 % iné texty) |
|
1 437 mil. tokenov / 1 119 mil. slov |
áno |
– |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 |
|
1 250 mil. tokenov / 972 mil. slov |
áno |
2015 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné, 10,3 % iné texty) |
|
1 202 mil. tokenov / 938 mil. slov |
áno |
– |
hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. |
|
1 089 mil. tokenov / 849 mil. slov |
áno |
2015 |
hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. – z neho sa tvoria podkorpusy |
|
341 mil. tokenov / 267 mil. slov |
áno |
2015 |
štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) |
|
771 mil. tokenov / 597 mil. slov |
áno |
2015 |
podkorpus publicistických textov |
|
114 mil. tokenov / 89 mil. slov |
áno |
2015 |
podkorpus vedeckých, odborných a populárno-náučných textov |
|
188 mil. tokenov / 149 mil. slov |
áno |
2015 |
podkorpus umeleckých textov |
|
807 mil. tokenov / 630 mil. slov |
áno |
2015 |
podkorpus pôvodných slovenských textov |
|
65 mil. tokenov / 52 mil. slov |
áno |
2015 |
podkorpus pôvodných slovenských umeleckých textov |
|
67 mil. tokenov / 54 mil. slov |
áno |
2015 |
podkorpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné, 6,7 % iné texty) |
|
830 mil. tokenov / 656 mil. slov |
áno |
2013 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné, 2 % iné texty) |
|
63 mil. tokenov / 51 mil. slov |
áno |
2013 |
podkorpus textov z rokov 1955 – 1989 (11,9 % publicistické, 55,5 % umelecké, 24,1 % odborné, 8,5 % iné texty) |
|
1 155 mil. tokenov / 939 mil. slov |
áno |
2013 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (77,8 % publicistické, 9,8 % umelecké, 11 % odborné, 1,4 % iné texty) |
|
719 mil. tokenov / 599 mil. slov |
áno |
2011 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (73 % publicistické, 14 % umelecké, 12 % odborné, 1 % iné texty) |
|
44 mil. tokenov / 35 mil. slov |
áno |
2011 |
podkorpus textov z rokov 1955 – 1989 |
|
526 mil. tokenov / 429 mil. slov |
áno |
2009 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65 % publicistické, 17 % umelecké, 16 % odborné, 2 % iné texty) |
|
40 mil. tokenov / 32 mil. slov |
áno |
2009 |
podkorpus textov z rokov 1955 – 1989 |
|
339 mil. tokenov / 276 mil. slov |
áno |
2007 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (57 % publicistické, 21,5 % umelecké, 18,5 % odborné, 3 % iné texty) |
|
294 mil. tokenov / 229 mil. slov |
áno |
2006 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (63 % publicistické, 20 % umelecké, 12 % odborné, 5 % iné texty) |
|
prim-2.0-public-all |
250 mil. tokenov |
pilotná |
2005 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
prim-1.0-public-all |
182 mil. tokenov |
testovacia |
2004 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
prim-0.2-public-all |
170 mil. tokenov |
nie |
2003 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
prim-0.1-public-all |
30 mil. tokenov |
nie |
2003 |
hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
2. Korpusy písaných textov − synchrónne, webové
verzia korpusu |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
4 042 mil. tokenov / 3 326 mil. slov |
áno |
2020 |
korpus slovenských textov dostupných na webe |
|
2 963 mil. tokenov / 2 440 mil. slov |
áno |
2018 |
korpus slovenských textov dostupných na webe |
|
2 372 mil. tokenov / 1 993 mil. slov |
áno |
2015 |
korpus slovenských textov dostupných na webe |
|
1 046 mil. tokenov / 839 mil. slov |
áno |
2012 |
korpus slovenských textov dostupných na webe |
|
952 mil. tokenov / 773 mil. slov |
áno |
2011 |
korpus slovenských textov dostupných na webe |
|
51 mil. tokenov / 38 mil. slov |
áno |
2020 |
korpus slovenských textov z Wikipédie (k 1. 8. 2019) |
|
47 mil. tokenov / 35 mil. slov |
áno |
2018 |
korpus slovenských textov z Wikipédie a Necyklopédie (k 15. 3. 2018) |
|
45 mil. tokenov / 34 mil. slov |
áno |
2017 |
korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2017) |
|
43 mil. tokenov / 34 mil. slov |
áno |
2016 |
korpus slovenských textov z Wikipédie a Necyklopédie (k 26. 2. 2016) |
|
40 mil. tokenov / 32 mil. slov |
áno |
2015 |
korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2015) |
3. Korpusy písaných textov − synchrónne, špecializované
verzia korpusu |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
66 mil. tokenov / 54 mil. slov |
áno |
2014 |
korpus náboženských textov |
|
15 mil. tokenov / 12 mil. slov |
áno |
2008 |
korpus náboženských textov |
|
1,6 mil. tokenov / 1,2 mil. slov |
áno |
2014 |
korpus copywriterských textov |
|
165 mil. tokenov / 140 mil. slov |
áno |
2016 |
korpus ekonomických textov (3,8 % odborných a 96,2 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva) |
|
20 mil. tokenov / 17 mil. slov |
áno |
2014 |
korpus ekonomických textov (81,4 % odborných a 18,6 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva) |
|
11,7 mil. tokenov / 9,6 mil. slov |
áno |
2019 |
korpus textov štátnej správy |
|
39 mil. tokenov / 30 mil. slov |
áno |
2016 |
korpus humanitných textov |
|
1,5 mil. tokenov / 1,3 mil. slov |
áno |
2015 |
korpus textov súdnych rozhodnutí |
|
49 mil. tokenov / 40 mil. slov |
áno |
2013 |
korpus právnych textov deduplikovaný |
|
147 mil. tokenov / 114 mil. slov |
áno |
2011 |
korpus právnych textov |
|
4 149 mil. tokenov |
áno |
2019 |
korpus textov súdnych rozhodnutí (korpus z projektu OpenData) |
|
253 mil. tokenov / 203 mil. slov |
áno |
2018 |
Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi. |
|
1 199 794 tokenov / 977 871 slov |
áno |
2017 |
ručne morfologicky anotovaný korpus SNK (30,6 % publicistické, 50,2 % umelecké, 19,2 % odborné texty) |
|
1 200 088 tokenov / 977 871 slov |
áno |
2016 |
ručne morfologicky anotovaný korpus SNK (28,5 % publicistické, 44,5 % umelecké, 27 % odborné texty) |
|
1 199 224 tokenov / 976 877 slov |
áno |
2013 |
ručne morfologicky anotovaný korpus SNK (36,2 % publicistické, 44,9 % umelecké, 18,9 % odborné texty) |
|
1 207 813 tokenov / 983 714 slov |
áno |
2008 |
ručne morfologicky anotovaný korpus SNK (36,7 % publicistické, 44,3 % umelecké, 19,0 % odborné texty) |
|
511 432 tokenov / 410 177 slov |
áno |
2007 |
ručne morfologicky anotovaný korpus SNK (28,9 % publicistické, 58,1 % umelecké, 13,0 % odborné texty) |
|
322 498 tokenov / 256 647 slov |
áno |
2006 |
ručne morfologicky anotovaný korpus SNK (41,8 % publicistické, 57,9 % umelecké, 0,2 % odborné texty) |
4. Korpusy písaných textov − paralelné
verzia korpusu |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
556 mil. tokenov / 436 mil. slov |
áno, |
2015 |
slovensko-anglický paralelný korpus: 261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti |
|
163 mil. tokenov / 108 mil. slov |
áno, |
2014 |
slovensko-bulharský paralelný korpus: 78 mil. tokenov v slovenskej časti, 85 mil. tokenov v bulharskej časti |
|
418 mil. tokenov / 306 mil. slov |
áno, |
2016 |
slovensko-český paralelný korpus: 209 mil. tokenov v slovenskej časti, 209 mil. tokenov v českej časti |
|
31,5 mil. tokenov / 25,0 mil. slov |
áno, |
2018 |
slovensko-český paralelný korpus, podkorpus beletrie: 15,7 mil. tokenov v slovenskej časti, 15,8 mil. tokenov v českej časti |
|
449 mil. tokenov / 332 mil. slov |
áno, |
2016 |
slovensko-francúzsky paralelný korpus: 217 mil. tokenov v slovenskej časti, 233 mil. tokenov vo francúzskej časti |
|
9,9 mil. tokenov / 8,3 mil. slov |
áno, |
2016 |
slovensko-francúzsky paralelný korpus, podkorpus beletrie: 4,3 mil. tokenov v slovenskej časti, 5,5 mil. tokenov v francúzskej časti |
|
5,0 mil. tokenov / 4,1 mil. slov |
áno, |
2018 |
slovensko-latinský paralelný korpus: 2,7 mil. tokenov v slovenskej časti, 2,3 mil. tokenov v latinskej časti |
|
99 mil. tokenov / 75 mil. slov |
áno, |
2015 |
slovensko-maďarský paralelný korpus: 51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti |
|
446 mil. tokenov / 300 mil. slov |
áno, |
2016 |
slovensko-nemecký paralelný korpus: 220 mil. tokenov v slovenskej časti, 226 mil. tokenov v nemeckej časti |
|
8,2 mil. tokenov / 6,5 mil. slov |
áno, |
2018 |
slovensko-poľský paralelný korpus: 4,1 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v poľskej časti |
|
1,3 mil. tokenov / 1,0 mil. slov |
áno, |
2017 |
slovensko-rumunský paralelný korpus: 603 111 tokenov v slovenskej časti, 688 867 tokenov v rumunskej časti |
|
8,5 mil. tokenov / 6,6 mil. slov |
áno, |
2014 |
slovensko-ruský paralelný korpus: 4,2 mil. tokenov v slovenskej časti, 4,2 mil. tokenov v ruskej časti |
|
11,5 mil. tokenov / 9,6 mil. slov |
áno, |
2019 |
slovensko-španielsky paralelný korpus: 5,5 mil. tokenov v slovenskej časti, 6,0 mil. tokenov v španielskej časti |
5. Korpusy písaných textov spred roka 1955 (prevažne texty kníh zo Zlatého fondu SME)
verzia korpusu |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
2,1 mil. tokenov / 1,6 mil. slov |
nie |
2015 |
korpus textov z r. 864 – 1843: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania |
|
24 mil. tokenov / 19 mil. slov |
nie |
2015 |
korpus textov z r. 1843 – 1954: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania |
6. Historický korpus
verzia korpusu |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
997 809 tokenov / 731 498 slov |
nie |
2020 |
Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise |
|
917 586 tokenov / 668 245 slov |
nie |
2016 |
Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise |
|
836 393 tokenov / 600 410 slov |
nie |
2015 |
Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise |
|
551 973 tokenov / 422 166 slov |
nie |
2014 |
Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise |
|
370 758 tokenov |
nie |
2012 |
Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise |
7. Korpusy hovorených prejavov − synchrónne, štandardné
verzia korpusu a podkorpusov |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
6,6 mil. tokenov / 5,5 mil. slov |
áno |
2017 |
Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska |
|
3,7 mil. tokenov / 3,0 mil. slov |
áno |
2017 |
podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN |
|
2,9 mil. tokenov / 2,4 mil. slov |
áno |
2017 |
podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN) |
|
5,7 mil. tokenov / 4,7 mil. slov |
áno |
2015 |
Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska |
|
3,6 mil. tokenov / 3,0 mil. slov |
áno |
2015 |
podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN |
|
2,1 mil. tokenov / 1,8 mil. slov |
áno |
2015 |
podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN) |
|
2,6 mil. tokenov / 2,2 mil. slov |
áno |
2012 |
Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska |
|
1,6 mil. tokenov / 1,3 mil. slov |
áno |
2012 |
podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN |
|
1,0 mil. tokenov / 0,9 mil. slov |
áno |
2012 |
podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN) |
|
2,1 mil. tokenov / 1,4 mil. slov |
áno |
2011 |
Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska |
|
678 592 tokenov / 560 933 slov |
áno |
2010 |
Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska |
|
127 714 tokenov / 104 458 slov |
áno |
2008 |
Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska |
8. Korpusy nárečí SNK
verzia korpusu |
rozsah |
lematizácia, morfologická anotácia |
rok zverejnenia |
charakteristika korpusu |
711 766 tokenov / 571 352 slov |
nie |
2018 |
Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska |
|
494 722 tokenov / 403 180 slov |
nie |
2016 |
Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska |
|
328 907 tokenov / 252 166 slov |
nie |
2015 |
Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska |
|
73 855 tokenov / 54 598 slov |
nie |
2014 |
Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska |