Atribúty a štruktúrne značky vo verejne prístupných korpusoch SNK

Obsah

Korpusy písaných textov − synchrónne, všeobecné
Korpusy písaných textov − synchrónne, špecializované
Korpusy písaných textov − paralelné
Korpusy písaných textov spred roka 1954
Historický korpus
Korpusy hovorených prejavov − synchrónne, štandardné
Korpusy nárečí SNK

1. Korpusy písaných textov − synchrónne, všeobecné

korpus	rozsah − počet tokenov / počet slov	lematizácia, morfologická anotácia	rok zverejnenia	charakteristika korpusu	atribúty	štruktúry
prim-10.0-public-all	1 688 mil. tokenov / 1 355 mil. slov	áno	2020	všetky verejne prístupné texty SNK (71,0 % publicistické, 16,8 % umelecké, 11,3 % odborné, 0,9 % iné texty)	word, lemma, tag, word_lc lemma_lc	doc, s, p, g, noise, hi
prim-10.0-public-sane	1 650 mil. tokenov / 1 323 mil. slov	áno	2020	bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov	word, lemma, tag, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-10.0-public-vyv	572 mil. tokenov / 459 mil. slov	áno	2020	vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)	word, lemma, tag, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-10.0-public-inf	1 163 mil. tokenov / 932 mil. slov	áno	2020	podkorpus publicistických (informatívnych) textov	word, lemma, tag, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-10.0-public-prf	189 mil. tokenov / 153 mil. slov	áno	2020	podkorpus vedeckých, odborných a populárno-náučných textov	word, lemma, tag, word_lc, lemma_lc	doc, s, p, g, hi
prim-10.0-public-img	283 mil. tokenov / 226 mil. slov	áno	2020	podkorpus umeleckých textov	word, lemma, tag, word_lc, lemma_lc	doc, s, p, g, hi
prim-10.0-public-sk	1 361 mil. tokenov / 1 093 mil. slov	áno	2020	podkorpus pôvodných slovenských textov	word, lemma, tag, word_lc, lemma_lc	doc, s, p, g, hi
prim-10.0-public-img-sk	97 mil. tokenov / 78 mil. slov	áno	2020	podkorpus pôvodných slovenských umeleckých textov	word, lemma, tag, word_lc, lemma_lc	doc, s, p, g, hi
r1955az1989-7.0	109 mil. tokenov / 87 mil. slov	áno	2020	osobitný korpus textov z rokov 1955 – 1989 (4,0 % publicistické, 81,2 % umelecké, 11,1 % odborné, 3,7 % iné texty)	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-9.0-public-all	1 652 mil. tokenov / 1 282 mil. slov	áno	2020	všetky verejne prístupné texty SNK (74,0 % publicistické, 16,0 % umelecké, 9,2 % odborné, 0,9 % iné texty)	word, lemma, tag, prec, word_lc lemma_lc	doc, s, p, g, noise, hi
prim-9.0-public-sane	1 621 mil. tokenov / 1 257 mil. slov	áno	2020	bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-9.0-public-vyv	454 mil. tokenov / 355 mil. slov	áno	2020	vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-9.0-public-inf	1 194 mil. tokenov / 920 mil. slov	áno	2020	podkorpus publicistických (informatívnych) textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-9.0-public-prf	150 mil. tokenov / 117 mil. slov	áno	2020	podkorpus vedeckých, odborných a populárno-náučných textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-9.0-public-img	263 mil. tokenov / 208 mil. slov	áno	2020	podkorpus umeleckých textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-9.0-public-sk	1 258 mil. tokenov / 977 mil. slov	áno	2020	podkorpus pôvodných slovenských textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-9.0-public-img-sk	93 mil. tokenov / 74 mil. slov	áno	2020	podkorpus pôvodných slovenských umeleckých textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
r1955az1989-6.0	99 mil. tokenov / 79 mil. slov	áno	2020	osobitný korpus textov z rokov 1955 – 1989 (4,5 % publicistické, 78,6 % umelecké, 12,4 % odborné, 4,4 % iné texty)	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-8.0-public-all	1 477 mil. tokenov / 1 160 mil. slov	áno	2018	všetky verejne prístupné texty SNK (71,1 % publicistické, 15,4 % umelecké, 8,5 % odborné, 5,0 % iné texty)	word, lemma, tag, prec, word_lc lemma_lc	doc, s, p, g, noise, hi
prim-8.0-public-sane	1 369 mil. tokenov / 1 076 mil. slov	áno	2018	bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-8.0-public-vyv	377 mil. tokenov / 298 mil. slov	áno	2018	vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-8.0-public-inf	1 010 mil. tokenov / 791 mil. slov	áno	2018	podkorpus publicistických (informatívnych) textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, noise, hi
prim-8.0-public-prf	122 mil. tokenov / 96 mil. slov	áno	2018	podkorpus vedeckých, odborných a populárno-náučných textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-8.0-public-img	224 mil. tokenov / 178 mil. slov	áno	2018	podkorpus umeleckých textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-8.0-public-sk	1 043 mil. tokenov / 822 mil. slov	áno	2018	podkorpus pôvodných slovenských textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-8.0-public-img-sk	83 mil. tokenov / 66 mil. slov	áno	2018	podkorpus pôvodných slovenských umeleckých textov	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
r1955az1989-5.0	84 mil. tokenov / 67 mil. slov	áno	2018	osobitný korpus textov z rokov 1955 – 1989 (5,3 % publicistické, 75,3 % umelecké, 14,0 % odborné, 5,4 % iné texty)	word, lemma, tag, prec, word_lc, lemma_lc	doc, s, p, g, hi
prim-7.0-public-all	1 250 mil. tokenov / 972 mil. slov	áno	2015	všetky verejne prístupné texty SNK (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné, 10,3 % iné texty)	word, lemma, tag, prec	doc, s, p, g
prim-7.0-public-sane	1 089 mil. tokenov / 849 mil. slov	áno	2015	bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov	word, lemma, tag, prec	doc, s, p, g
prim-7.0-public-vyv	341 mil. tokenov / 267 mil. slov	áno	2015	vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)	word, lemma, tag, prec	doc, s, p, g
prim-7.0-public-inf	771 mil. tokenov / 597 mil. slov	áno	2015	podkorpus publicistických (informatívnych) textov	word, lemma, tag, prec	doc, s, p, g
prim-7.0-public-prf	114 mil. tokenov / 89 mil. slov	áno	2015	podkorpus vedeckých, odborných a populárno-náučných textov	word, lemma, tag, prec	doc, s, p, g
prim-7.0-public-img	188 mil. tokenov / 149 mil. slov	áno	2015	podkorpus umeleckých textov	word, lemma, tag, prec	doc, s, p, g
prim-7.0-public-sk	807 mil. tokenov / 630 mil. slov	áno	2015	podkorpus pôvodných slovenských textov	word, lemma, tag, prec	doc, s, p, g
prim-7.0-public-img-sk	65 mil. tokenov / 52 mil. slov	áno	2015	podkorpus pôvodných slovenských umeleckých textov	word, lemma, tag, prec	doc, s, p, g
r1955az1989-4.0	67 mil. tokenov / 54 mil. slov	áno	2015	osobitný korpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné, 6,7 % iné texty)	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-all	830 mil. tokenov / 656 mil. slov	áno	2013	všetky verejne prístupné texty SNK: 68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné, 2 % iné texty	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-sane	773 mil. tokenov / 610 mil. slov	áno	2013	bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-vyv	317 mil. tokenov / 252 mil. slov	áno	2013	vyvážený; podkorpus: 33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-inf	541 mil. tokenov / 425 mil. slov	áno	2013	podkorpus publicistických (informatívnych) textov	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-prf	106 mil. tokenov / 84 mil. slov	áno	2013	podkorpus vedeckých, odborných a populárno-náučných textov	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-img	114 mil. tokenov / 91 mil. slov	áno	2013	podkorpus umeleckých textov	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-sk	558 mil. tokenov / 441 mil. slov	áno	2013	podkorpus pôvodných slovenských textov	word, lemma, tag, prec	doc, s, p, g
prim-6.1-public-img-sk	35 mil. tokenov / 28 mil. slov	áno	2013	podkorpus pôvodných slovenských umeleckých textov	word, lemma, tag, prec	doc, s, p, g
r55az89-3.0	63 mil. tokenov / 51 mil. slov	áno	2013	osobitný korpus textov z rokov 1955 – 1989: 11,9 % publicistika, 55,5 % umelecké, 24,1 % odborné, 8,5 % iné texty	word, lemma, tag, prec	doc, s, p, g
prim-6.0-public-all	1 155 mil. tokenov / 939 mil. slov	áno	2013	všetky verejne prístupné texty SNK: 77,8 % publicistické, 9,8 % umelecké, 11 % odborné, 1,4 % iné texty	word, lemma, tag, prec	doc, s, p, g
prim-5.0-public-all	719 mil. tokenov / 599 mil. slov	áno	2011	všetky verejne prístupné texty SNK: 73 % publicistické, 14 % umelecké, 12 % odborné, 1 % iné texty	word, lemma, tag, prec	doc, s, p, br, noise, picture, head, hi, equation, table
prim-4.0-public-all	526 mil. tokenov / 429 mil. slov	áno	2009	všetky verejne prístupné texty SNK: 65 % publicistické, 17 % umelecké, 16 % odborné, 2 % iné texty	word, lemma, tag, prec	doc, s, p, br, noise, picture, head, hi, equation, table
prim-3.0-public-all	339 mil. tokenov / 276 mil. slov	áno	2007	všetky verejne prístupné texty SNK: 57 % publicistické, 21,5 % umelecké, 18,5 % odborné, 3 % iné texty	word, lemma, tag, hlemma, htag	doc, s, p, br, noise, picture, head, hi, equation, table
prim-2.1-public-all	294 mil. tokenov / 240 mil. slov	áno	2006	všetky verejne prístupné texty SNK: 63 % publicistické, 20 % umelecké, 12 % odborné, 5 % iné texty	word, lemma, tag, hlemma, htag	doc, s, p, br, noise, picture, head, hi, equation, table
web-5.0	4 042 mil. tokenov / 3 326 mil. slov	áno	2020	korpus slovenských textov dostupných na webe	word, lemma, tag, prec, word_lc, lemma_lc	doc, p, s, g, pgap, sgap
web-4.0	2 963 mil. tokenov / 2 440 mil. slov	áno	2018	korpus slovenských textov dostupných na webe	word, lemma, tag, prec, word_lc, lemma_lc	doc, p, s, g, pgap, sgap
web-3.0	2 372 mil. tokenov / 1 993 mil. slov	áno	2015	korpus slovenských textov dostupných na webe	word, lemma, tag, prec	doc, p, s, g, gap
wiki-2019-08	51 mil. tokenov / 38 mil. slov	áno	2020	korpus slovenských textov z Wikipédie	word, lemma, tag, prec	doc, s, p, m, g
wiki-2018-03	47 mil. tokenov / 35 mil. slov	áno	2018	korpus slovenských textov z Wikipédie a Necyklopédie	word, lemma, tag, prec	doc, s, p
wiki-2017-02	45 mil. tokenov / 34 mil. slov	áno	2017	korpus slovenských textov z Wikipédie a Necyklopédie	word, lemma, tag, prec	doc, s, p
wiki-2016-02	43 mil. tokenov / 34 mil. slov	áno	2016	korpus slovenských textov z Wikipédie a Necyklopédie	word, lemma, tag, prec	doc, s, p
wiki-2015-02	40 mil. tokenov / 32 mil. slov	áno	2015	korpus slovenských textov z Wikipédie a Necyklopédie	word, lemma, tag, prec	doc, s, p
prim-7.0-frk	253 mil. tokenov / 203 mil. slov	áno	2018	Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi.	word, lemma, tag, prec	doc, s, p, g
r-mak-6.0	1,2 mil. tokenov / 978 000 slov	áno	2017	ručne morfologicky anotovaný korpus SNK: 30,6 % publicistické, 50,2 % umelecké, 19,2 % odborné texty	word, lemma, tag	doc, s, p, br, noise, picture, head, hi, equation, table
r-mak-5.0	1,2 mil. tokenov / 978 000 slov	áno	2016	ručne morfologicky anotovaný korpus SNK: 28,5 % publicistické, 44,5 % umelecké, 27 % odborné texty	word, lemma, tag	doc, s, p, br, noise, picture, head, hi, equation, table
r-mak-4.0	1,2 mil. tokenov / 977 000 slov	áno	2013	ručne morfologicky anotovaný korpus SNK: 36,2 % publicistické, 44,9 % umelecké, 18,9 % odborné texty	word, lemma, tag	doc, s, p, hi

2. Korpusy písaných textov − synchrónne, špecializované

korpus	rozsah − počet tokenov / počet slov	lematizácia, morfologická anotácia	rok zverejnenia	charakteristika korpusu	atribúty	štruktúry
blf-2.0	66 mil. tokenov / 54 mil. slov	áno	2014	korpus náboženských textov	word, lemma, tag, prec	doc, s, p, g
cw-2014-all	1,6 mil. tokenov / 1,2 mil. slov	áno	2014	korpus copywriterských textov	word, lemma, tag, prec	doc, s, p, g
ecn-2.0-public	165 mil. tokenov / 140 mil. slov	áno	2016	korpus ekonomických textov: 3,76 % odborných a 96,24 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva	word, lemma, tag, prec	doc, s, p, g
ecn-1.0-public	20 mil. tokenov / 17 mil. slov	áno	2014	korpus ekonomických textov: 81,4 % odborných a 18,6 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva	word, lemma, tag, prec	doc, s, p, g
hum-1.0-public	39 mil. tokenov / 30 mil. slov	áno	2016	korpus humanitných textov	word, lemma, tag, prec	doc, s, p, g
judikat-1.0	1,5 mil. tokenov / 1,3 mil. slov	áno	2015	korpus súdnych rozhodnutí	word, lemma, tag, prec	doc, s, p
legal-1.1	49 mil. tokenov / 40 mil. slov	áno		korpus právnych textov (deduplikovaný)	word, lemma, tag, ftag, rgtag	doc, p, s, s0, g
legal-1.0	147 mil. tokenov / 114 mil. slov	áno	2011	korpus právnych textov

3. Korpusy písaných textov − paralelné

korpus	rozsah − počet tokenov / počet slov	lematizácia, morfologická anotácia	rok zverejnenia (zverejnenie prvej verzie)	charakteristika korpusu	atribúty	štruktúry
par-skbg-free-0.1	163 mil. tokenov / 108 mil. slov	áno, obidva jazyky	2014 (2014)	slovensko-bulharský paralelný korpus: 78 mil. tokenov v slovenskej časti, 85 mil. tokenov v bulharskej časti	word, lemma, tag	doc, s
par-skcs-all-4.0	418 mil. tokenov / 306 mil. slov	áno, obidva jazyky	2016 (2010)	slovensko-český paralelný korpus: 209 mil. tokenov v slovenskej časti, 209 mil. tokenov v českej časti	word, lemma, tag	doc, s
par-skcs-fic-5.0	31,5 mil. tokenov / 25,0 mil. slov	áno, obidva jazyky	2018 (2010)	slovensko-český paralelný korpus, podkorpus beletrie: 15,7 mil. tokenov v slovenskej časti, 15,8 mil. tokenov v českej časti	word, lemma, tag	doc, s
par-skde-all-2.0	446 mil. tokenov / 300 mil. slov	áno, obidva jazyky	2016 (2014)	slovensko-nemecký paralelný korpus: 220 mil. tokenov v slovenskej časti, 226 mil. tokenov v nemeckej časti	word, lemma, tag	doc, s
par-sken-4.0	556 mil. tokenov / 436 mil. slov	áno, obidva jazyky	2015 (2010)	slovensko-anglický paralelný korpus: 261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti	word, lemma, tag	doc, s
par-skfr-all-3.0	449 mil. tokenov / 332 mil. slov	áno, obidva jazyky	2016 (2006)	slovensko-francúzsky paralelný korpus: 217 mil. tokenov v slovenskej časti, 232 mil. tokenov vo francúzskej časti	word, lemma, tag	doc, s
par-skhu-1.0	99 mil. tokenov / 75 mil. slov	áno, obidva jazyky	2015 (2014)	slovensko-maďarský paralelný korpus: 51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti	word, lemma, tag	doc, s
par-skhu-0.2	3,9 mil. tokenov	áno, obidva jazyky	2015 (2014)	slovensko-maďarský paralelný korpus: 2,0 mil. tokenov v slovenskej časti, 1,9 mil. tokenov v maďarskej časti	word, lemma, tag	doc, s
par-skla-3.0	5,0 mil. tokenov / 4,1 mil. slov	áno, obidva jazyky	2018 (2012)	slovensko-latinský paralelný korpus: 2,7 mil. tokenov v slovenskej časti, 2,3 mil. tokenov v latinskej časti	word, lemma, tag	doc, s
par-skpl-1.0	8,2 mil. tokenov / 6,5 mil. slov	áno, obidva jazyky	2018 (2018)	slovensko-poľský paralelný korpus: 4,1 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v poľskej časti	word, lemma, tag	doc, s
par-skro-1.1	1,3 mil. tokenov / 1,0 mil. slov	áno, obidva jazyky	2017 (2016)	slovensko-rumunský paralelný korpus: 603 000 tokenov v slovenskej časti, 689 000 tokenov v rumunskej časti	word, lemma, tag	doc, s
par-skru-2.0	8,5 mil. tokenov / 6,6 mil. slov	áno, obidva jazyky	2014 (2012)	slovensko-ruský paralelný korpus: 4,2 mil. tokenov v slovenskej časti, 4,2 mil. tokenov v ruskej časti	word, lemma, tag	doc, s

4. Korpusy písaných textov spred roka 1954

korpus	rozsah − počet tokenov / počet slov	lematizácia, morfologická anotácia	rok zverejnenia	charakteristika korpusu	atribúty	štruktúry
r864az1843-1.0	2,1 mil. tokenov / 1,6 mil. slov	nie	2015	korpus textov z r. 864 − 1843	word	doc, s, p, g
r1843az1954-1.0	24 mil. tokenov / 19 mil. slov	nie	2015	korpus textov z r. 1843 − 1954	word	doc, s, p, g

5. Historický korpus

korpus	rozsah − počet tokenov / počet slov	lematizácia, morfologická anotácia	rok zverejnenia	charakteristika korpusu	atribúty	štruktúry
hist-5.0	998 000 tokenov / 731 000 slov	nie	2020	Historický korpus slovenčiny	word, lemma	doc, s, p, g, noise, rem, miss
hist-4.0	918 000 tokenov / 668 000 slov	nie	2016	Historický korpus slovenčiny	word, lemma	doc, s, p, g
hist-3.0	836 000 tokenov / 600 000 slov	nie	2015	Historický korpus slovenčiny	word, lemma	doc, s, p, g
hist-2.0	552 000 tokenov / 422 000 slov	nie	2014	Historický korpus slovenčiny	word, lemma	doc, s, p, g
hist-1.0	371 000 tokenov	nie	2012	Historický korpus slovenčiny	word, nword	doc, s, p, g

6. Korpusy hovorených prejavov − synchrónne, štandardné

korpus	rozsah − počet tokenov / počet slov	lematizácia, morfologická anotácia	rok zverejnenia	charakteristika korpusu	atribúty	štruktúry
s-hovor-6.0	6,6 mil. tokenov / 5,5 mil. slov	áno	2017	Slovenský hovorený korpus	word, pron, lemma, tag, prec	štruktúry pre s-hovor-6.0
s-hovor-5.0	5,7 mil. tokenov / 4,7 mil. slov	áno	2015	Slovenský hovorený korpus	word, pron, lemma, tag, prec	doc, section, turn, event, sync, background, who, spk
s-hovor-4.0	2,6 mil. tokenov / 2,2 mil. slov	áno	2012	Slovenský hovorený korpus	word, pron, lemma, tag, prec	doc, section, turn, event, sync, background, who, spk
s-hovor-3.0	2,1 mil. tokenov / 1,4 mil. slov	áno	2011	Slovenský hovorený korpus	word, pron, lemma, tag, dcount	doc, section, turn, event, sync, background, who
s-hovor-2.0	679 000 tokenov / 561 000 slov	áno	2010	Slovenský hovorený korpus	word, pron, lemma, tag, dcount	doc, section, turn, event, sync, background, who
s-hovor-1.0	128 000 tokenov / 104 000 slov	áno	2008	Slovenský hovorený korpus	word, pron, lemma, tag, dcount	doc, section, turn, event, sync, background, who

7. Korpusy nárečí SNK

korpus	rozsah − počet tokenov / počet slov	lematizácia, morfologická anotácia	rok zverejnenia	charakteristika korpusu	atribúty	štruktúry
dialekt-4.0	712 000 tokenov / 571 000 slov	nie	2020	Korpus nárečí Slovenského národného korpusu	word, lemma	doc, spk, s, p, rem
dialekt-3.0	495 000 tokenov / 403 000 slov	nie	2016	Korpus nárečí Slovenského národného korpusu	word, lemma	doc, spk, s, p, rem
dialekt-2.0	329 000 tokenov / 252 000 slov	nie	2015	Korpus nárečí Slovenského národného korpusu	word, lemma	doc, spk, s, p, rem
dialekt-1.0	74 000 tokenov / 55 000 slov	nie	2014	Korpus nárečí Slovenského národného korpusu	word, lemma	doc, s, p

Slovenský národný korpus

Atribúty a štruktúrne značky vo verejne prístupných korpusoch SNK

1. Korpusy písaných textov − synchrónne, všeobecné

2. Korpusy písaných textov − synchrónne, špecializované

3. Korpusy písaných textov − paralelné

4. Korpusy písaných textov spred roka 1954

5. Historický korpus

6. Korpusy hovorených prejavov − synchrónne, štandardné

7. Korpusy nárečí SNK