→English

Verejne prístupné korpusy SNK

Korpusy a podkorpusy písaných textov − synchrónne, všeobecné

verzia hlavného korpusu a podkorpusov

rozsah
počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusov a podkorpusov

prim-7.0-juls-all

1 437 mil. tokenov / 1 119 mil. slov

áno


interný korpus

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955

prim-7.0-public-all

1 250 mil. tokenov / 972 mil. slov

áno

2015

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné, 10,3 % iné texty)

prim-7.0-juls-sane

1 202 mil. tokenov / 938 mil. slov

áno


interný korpus

hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod.

prim-7.0-public-sane

1 089 mil. tokenov / 849 mil. slov

áno

2015

hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. – z neho sa tvoria podkorpusy

prim-7.0-public-vyv

341 mil. tokenov / 267 mil. slov

áno

2015

štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)

prim-7.0-public-inf

771 mil. tokenov / 597 mil. slov

áno

2015

podkorpus publicistických textov

prim-7.0-public-prf

114 mil. tokenov / 89 mil. slov

áno

2015

podkorpus vedeckých, odborných a populárno-náučných textov

prim-7.0-public-img

188 mil. tokenov / 149 mil. slov

áno

2015

podkorpus umeleckých textov

prim-7.0-public-sk

807 mil. tokenov / 630 mil. slov

áno

2015

podkorpus pôvodných slovenských textov

prim-7.0-public-img-sk

65 mil. tokenov / 52 mil. slov

áno

2015

podkorpus pôvodných slovenských umeleckých textov

r1955az1989-4.0

67 mil. tokenov / 54 mil. slov

áno

2015

podkorpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné a 6,7 % iné texty)

prim-6.1-public-all

830 mil. tokenov / 656 mil. slov

áno

2013

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné, 2 % iné texty)

r55az89-3.0

63 mil. tokenov / 51 mil. slov

áno

2013

podkorpus textov z rokov 1955 – 1989 (11,9 % publicistické, 55,5 % umelecké, 24,1 % odborné a 8,5 % iné texty)

prim-6.0-public-all

1 155 mil. tokenov / 939 mil. slov

áno

2013

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (77,8 % publicistické, 9,8 % umelecké, 11 % odborné, 1,4 % iné texty)

prim-5.0-public-all

719 mil. tokenov / 599 mil. slov

áno

2011

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (73 % publicistické, 14 % umelecké, 12 % odborné, 1 % iné texty)

r55az89-2.0

44 mil. tokenov / 35 mil. slov

áno

2011

podkorpus textov z rokov 1955 – 1989

prim-4.0-public-all

526 mil. tokenov / 429 mil. slov

áno

2009

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65 % publicistické, 17 % umelecké, 16 % odborné, 2 % iné texty)

r55az89-1.0

40 mil. tokenov / 32 mil. slov

áno

2009

podkorpus textov z rokov 1955 – 1989

prim-3.0-public-all

339 mil. tokenov / 276 mil. slov

áno

2007

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (57 % publicistické, 21,5 % umelecké, 18,5 % odborné, 3 % iné texty)

prim-2.1-public-all

294 mil. tokenov / 229 mil. slov

áno

2006

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (63 % publicistické, 20 % umelecké, 12 % odborné, 5 % iné texty)

prim-2.0-public-all

250 mil. tokenov

pilotná

2005

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

prim-1.0-public-all

182 mil. tokenov

testovacia

2004

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

prim-0.2-public-all

170 mil. tokenov

nie

2003

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

prim-0.1-public-all

30 mil. tokenov

nie

2003

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

Korpusy písaných textov − synchrónne, webové

verzia korpusu

rozsah
počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

web-3.0

2 372 mil. tokenov / 1 993 mil. slov

áno

2015

korpus slovenských textov dostupných na webe

web-2.0

1 046 mil. tokenov / 839 mil. slov

áno

2012

korpus slovenských textov dostupných na webe

web-1.0

952 mil. tokenov / 773 mil. slov

áno

2011

korpus slovenských textov dostupných na webe

wiki-2017-02

45 mil. tokenov / 34 mil. slov

áno

2017

korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2017)

wiki-2016-02

43 mil. tokenov / 34 mil. slov

áno

2016

korpus slovenských textov z Wikipédie a Necyklopédie (k 26. 2. 2016)

wiki-2015-02

40 mil. tokenov / 32 mil. slov

áno

2015

korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2015)

Korpusy písaných textov − synchrónne, špecializované

verzia korpusu

rozsah
počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

blf-2.0

66 mil. tokenov / 54 mil. slov

áno

2014

korpus náboženských textov

blf-1.0

15 mil. tokenov / 12 mil. slov

áno

2008

korpus náboženských textov

cw-2014-all

1,6 mil. tokenov / 1,2 mil. slov

áno

2014

korpus copywriterských textov

ecn-2.0-public

165 mil. tokenov / 140 mil. slov

áno

2016

korpus ekonomických textov (3,76 % odborných a 96,24 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva)

ecn-1.0-public

20 mil. tokenov / 17 mil. slov

áno

2014

korpus ekonomických textov (81,4 % odborných a 18,6 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva)

hum-1.0-public

39 mil. tokenov / 30 mil. slov

áno

2016

korpus humanitných textov

judikat-1.0

1,5 mil. tokenov / 1,3 mil. slov

áno

2015

korpus textov súdnych rozhodnutí

legal-1.1

49 mil. tokenov / 40 mil. slov

áno

2013

korpus právnych textov deduplikovaný

legal-1.0

147 mil. tokenov / 114 mil. slov

áno

2011

korpus právnych textov

r-mak-5.0

1 200 088 tokenov / 977 871 slov

áno

2016

ručne morfologicky anotovaný korpus SNK (28,5 % publicistické, 44,5 % umelecké, 27 % odborné texty)

r-mak-4.0

1 199 224 tokenov / 976 877 slov

áno

2013

ručne morfologicky anotovaný korpus SNK (36,2 % publicistické, 44,9 % umelecké, 18,9 % odborné texty)

r-mak-3.0

1 207 813 tokenov / 983 714 slov

áno

2008

ručne morfologicky anotovaný korpus SNK (36,7 % publicistické, 44,3 % umelecké, 19,0 % odborné texty)

r-mak-2.0

511 432 tokenov / 410 177 slov

áno

2007

ručne morfologicky anotovaný korpus SNK (28,9 % publicistické, 58,1 % umelecké, 13,0 % odborné texty)

r-mak-1.0

322 498 tokenov / 256 647 slov

áno

2006

ručne morfologicky anotovaný korpus SNK (41,8 % publicistické, 57,9 % umelecké, 0,2 % odborné texty)

Korpusy písaných textov − paralelné

verzia korpusu

rozsah
počet tokenov

lematizácia, morfologická anotácia

rok zverejnenia
(rok zverejnenia prvej verzie)

charakteristika korpusu

par-skbg-0.1

163 mil. tokenov

áno,
obidva jazyky

2014

slovensko-bulharský paralelný korpus: 78 mil. tokenov v slovenskej časti, 85 mil. tokenov v bulharskej časti

par-skcs-4.0

418 mil. tokenov

áno,
obidva jazyky

2016
(2010)

slovensko-český paralelný korpus: 209 mil. tokenov v slovenskej časti, 209 mil. tokenov v českej časti

par-skde-2.0

446 mil. tokenov

áno,
obidva jazyky

2016
(2014)

slovensko-nemecký paralelný korpus: 220 mil. tokenov v slovenskej časti, 226 mil. tokenov v nemeckej časti

par-sken-4.0

556 mil. tokenov

áno,
obidva jazyky

2015
(2010)

slovensko-anglický paralelný korpus: 261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti

par-skfr-3.0

449 mil. tokenov

áno,
obidva jazyky

2016
(2006)

slovensko-francúzsky paralelný korpus: 217 mil. tokenov v slovenskej časti, 233 mil. tokenov vo francúzskej časti

par-skhu-1.0

99 mil. tokenov

áno,
obidva jazyky

2015
(2014)

slovensko-maďarský paralelný korpus: 51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti

par-skla-2.0

1,4 mil. tokenov

áno,
obidva jazyky

2014
(2012)

slovensko-latinský paralelný korpus: 780 953 tokenov v slovenskej časti, 661 612 tokenov v latinskej časti

par-skro-1.1

1,3 mil. tokenov

áno,
obidva jazyky

2017
(2016)

slovensko-rumunský paralelný korpus: 603 111 tokenov v slovenskej časti, 688 867 tokenov v rumunskej časti

par-skru-2.0

8,5 mil. tokenov

áno,
obidva jazyky

2014
(2005)

slovensko-ruský paralelný korpus: 4,2 mil. tokenov v slovenskej časti, 4,2 mil. tokenov v ruskej časti

Korpusy písaných textov spred roka 1955 (prevažne texty kníh zo Zlatého fondu SME)

verzia korpusu

rozsah
počet tokenov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

r864az1843-1.0

2,1 mil. tokenov

nie

2015

korpus textov z r. 864 − 1843: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania

r1843az1954-1.0

24 mil. tokenov

nie

2015

korpus textov z r. 1843 − 1954: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania

Historický korpus

verzia korpusu

rozsah
počet tokenov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

hist-4.0

917 586 tokenov

nie

2016

Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise

hist-3.0

836 393 tokenov

nie

2015

Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise

hist-2.0

551 973 tokenov

nie

2014

Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise

hist-1.0

370 758 tokenov

nie

2012

Historický korpus slovenčiny: pramenné materiály v pôvodnom pravopise

Korpusy hovorených prejavov − synchrónne, štandardné

verzia korpusu a podkorpusov

rozsah
počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

s-hovor-5.0

5,7 mil. tokenov / 4,7 mil. slov

áno

2015

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-5.0-sane

3,6 mil. tokenov / 2,96 mil. slov

áno

2015

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN

s-hovor-5.0-upn

2,1 mil. tokenov / 1,8 mil. slov

áno

2015

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN)

s-hovor-4.0

2,6 mil. tokenov / 2,2 mil. slov

áno

2012

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-3.0

2,1 mil. tokenov / 1,4 mil. slov

áno

2011

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-2.0

678 592 tokenov / 560 933 slov

áno

2010

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-1.0

127 714 tokenov / 104 458 slov

áno

2008

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

Korpusy nárečí SNK

verzia korpusu

rozsah
počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

dialekt-3.0

494 722 tokenov / 403 180 slov

nie

2016

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska

dialekt-2.0

328 907 tokenov / 252 166 slov

nie

2015

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska

dialekt-1.0

73 855 tokenov / 54 598 slov

nie

2014

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska