→English

Webový korpus

1. Aktuálna verzia

Aktuálna verzia web-6.0 bola vytvorená 26. 3. 2022 a sprístupnená 15. 6. 2022 v rozsahu 4 373 231 228 tokenov.

Korpus je založený na dátach beta verzie korpusu Araneum Slovacum VI Maximum (22.01) z projektu Aranea. Tokenizované a segmentované dáta boli ďalej lematizované a morfologicky označkované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu používaného aj pri písaných korpusoch. Pri textoch sú uvedené základné informácie o ich url a čase získania.

1.1. Tvorcovia

Podkladový korpus

Vladimír Benko

Nástroje na spracovanie korpusu

Radovan Garabík

Ivor Uhliarik


2. Staršie verzie korpusu

2.1. Verzia 5.0

Verzia web-5.0 bola sprístupnená 27. 1. 2020 v rozsahu 4 042 363 283 tokenov.

Zdrojom tejto verzie sú dáta z korpusu Araneum Slovacum V Maximum (20.01) vytvoreného v rámci projektu Aranea, ktoré boli tokenizované, segmentované, lematizované a morfologicky označkované štruktúrou a značkami v zásade kompatibilnými s písanými korpusmi SNK tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. Pri textoch sú uvedené základné informácie o ich url a čase získania.

2.1.1. Tvorcovia

Podkladový korpus

Vladimír Benko

Návrh a spracovanie korpusu

Radovan Garabík

Ivor Uhliarik

Výsledné spracovanie korpusu

Ivor Uhliarik

Text na stránke

Mária Šimková

2.2. Verzia 4.0

Verzia web-4.0 bola sprístupnená 31. 1. 2018 v rozsahu 2 963 462 451 tokenov.

Korpus založený na slovenských textoch z projektu Araneum bol lematizovaný a morfologicky anotovaný tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. Pri textoch sú uvedené základné informácie o ich url a čase získania.

2.2.1. Tvorcovia

Podkladový korpus

Vladimír Benko

Návrh a spracovanie korpusu

Radovan Garabík

2.3. Verzia 3.0

Verzia web-3.0 bola sprístupnená 6. 3. 2015 v rozsahu 2 372 769 958 tokenov.

Webový korpus obsahoval slovenské texty dostupné na WWW a poskytnuté SNK v r. 2010 pracovníkmi Fakulty informatiky MU v Brne, ktoré boli základom prvej verzie (988 474 323 tokenov pred odstránením duplicít a neodfiltrovaných českých textov), slovenské texty získané z webu v r. 2011 – 2012 v SNK (489 869 717 tokenov po odstránení duplicít a cudzojazyčných textov) a slovenské texty z projektu Araneum (3 221 914 708 tokenov pred odstránením duplicít a cudzojazyčných textov).

Korpus bol ďalej spracovaný v rámci projektu SNK, je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji. K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem.

2.3.1. Tvorcovia

Podkladový korpus

Vladimír Benko

Návrh a spracovanie korpusu

Radoslav Brída

Radovan Garabík

2.4. Verzia 2.0

Verzia web-2.0 z 28. 3. 2012 mala veľkosť 1 045 558 148 tokenov.

K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem, ako aj úplné zoznamy podľa frekvencie.

2.4.1. Tvorcovia

Návrh a spracovanie korpusu

Radoslav Brída

Radovan Garabík

2.5. Verzia 1.0

Verzia web-1.0 z r. 2011 bola utvorená v spolupráci s pracovníkmi Fakulty informatiky Masarykovej univerzity v Brne a obsahovala 952 095 260 tokenov.

2.5.1. Tvorcovia

Podkladové dáta

Fakulta informatiky Masarykovej univerzity v Brne

Návrh a spracovanie korpusu

Radovan Garabík