Ako používať korpus

V Slovenskom národnom korpuse môžete podrobnejšie vyhľadávať pomocou korpusového manažéra Manatee s klientom Bonito. Aby ste ho mohli používať, je potrebné sa najprv zaregistrovať.

Program Bonito so slovenským menu je dostupný z našej stránky:

Po rozbalení archívu spustite program bonito a ďalej postupujte podľa inštrukcií, ktoré dostanete e-mailom pri registrácii.

Ako citovať korpus

Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.

Typy a značky anotácií textov SNK

Výber najčastejšie používaných regulárnych výrazov

Pozn.: Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia „regulárny výraz BODKA nahrádza ľubovoľný znak“ znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.

Regulárny výraz Význam regulárneho výrazu Príklad použitia Očakávaný výsledok vyhľadávania
. BODKA nahrádza jeden ľubovoľný znak. dom.. domov, domec
* HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). hm* h, hm, hmm, hmmm
+ PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. hm+ hm, hmm, hmmm...
{ } ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. písmeno pred zátvorkami opakovať. dom.{3} domový, domček...
{m,n} Do zátvoriek môžeme zapísať aj interval výskytu predchádzajúceho znaku. .{5,10}
hm{1,4}
ľubovoľné slová skladajúce sa z 5 až 10 písmen
hm, hmm, hmmm, hmmmm
| ZVISLÁ ČIARA má funkciu operátora ALEBO. dom|doma dom, doma
[ ] HRANATÉ ZÁTVORKY. Definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. a-z (interval zahŕňa sled znakov bez diakritiky). [dsl]om
[r-v]ám
dom, som, lom
rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)
( ) JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. viacerých regulárnych výrazov. (D|d)om
([Kk]|[Tt])am
Dom, dom Kam, kam, Tam, tam
(?i) Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen. (?i)dom Dom, dom
\ Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. napr. napr. (a nie napri, napre, naprd...)

Kombinácia regulárnych výrazov

.*
Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá.
.+
Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za). Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík. Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený).