Ako používať korpus
V Slovenskom národnom korpuse môžete podrobnejšie vyhľadávať pomocou korpusového manažéra Manatee s klientom Bonito. Aby ste ho mohli používať, je potrebné sa najprv zaregistrovať.
Program Bonito so slovenským menu je dostupný z našej stránky:
- Verzia pre Windows: bonito-win-1-49-snk2.zip.
- Zdrojový kód: bonito-src-1-49-snk2.tgz (potrebujete Tcl/Tk),
Po rozbalení archívu spustite program bonito a ďalej postupujte podľa inštrukcií, ktoré dostanete e-mailom pri registrácii.
Ako citovať korpus
Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.
Typy a značky anotácií textov SNK
- Bibliografická a štýlovo-žánrová anotácia
- Morfologická anotácia
- Syntaktická anotácia
Výber najčastejšie používaných regulárnych výrazov
Pozn.: Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia „regulárny výraz BODKA nahrádza ľubovoľný znak“ znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.
| Regulárny výraz | Význam regulárneho výrazu | Príklad použitia | Očakávaný výsledok vyhľadávania |
|---|---|---|---|
| . | BODKA nahrádza jeden ľubovoľný znak. | dom.. | domov, domec |
| * | HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). | hm* | h, hm, hmm, hmmm |
| + | PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. | hm+ | hm, hmm, hmmm... |
| { } | ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. písmeno pred zátvorkami opakovať. | dom.{3} | domový, domček... |
| {m,n} | Do zátvoriek môžeme zapísať aj interval výskytu predchádzajúceho znaku. | .{5,10}
hm{1,4} |
ľubovoľné slová skladajúce sa z 5 až 10 písmen
hm, hmm, hmmm, hmmmm |
| | | ZVISLÁ ČIARA má funkciu operátora ALEBO. | dom|doma | dom, doma |
| [ ] | HRANATÉ ZÁTVORKY. Definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. a-z (interval zahŕňa sled znakov bez diakritiky). | [dsl]om
[r-v]ám |
dom, som, lom
rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú) |
| ( ) | JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. viacerých regulárnych výrazov. | (D|d)om
([Kk]|[Tt])am |
Dom, dom Kam, kam, Tam, tam |
| (?i) | Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen. | (?i)dom | Dom, dom |
| \ | Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. | napr. | napr. (a nie napri, napre, naprd...) |
Kombinácia regulárnych výrazov
- .*
- Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá.
- .+
- Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za). Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík. Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený).


