→po slovensky →English

Lietuvių kalbos WordNet

Lietuvių kalbos WordNet projekto tikslas - aprašyti dažniausiai vartojamų lietuvių kalbos žodžių semantinius ryšius, remiantis anglų kalbos WordNet. Projekto duomenų bazę sudaro apdoroti, kalboje dažniausiai vartojami daiktavardžiai, veiksmažodžiai, būdvardžiai ir prieveiksmiai. Kiekvienas įrašas (kurį sudaro sinonimų grupė) yra susietas su atitinkamu anglų ir slovakų kalbų atitikmeniu.

Dabartinė projekto versija nėra baigtinė, ji vis dar vystoma. Dėl šios priežasties duomenų bazė nėra užbaigta, joje gali pasitaikyti klaidų, o jos kokybė galbūt nesiekia net ir pirmosios alfa versijos. Vis dėlto projektą nusprendėme paviešinti tam, kad jo profesionalus turinys ir naudotos naujausios kalbos apdorojimo technologijos taptų prieinamos visiems. Rinkmenos formuotė ateityje greičiausiai keisis.

Rinkmenos formuotė

Ši rinkmena yra užkoduota UTF-8 koduote, su Unix eilučių skirtukais (LF, \n, U+00A0 ...). Kiekviena eilutė aprašo vieną duomenų bazės įrašą (sinonimų grupę) ir yra sudaryta iš trijų įrašų, atskirtų ženklu ␞ U+241E SYMBOL FOR RECORD SEPARATOR. Pirmasis įrašas yra lietuvių kalba, antrasis – slovakų, o trečiasis – anglų kalbos Princeton WordNet įrašo kopija.

Lietuvių ir slovakų kalbų įrašų formuotė

Kiekvieną įrašą sudaro keturi elementai, atskirti tabuliavimo žyme (\t): įrašo numeris, kalbos dalis, įrašą sudarantys žodžiai, paaiškinimai:

Vienas lietuvių kalbos įrašas (sinonimų grupė) gali pasikartoti rinkmenoje keletą kartų, jeigu jis priskiriamas daugiau nei vienam slovakų ar anglų kalbų įrašui.

Licencija

Lietuvių kalbos WordNet gali būti naudojamas pagal žemiau nurodytų licencijų reikalavimus:

Duomenis naudojant vienoje organizacijoje arba privačiai, galite pasirinkti vieną iš viršuje nurodytų licencijų. Tolesnio platinimo atveju privalu laikytis visų nurodytų licencijų reikalavimų kartu.

Nuorodos