→po slovensky →English

Словашко-български паралелен корпус

Словашко-българският паралелен корпус е съставен от два вида свободно достъпни текстове, разпределени в две части: преводен корпус, съдържащ преводи от чужди езици на словашки и български; и корпус, съставен от оригинални литературни текстове на български език и техните преводи на словашки и оригинални литературни текстове на словашки език и техните преводи на български. Текстовете са автоматично подравнени на ниво „изречение“. Словашките текстове са автоматично морфологично анотирани с тагер Morče – трениран със система от маркери, разработена в Словашкия национален корпус. За анотиране на българските текстове е използван тагер TreeTagger.

Тест-версията par-skbg-free-0.1, реализирана през януари 2014, съдържа 163 милиона единици (думи и препинателни знаци): 78 милиона в словашките текстове и 85 в българските.

Чрез Web Interface NoSketch Engine Вие може да търсите в корпуса както в българската, така и в словашката част.


Корпусът е разработен в рамките на съвместния изследователски проект Електронни корпуси – съпоставително изследване с цел проектиране на българо-словашки електронни езикови ресурси между отдел Словашки национален корпус, Институт по лингвистика „Людовит Щур“, Словашка академия на науките и секция „Математическа лингвистика, Институт по математика и информатика, Българска академия на науките под ръководството на Радован Гарабик (САН) и Людмила Димитрова (БАН).