«Къырымтатар тилининъ лингвистик корпусы» – земаневий къырымтатар язылув тилининъ корпусы. Корпус XXI асырнынъ башында дердж олунгъан газет метинлерден ибареттир. Корпус – бу малюмат-сорав системы, о электрон метинлер топламына эсаслана. Корпус – бу тильнинъ муайен девирде булунгъан алы ве севиесини косьтере. Тильшынаслар (лингвистлер) лингвистик корпусны ильмий теткъикъат ве тильге огретюв ичюн мейдангъа кетирелер.
Сорав интерфейсини ачмакъ ичюн басынъыз мында
Корпус кирилл элифбеси эсасында язылгъан метинлер ичюн ве бу себептен соравлар кирилл арифлеринен язылмакъ керек. Клавиатурада кирилл язувы олмаса, мумкюн экранда олгъан виртуаль клавиатуранен къулланмакъ(файдаланмакъ). Екяне яхут къошма токен бирикмелерини, эм де адий, адет узьре къулланылгъан ибарелерни де мында тапа билесинъиз. Бойле ибарелернинъ тафсилятлы тарифленмесини ашагъыда тапмакъ мумкюн: http://docs.python.org/lib/re-syntax.html
Араштырувнынъ нетиджеси KWIC (метининде эсас сёз)шекилинде такъдим этиле. Мында эр бир сатыр озюне хас мананы такъдим эте. Сол джедвельде эки сыра косьтерильген. Аит санына (корпуста весикъанынъ саны) баскъанда, аит весикъанынъ аннотациясы алына биле. ( ) ишаретке (экинджи сырада) баскъанда, экранда араштырув сынъырыны бельгилеген кенъ контекст чыкъарыла. Ашагъы сыра башлангъыч ве сонъки мевамыны (позицияны), аит олып чыкъкъан ибарелернинъ сайсыны ве саифеде олгъан бу ибарелернинъ сайысыны косьтере.
Бугуньде корпус 521012 токенлерден (пунктуация ишаретлеринен берабер), яни 56752ге якъын словоформалардан ибарет. Энъ сыкъ расткельген сёзлер:
ве бир ичюн бу де да эди Бу сонъ озь деп Къырым олгъан сенеси о чокъ исе акъкъында эр онынъ
Айры адлы саифеде даа да зияде статистик малюматларыны тапмакъ мумкюн.
Сонъки денъишмелернинъ куню 2022-09-22.
“Linguistic corpus of Crimean Tatar language” is a general corpus of written contemporary Crimean Tatar language. It consists mostly of newspaper texts published at the beginning of XXI century.
Click here to open the query interface or here to search via the NoSketch engine.
Corpus contains texts written in the cyrillic orthography, and the queries should be also written in cyrillic. To accommodate systems without cyrillic keyboard, on-screen virtual keyboard can be used to insert cyrillic characters into the query form. It is possible to search either for single tokens (words), sequences of tokens, or tokens matching given regular expressions. You can find a detailed description of regular expressions e.g. here: http://docs.python.org/lib/re-syntax.html
Results are presented in a KWIC (key word in context) form, with each line representing one concordance. At the leftmost table column, by clicking on the corresponding number (number of the document in the corpus) you can display annotation of the respective document, clicking on the ( ) mark in the second column displays wider context, with the search term highlighted. The bottom status line shows the starting and ending positions of the displayed concordances, total number of concordances and number of concordances displayed per page.
Currently, the corpus contains 521012 tokens (including punctuation), which amounts to 56752 distinct wordforms. The most frequent words in the corpus are: ве бир ичюн бу де да эди Бу сонъ озь деп Къырым олгъан сенеси о чокъ исе акъкъында эр онынъ
You can find more statistical data on a separate page.
There is also a corpus of Latin orthography texts and a corpus of Crimean Tatar Wikipedia.
Last modified 2022-09-22.
«Лингвистический корпус крымскотатарского языка» – корпус современного письменного крымскотатарского языка. В состав корпуса входят преимущественно тексты из крымскотатарских газет начала XXIго века.
Нажмите Нажмите, чтобы открыть интерфейс для запроса. или здесь для NoSketch engine корпусного менеджера.
Корпус содержит тексты на кириллице, следовательно, запросы тоже должны вводится на кириллице. В случае отсутствия на клавиатуре кириллицы, вы можете использовать виртуальную клавиатуру на экране для введения символов на кириллице в окно запроса. Возможен поиск единичных токенов(слов), сочетаний (серий) токенов или токенов, соответствующих регулярным выражениям. Описание регулярных выражений можно найти здесь.
Результаты поиска представлены в форме KWIC (ключевое слово в контексте), где каждая строка представляет одно соответствие. В левой таблице представлены две колонки: нажатием на соответствующий номер (номер документа в корпусе) вы можете получить аннотацию соответствующего документа, нажатием на значок ( ) во второй колонке выводит на экран более широкий контекст с выделенной границей поиска. Нижняя строка статуса показывает начальную и конечную позиции, общее количество соответствий и количество соответствий на странице.
В настоящее время корпус содержит 521012 токенов (включая пунктуацию), что составляет около 56752 словоформ. Наиболее часто встречающиеся слова: ве бир ичюн бу де да эди Бу сонъ озь деп Къырым олгъан сенеси о чокъ исе акъкъында эр онынъ
Вы можете найти больше статистических данных на отдельной странице.
Дата последнего изменения 2022-09-22.