Тональний словник української мови
Словник містить 3442 слів української мови, які мають не нейтральну тональність (-2, -1, 1, 2).
Дані отримані з двох джерел:
- файл tone-dict-uk-manual.tsv отриманий усередненням оцінок декількох експертів
- файл tone-dict-uk-auto.tsv сгенеровано автоматичним розширенням словника tone-dict-uk-manual за допомогою ML-моделі з використанням векторів слів word2vec та lex2vec, а також незначною пост-обробкою людиною
Формат даних — tab-separated з наступними колонками:
- слово
- дискретна тональність (з діапазону: -2, -1, 0, 1, 2)
В словнику по-можливості всі слова приведені до базової граматичної форми, а також прислівники замінені на спільнокореневі прикметники.
Дані експертних оцінок надані: Олександром Маріковським та В'ячеславом Тихоновим
Розширений словник підготовлений: Сергій Шеховцов, Олесь Петрів, Дмитро Чаплинський, Всеволод Дьомкін
Словник наголосів української мови
Цей словник подає наголоси для 2,770,680 словоформ.
Наголос позначається Unicode символом COMBINING ACUTE ACCENT (U+0301). Цей символ ставиться після наголошеної голосної. Наприклад, слово ма́ма складається з такої послідовності символів:
>>> chars = ['м', 'а', '\u0301', 'м', 'а']
>>> print("".join(chars))
ма́ма
У словах, в яких можливий подвійний наголос, буде два таких символи (по́ми́лка).
Словник наголосів сформував Олексій Сивоконь на основі "Словників України" Українського мовно-інформаційного фонду НАН України.
Словник гетеронімів української мови
Словник містить слова, що пишуться однаково, але мають різну вимову (гетероніми). Іноді це відбувається, коли слова мають різне значення:
- а́тлас - збірник карт
- атла́с - тканина
Але більшість гетеронімів це слова, які мають різний наголос в залежності від форми слова (відмінку, множини, часу тощо). Наприклад:
- блохи́ - родовий відмінок в однині ("немає ані блохи́")
- бло́хи - множина називного відмінку ("повсюди були бло́хи")
Формат
Кожна група гетеронімів подається на окремому рядку. Кожен рядок має формат
headword [TAB] heteronym1,heteronym2
headword це слово без наголосу, як воно зазвичай подається на письмі. heteronym1, heteronym2 це слова, які мають різну вимову (їх може бути більше, ніж два). Наголос в цих словах позначається Unicode символом COMBINING ACUTE ACCENT, що ставиться після наголошеної голосної.
Приклад коду на Python, який парсить цей формат:
dictionary = {}
with open("heteronyms.tsv") as f:
for line in f:
line = line.rstrip("\n")
headword, heteronyms = line.split("\t")
dictionary[headword] = heteronyms.split(",")
print(dictionary["пташки"])
# Out: ['пташки́', 'пта́шки']
Джерело
Словник сформував Олексій Сивоконь на основі "Словників України" Українського мовно-інформаційного фонду НАН України.