Проекти групи lang-uk

Відкриті дані

Векторні представлення слів розмірністю 300 побудовані за алгоритмами word2vec, lexvec, GloVe. Для побудови лематизованої версії було використано словник ВЕСУМ
Корпус УберТекст містить 67496871 речень, що включать 665 мільйонів токенів. Джерела речень: тексти періодичних видань, вікіпедії, художня література. Окрім узагальненого корпусу (та його токенізованої версії) ми також надаємо доступ до його частин
Корпус законів та нормативно-правових актів, що містить майже 580 мільйонів токенів
Корпус NER-анотацій містить 229 текстів з українського браунівського корпусу на 217 381 токенів з 6 751 розмічених NER-сутностей
Тональний словник містить приблизно 3,5 тисячі базових форм слів ненейтральної тональності
Збірник газетірів містить набори назв, такі як марки автівок, вантажівок, мотоциклів, човнів, а також назви країн

Корпуси періодики, законів, судових рішень, художньої літератури — доступні для роботи учасникам групи, будуть публікуватись по мірі вирішення питань авторських прав