Проекти групи lang-uk
Відкриті дані
- Векторні представлення слів розмірністю 300 побудовані за алгоритмами word2vec, lexvec, GloVe. Для побудови лематизованої версії було використано словник ВЕСУМ
- Корпус УберТекст містить 67496871 речень, що включать 665 мільйонів токенів. Джерела речень: тексти періодичних видань, вікіпедії, художня література. Окрім узагальненого корпусу (та його токенізованої версії) ми також надаємо доступ до його частин
- Корпус законів та нормативно-правових актів, що містить майже 580 мільйонів токенів
- Корпус NER-анотацій містить 229 текстів з українського браунівського корпусу на 217 381 токенів з 6 751 розмічених NER-сутностей
- Тональний словник містить приблизно 3,5 тисячі базових форм слів ненейтральної тональності
- Збірник газетірів містить набори назв, такі як марки автівок, вантажівок, мотоциклів, човнів, а також назви країн
Дані з обмеженим доступом
- Корпуси періодики, законів, судових рішень, художньої літератури — доступні для роботи учасникам групи, будуть публікуватись по мірі вирішення питань авторських прав
Моделі
Інструменти