Корпуси: lang-uk

Корпус NER-анотацій

Містить 229 текстів з українського браунівського корпусу на 217 381 токенів з 6 751 розмічених іменованих сутностей.

Опис даних

Корпус розмічених даних знаходиться в папці data/. Всього в корпусі:

229 текстів
217381 токенів
6751 сутностей NER:
- ПЕРС - 4060
- ЛОК - 1442
- ОРГ - 649
- РІЗН - 600

Первинним джерелом даних є відкритий браунівський корпус українських текстів. Для кожного обробленого тексту з корпусу наявні два файли:

файл з розширенням tok.txt містить токенізовану версію тексту (токенізація зроблена за наступними правилами)
файл з розширенням tok.ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім анотатором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ліцензія

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

Корпус UberText

Ми назбирали та упорядкували значний (більше 6ГБ) обсяг текстів українських періодичних видань й продовжуємо розширювати наш архів. Наша мета — довести його розмір до мільярда слів.

Саме ці тексти ми використовуємо для обчислення наших Word Embeddings. На жаль, ліцензійні обмеження деяких видань не дозволяють нам публікувати ці тексти без змін.

Щоб надати публічний доступ до цього масиву даних ми зробили токенізацію усіх текстів на речення та слова, а потім перемішали речення у випадковому порядку. Таким чином, будь-хто зможе використати ці тексти для обчислення статистичних моделей що працюють на рівні речень. Ми також публікуємо лематизовану версію цих текстів окремим архівом. Для токенізації та лематизації текстів ми використовували пакет nlp-uk від Андрія Рисіна та ініціативи БРУК

В архіві зібрані речення з текстів наступних видань:

Скачати

Корпус	Кількість токенів	Кількість речень	Завантажити	Завантажити лематизовану версію
Новини	461451019	31021650	1.1GB	951MB
Вікіпедія	185645357	15786948	403MB	371MB
Художня література	18323509	1811548	41MB	38MB
Уберкорпус	665419885	48620146	1.6GB	1.5GB

До відома правовласників:

Ми розповсюджуємо тексти у вигляді перемішаних речень, що унеможливлює відновлення повного тексту.
Тексти розповсюджуються на умовах Fair Use (чесне використання) для потреб наукового та статистичного аналізу.
Ми не є прибутковою організацією, та не отримуємо за наведені матеріали будь якої користі.
Якщо у вас є зауваження до текстів, що ми виклали, будь ласка, напишіть нам на abuse@lang.org.ua

Корпус законів та правових актів

Завдяки допомозі Олександра Швеця ми отримали величезний (більше 9ГБ) корпус законів та нормативно-правових актів України. Ми зробили його токенізацію та лемматизацію, а також почали обчисленя Word Embedding моделей.

Скачати

Корпус	Кількість токенів	Кількість речень	Завантажити	Завантажити лематизовану версію
Закони та НПА	578988264	29208302	560MB	498MB