Фреймворк для краудсорсингу обробки даних Вулик
Вулик був створений для того щоб допомогти НГО Канцелярська Сотня та тисячам волонтерів розшифрувати десятки тисяч декларацій високопосадовців. Але завдяки його відкритій ліцензії та архітектурі майже будь яке завдання, для виконання котрого потрібна людина, може бути реалізовано як додаток до Вулика. Тому ми успішно використали Вулик для анотації іменованих сутностей у корпусі БрУК. Авторами Вулика є Дмитро Чаплинський, Дмитро Гамбаль та Володимир Гоцик.
Додаток NER–розмітки для Вулика
Для створення першого українського відкритого корпуса з NER розміткою був написаний окремий додаток — Vulyk NER. Він базується на іншому відомому Open Source продукті — BRAT. Але завдяки тісної інтеграції з Вуликом, тепер можна розподіляти завдання між волонтерами та залучати до процесу розмітки будь-кого, хто має обліковий запис у популярних соцмережах.
coherence-ua — оцінка когерентності тексту
coherence-ua — це програмний пакет Python для оцінки когерентності україномовних текстів, оснований на моделі нейронної мережі (архітектура Transformer). Навчання моделі виконувалося на множині україномовних новин. Вхідними даними моделі є текст (рядок). Модель реалізує наступні методи:
- get_prediction_series — оцінка вихідних ймовірностей для кожної групи тексту. Під терміном "група" мається на увазі набір речень тексту (по 3 речення в кожному наборі) з одинарним зсувом. Наприклад, <s1, s2, s3>, <s2, s3, s4>, <s3, s4, s5>, де <si> відповідає окремому реченню тексту.
- evaluate_coherence_as_product — оцінка когерентності тексту як добутку вихідних ймовірностей груп.
- evaluate_coherence_using_threshold — розрахунок когерентності тексту як відношення кількості когерентних груп до їх загальної кількості відповідно до встановленого порогового значення.
Програмний пакет Python створений Артемом Крамовим
noun-phrase-ua — пошук іменних груп
noun-phrase-ua — це програмний пакет Python для екстракції іменних груп з україномовних текстів. Принцип роботи методу оснований на аналізу синтаксичного дерева залежності речень тексту. Вхідними даними методу моделі extract_entities є текст. Результат повертається у вигляді словника, що містить наступні ключі:
- tokens — список токенів тексту та їхніх властивостей.
- entities — список індексів токенів, що формують іменні групи.
Програмний пакет Python створений Артемом Крамовим