Мікросервіси lang-uk
Мікросервіси lang-uk — це можливість легко запустити і використовувати основні інструменти, які розроблені нашою командою. Технічно це реалізується з використанням технологій Swagger і Docker.
На даний момент в наявності є наступні сервіси:
- Токенізація
- Український, російський та англійський NER
- Лематизація з використанням можливостей бібліотеки nlp_uk
- Розпізнавання мови з використанням можливостей бібліотеки WILD
Проект lang-uk-ms дозволяє запустити всі мікросервіси одночасно і отримати доступ до них через веб-інтерфейс.
Приклад HTTP-запиту:
$ curl -X POST -H "Content-Type: application/json" -d "{'text': 'Несе Галя'}" http://localhost:8080/lang-detect/wiki/detect [["uk",0.83333343],["bg",0.16666652]]
Docker-скрипти розробив Михайло Чалий.
Мікросервіс NER
Мікросервіс NER дозволяє здійснити NER-розмітку токенізованого тексту з використанням моделей, натренованих з допомогою бібліотеки MITIE для української, російської та англійської мов (в залежності від вибору відповідного Dockerfile при запуску сервісу). Мікросервіс розробив Михайло Чалий.
Приклад HTTP-запиту:
$ curl -X POST -H "Content-Type: application/json" -d '{ "tokens": ["Несе","Галя","воду",",","Коромисло","гнеться" ]}' http://localhost:8080/
Мікросервіс NLP_UK
Мікросервіс на основі бібліотеки NLP_UK дає змогу виконати лематизацію вхідного тексту за словником dict_uk, яка також включає його токенізацію. Мікросервіс розробив Андрій Рисін.
Приклад HTTP-запиту:
$ curl -X POST -H "Content-Type: application/json" -d "{'text': 'Сьогодні у продажі. 12-те зібрання творів 1969 р. І. П. Котляревського.'}" http://localhost:8080/lemmatize/
Мікросервіс розпізнавання мови (WILD)
Мікросервіс WILD дозволяє розпізнати мову вхідного тексту з переліку 156 мов, які використовуються в інтернеті, за допомогою бібліотеки wiki-lang-detect.
Приклад HTTP-запиту:
$ curl -X POST -H "Content-Type: application/json" -d "{'text': 'Несе Галя'}" http://localhost:8080/
Веб-сервіс оцінки когерентності тексту
Веб-сервіс (Docker image) створений з метою здійснення наступних операцій обробки україномовних текстів:
- Оцінка когерентності тексту (розмір тексту має складати мінімум 3 речення).
- Виділення іменних груп.
- Пошук кореферентних пар (тестовий варіант).
Веб-сервіс реалізований у вигляді REST API. Обробка даних відбувається шляхом відправки POST-запитів на відповідні адреси:
- Оцінка когерентності тексту: /api/get_coherence
- Виділення іменних груп: /api/get_phrases
- Пошук кореферентних пар: /api/get_coreferent_clusters
Вхідний формат тіла запиту (JSON): {"text": "<:text>"}. Відповідь від серверу повертається у форматі JSON залежно від точки доступу.
Веб-сервіс створений Артемом Крамовим