Украинские волонтеры выложили в открытый доступ первый результат своей полуторагодовой работы - открытый электронный грамматический словарь украинского языка.
"Это первый шаг для создания чат-ботов, вопросительно ответственных систем, систем проверки орфографии, грамматики и стиля, классификаторов текстов и т.п. И все это - на украинском языке!", - Рассказала Знай.ua одна из активных учаниц разработки бесплатного продукта, компьютерный лингвист Марьяна Романишин.
По ее словам, до этого не было доступных инструментов именно для украинского языка, которые помогали бы разрабатывать серьезный машинный перевод. Базовые блоки и взялись создать команда лингвистов и программист Андрей Рысин.
Читайте также: Завод Кировограда выпустит солнечные батареи
Пока же в словаре проставили часть речи, падеж, род и т. Его уже используют для проверки орфографии украинского языка в FireFox и LibreOffice, в лемматизатори для ElasticSearch, в проекте PyMorphy и в проекте LanguageTool.
С 29 ноября Киевстар закрывает старые тарифы: чего ждать абонентам
"Бесять ТЦК": военный объяснил, почему военкомы перегибают палку в мобилизации
Пенсионерам дали всего 10 дней: кого оштрафуют и оставят без выплат
Какой стаж не отнесут к пенсии: годы работы просто выбросят
Сейчас проект словаря изложены на платформе GitHub.
Здесь собрали около ~ 197 тысяч слов, которые генерируют 3,4 миллиона словоформ, и это - только первый шаг. Далее, активисты планируют создать проанотований корпус украинского языка на миллион слов.
Справка: корпус в лингвистике - совокупность текстов, специально подобрали и обработали по определенным правилам, чтобы их можно было использовать в качестве базы для исследования языка.
Корпус украиснькои языка создавался один раз и является на данный момент закрытым для использования.