Компания Econophysica, специализирующаяся на консалтинге в сфере финансовых и банковских услуг, объявила о начале крупного проекта, с целью разработки инструментов для анализа естественного русского языка и синтеза текста на нем.
Работа над этим проектом будет вестись в Томске, где действует дочерняя компания Econophysica - ООО «Эко-Томск». Планируется, что создание системы анализа и синтеза русскоязычных текстов займет несколько лет. К работе привлечены компьютерные лингвисты, программисты и специалисты Data Science / Deep Learning. Помощь профессиональных лингвистов необходима на этапе настройки алгоритмов.
Проект по созданию системы анализа и синтеза текстов на русском языке стал логичным продолжением разработанной специалистами Econophysica системы поиска смысловых элементов в текстовых документах, или анализатора текстов, которую компания выполнила в интересах одной из крупных российских нефтяных компаний.
Нефтяники столкнулись с проблемой систематизации огромного массива текстовой неструктурированной информации, накопленной за долгие годы геологоразведочных работ. Выяснилось, что ценная информация носит фрагментарный характер, отчеты выполнены в разных форматах, а часть документов не оцифрована, т.е. существует только на бумажных носителях.
Специалисты Econophysica разработали систему, которая находила искомые текстовые фрагменты, описываемые разными словами, и выявляла всю цепочку их упоминаний в документах. То есть поиск производился не по ключевым словам, а по семантике. В частности, нефтяники с помощью полученной системы смогли установить схожие по заданным свойствам месторождения.
Новый проект Econophysica по анализу и синтезу относится к группе задач под общим названием «Обработка естественного языка». Директор компании Econophysica Олег Соловьев делится своим пониманием масштаба стоящих перед компанией задач: «мы планируем разработать набор инструментов универсального назначения для анализа и синтеза русского языка. Для начала мы изучим, что было сделано для других языков: подходы, особенности русского языка, решим, что нужно разработать».
Для анализа за основу берутся тексты различной направленности. К примеру, для извлечения сущности включаются новостные и предметные тексты, а если нужен универсальный классификатор, то для обучения алгоритма выбираются наиболее широкие отрасли.
В реализации проекта примут участие компании из различных секторов экономики.
Комментарии 0