Специалисты компьютерной лингвистики из Калифорнийского университета в Сан-Диего (США) создали новую систему SpoilerNet, призванную защитить пользователей Всемирной паутины от спойлеров (информации о неопубликованных материалах, раскрывающих значимые детали сюжета) в обзорах книг и видеоконтента.
В ближайшем будущем, SpoilerNet сможет фильтровать нежелательный для пользователей контент и в социальных сетях. Начнут с блокировки спойлеров в твитах.
При разработке системы калифорнийские ученые исследовали алгоритмы, по которым обычно пишутся спойлеры. Для этого выявлялись лингвистические шаблоны, маркирующие отдельные предложения в контенте, содержащем важную информацию о сюжете еще неопубликованных книг или видеороликов. В частности, они выяснили, что, как правило, фразы со спойлерами содержатся не в начале обзорных публикаций, а в середине или даже ближе к концу.
В процессе обучения нейронных сетей создателям SpoilerNet пришлось изрядно помучиться, чтобы научить систему находить спойлерскую информацию в зависимости от контекста. Так, чтобы одни и те же слова распознавались как безобидные и доходили до пользователя или служили стоп-сигналом, если их появление могло информировать пользователя о нежелательном сюжете. Но ученые справились с задачей.
В настоящее время способность SpoilerNet отфильтровывать нежелательный контент составляет 74%-80% , что совсем неплохо для новой системы. Эти результаты были получены во время тестирования на выборке, содержащей 16 000 обзоров о 880 телешоу.
Комментарии 0