Проверка оригинальности синонимизированных текстов
Аннотация
Синонимизация ‒ замена слов в тексте синонимами (словами со схожим смыслом, но различным написанием). Основная цель синонимизации состоит в изменении текстового документа таким образом, чтобы повысить его уникальность, скрыв тем самым факт заимствования. В работе рассматриваются особенности проверки синонимизированных текстов и осуществляется поиск путей повышения качества выявления заимствований. Для обработки синонимизированных текстов предлагается использовать тяжелые синонимы (наиболее частотные, весомые синонимы). Проведенные исследования показали высокую эффективность подхода по сравнению с существующими системами проверки оригинальности. Одной из ключевых особенностей подхода является возможность использования различных алгоритмов информационного поиска для последующей обработки текста – «мешка слов», TF*IDF, N-грамм, шинглов и т.д. Это позволяет давать как статистическую оценку подобия проверяемых документов, так и проводить визуализацию найденных совпадений.