- Бизнес-Книги
- Боевики
- Детективы
- Детские книги
- Дом, Семья
- Зарубежная литература
- Искусство
- Классика
- Книги по психологии
- Компьютеры
- Любовные романы
- Наука, Образование
- Периодические издания
- Повести, рассказы
- Поэзия, Драматургия
- Приключения
- Публицистика
- Религия
- Современная проза
- Справочники
- Фантастика
- Фэнтези
- Юмор
Д. С. Бухаров — О поиске эквивалентных текстов
Понравилась книга? Поделись в соцсетях:
Автор: Д. С. Бухаров
Издатель: Синергия
Год: 2016
Описание: В статье описан подход к формированию поискового множества, используемого при определении эквивалентов текста. Задача такого вида возникает при поиске дубликатов текста, определении авторства и возможного плагиата, организации библиотечного поиска, а также при создании поисковых систем Интернета. В подходе, представленном в статье, учитывается ряд особенностей: частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста (специфические цифро-буквенные сочетания). Разработанная программа протестирована на наборе данных, в число которых включены как оригиналы текстов, так и их специальным образом модифицированные варианты. В результате проведенного эксперимента определены слабые стороны подхода. Приведены варианты по улучшению разработанного программного средства и схема взаимодействия модулей разработанной программы после модификации.