В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими методами. Основным инструментом анализа являются функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов. Для набора текстов, объём наименьшего из которых достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет правильно идентифицировать автора с ошибкой не более 5%, а жанр – с ошибкой не более 15%. Однобуквенные распределения дают ошибку 15% и 25% соответственно.
Купить книгу «Определение жанра и автора литературного произведения статистическими методами»
Вы не вошли на сайт или не зарегистрированы
Если Вы зарегистрированы на сайте - введите Ваш логин и пароль, используя ссылку вверху страницы. Если Вы не хотите регистрироваться - логин и пароль покупателя будут Вам присвоены автоматически.
Отзыв на книгу «Определение жанра и автора литературного произведения статистическими методами»
Благодарим за покупку!
Определение жанра и автора литературного произведения статистическими методами
Определение жанра и автора литературного произведения статистическими методами
Похожие книги