Вы здесь
Установить автора!
В Новосибирске применяют эффективный математический метод установления авторства.
Рисунок с обложки книги Романа Арбитмана «Илья Ильф, Евгений Петров, Михаил Булгаков. Из черновиков, которые отыскал доктор филологических наук Р. С. Кац и и опубликовал Роман Арбитман»
В Институте вычислительных технологий СО РАН в 2019 году был разработан и испытан метод, который позволяет с большой достоверностью установить авторство литературного произведения. Теоретико-информационный метод основан на сжатии данных. Его создатели использовали этот подход для определения подлинного авторства романов «Двенадцать стульев» и «Золотой теленок»: существует устойчивая версия, что книги написаны Михаилом Булгаковым. Эксперимент показал, что наиболее вероятные авторы произведений — Илья Ильф и Евгений Петров. «Сибирские огни» беседуют с доктором технических наук, главным научным сотрудником и заведующим лабораторией информационных систем и защиты информации ИВТ СО РАН Борисом Рябко.
— Борис Яковлевич, прежде математические методы использовались для установления авторства?
— Да, для этих целей применялись различные математические методы — и в России, и за рубежом. Среди известных — использование авторского инварианта и модели цепей Маркова. Эти способы базируются на векторизации текста (превращении слов в цифры) в совокупности с методами машинного обучения. Наш метод, основанный на сжатии данных несколькими архиваторами, доказал более высокую эффективность.
Суть его в следующем. Допустим, у нас есть текст писателя А. и текст писателя Б., их авторство не вызывает сомнений. И есть третий текст, порожденный одним из двух авторов, каким — неизвестно. Если к тексту А. прибавить третий, спорный текст и сжать, а потом то же самое проделать с текстом Б., то можно сделать вывод. Спорный текст будет лучше сжиматься после текста, порожденного его автором. Ведь архиватор, сжимая вторую часть, использует статистические особенности, найденные им при сжатии первой части.
— Какой величины должны быть тексты, чтобы результаты были по-настоящему достоверными?
— Оптимально — несколько сотен страниц. Для наибольшей достоверности результатов было бы идеально использовать теоретико-информационный подход в совокупности с суждениями лингвистов, литературоведов и историков литературы.
— Ваш эксперимент с романами «Двенадцать стульев» и «Золотой теленок» однозначно установил авторство Ильфа и Петрова?
— Да, по нашим выводам, авторами являются Ильф и Петров. Однако данные указывают на определенное сходство стилей этих книг и произведений Булгакова и Паустовского. Если фамилия Булгакова нередко звучала рядом с названиями всенародно любимых романов, то возможное взаимовлияние Ильфа и Паустовского (они дружили), думаю, может вызвать интерес у литературоведов. Еще мы заметили небольшое сходство стилей Набокова и Грина.
— Получается, мы можем установить авторство и в других спорных случаях? Например, ответить на вопрос, является ли Жюль Верн автором «Кораблекрушения “Джонатана”», которое приписывают его сыну Мишелю.
— Да, это вполне возможно.
— При испытании метода сжатия данных на литературных текстах были использованы только произведения русскоязычных авторов. Будет ли этот способ работать в отношении литературы, переведенной на русский с других языков?
— Вероятно, в этом случае метод нужно применять с осторожностью, поскольку лексика в переводной литературе сильно зависит от переводчика. Тексты лучше сравнивать на «родном» языке: английские с английскими, испанские с испанскими.
— Если говорить о текстах, написанных в соавторстве, то нередко возникают споры о весомости вклада каждого из авторов в создание произведения. Можно ли с помощью алгоритма сжатия оценить роль каждого автора, основываясь на текстах, написанных индивидуально?
— В США математические методы применяли с подобной целью. «Декларацию независимости» написали несколько авторов, и для нескольких частей авторство не было точно известно.
— Еще есть споры о датировании того или иного романа писателей прошлого. Можно ли использовать метод для определения вероятного времени написания книги?
— Да, мы можем это сделать, сличая произведение с текстами разных лет того же автора. Стиль действительно может сильно отличаться, разные периоды жизни окрашены разными переживаниями и влияниями. Например, ранний и поздний Куприн — это фактически два разных Куприна.
— А можно ли установить автора стихов, сравнивая их с прозаическими произведениями? Или с пьесами?
— У стихов, прозы и драмы разная поэтика. Для достоверного результата лучше сравнивать прозу с прозой, а стихи со стихами.
— К научным текстам теоретико-информационный подход так же применим, как и к художественным?
— Да, можно оценить вклад того или иного автора в написание научного текста. Правда, на практике часто бывает так, что один ученый высказал идею, а второй ее быстро оформил на бумаге. В этом случае подлинного автора идеи метод не сможет установить.
— Для каких еще целей может служить метод?
— Например, для отслеживания террористической или другой криминальной деятельности в интернете. Архиваторы смогут быстро и автоматически отыскать в сети тексты определенной тематики.
Но, если честно, нам бы хотелось привлечь внимание литературоведческих кругов. Наш метод может содействовать установлению фактов для исследования самых разных вопросов литературы.
Беседовала Елена Богданова