Как AI приносит Ватиканские секретные архивы в свет дня
Ватиканские секретные архивы - одна из самых важных тем исторических документов, которые существуют сегодня в мире. Хотя термин «секретные архивы» является немного неправильным, лучший перевод может быть «частным архивом Ватикана» - архив содержит записи и документы всех действий, предпринятых католической церковью в течение более чем 800 лет , Не нужно быть религиозным ни в малейшей степени, чтобы увидеть исторический интерес к сохранению документов, которые в некоторых случаях относятся к концу 8-го века и относятся к институту, играющему ключевую роль в политике, религиозной практике, государственном , и культура в Европе и мире. Элементы, ранее представленные в архивах Ватикана, включают в себя 1521 быка отлучения от Мартина Лютера и письмо, написанное Марией, королевой шотландцев, в ожидании ее исполнения (предположительно, написанное в конце 1586 года или в начале 1587 года, учитывая относительно короткий период между ее испытанием и исполнением ).
Википедия отмечает, что архив считается завершенным с 1198 года по сегодняшний день, хотя период с 1939 года по-прежнему запрещен. Но, несмотря на то, что Ватиканский архив технически открыт для исследователей, возникла большая проблема с использованием большей части документации. Проблема, проще говоря, - это сам язык. Ниже приведен пример того, что известно как сценарий миниатюры Каролина. Документ Liber septimus regestorum domini Honorii pope III, по-видимому, относится к Папе Гонорию III, который был главой католической церкви с 1216 по 227 год. Я вывел отношения, но даты и папы, кажется, проверяют.
Я не нашел конкретного заявления, подтверждающего это, но Википедия отмечает, что Кэролайн минускула (также известная как мелочь Каролинга) использовалась примерно с 800-1200 года нашей эры, что соответствовало бы периоду времени Папы. Но, как вы могли заметить, текст чрезвычайно трудно читать. Если у вас нет степени в средневековой латыни и подробного знания сценария, это будет более или менее невозможно расшифровать. Это резко ограничило способность ученых широко использовать документы (Атлантический поясняет, что Ватиканские секретные архивы являются одним из самых больших и «самых бесполезных» архивов, существующих по этой точной причине). Ученые ранее пытались адаптировать оптическое распознавание символов или OCR для использования в архивах с ограниченным успехом. OCR работает только с наборами символов, которых нет. Ключом к функции OCR является способность распознавать пробелы между буквами, чтобы различать сами буквы. Попытка научить системы распознавания текста читать слова вместо писем, но требования к созданию базы данных слов достаточно велики, чтобы исследователи Атлантических нот обратились к другим методам. Введите новое решение: в кодексе.
В коэффициенте кодировки разрывает символы до штрихов пера, измеряя различия в толщине линии, создает идентификацию букв, измеряя, где эти более тонкие соединения, затем переходит к искусственному интеллекту, обученному старшеклассниками, для измерения точной идентификации идентифицированных букв. Вот как работает система:
Старшие школьники показаны действительными примерами средневекового «G» сначала (зеленым) и примерами того, что не составляет «g» в красных ящиках. Затем их просят определить, какие буквы в белых ящиках представляют собой настоящие буквы, и которые представляют собой группы букв, которые, по мнению программного обеспечения OCR, могут быть буквами, которые на самом деле не являются. Вот Атлантика:
Настройка требовала некоторого экспертного вклада: ученым приходилось выбирать прекрасные примеры в зеленых, а также ложные друзья в красном. Но как только они это сделали, им больше не нужно. Студентам даже не нужно было читать латынь. Все, что им нужно было сделать, это сопоставить визуальные шаблоны. Поначалу «мысль о вовлечении учеников старших классов считалась глупой», - говорит Пауло Мериалдо, который мечтал в «Кодице». «Но теперь машина учится благодаря их усилиям. Мне нравится, что небольшой и простой вклад многих людей может действительно способствовать решению сложной проблемы ».
Это не конец подготовки; ученые, работающие над проектом, также должны были испечь в некотором здравом смысле, поскольку программное обеспечение OCR не всегда могло четко различать определенные группы букв. Но оказывается, что на латыни гораздо более вероятны буквы, чем другие, - двойное слово «n», как в слове «Anno», может выглядеть внешне похожим на набор из четырех i, но «nn» значительно более распространен, чем «Iiii». Сейчас программное обеспечение все еще учится. Хотя его 96-процентная точность впечатляет, этого достаточно, чтобы оставить хотя бы одну опечатку примерно в одной трети слов. Как можно себе представить, это было бы довольно неловко читать.
Но здесь есть две сделки: во-первых, даже 96-процентная точность часто бывает достаточной для чтения текстов и, следовательно, будет улучшением по сравнению с необходимостью средневекового латинского ученого каждый раз, когда кто-то хочет исследовать конкретного Папу или документ. Во-вторых, текущая производительность In Codice Ratio представляет собой ранний исходный уровень программного обеспечения, а не конечный продукт. Если этот подход будет работать, он может сыграть важную роль в восстановлении текста из документов, которые теперь слишком деградированы, чтобы их обрабатывать или их слишком трудно читать. Старшие школьники, которые помогали обучать ИИ, не нуждались в понимании латыни в любой форме - все, что им нужно, - это понимание распознавания образов.