Как AI приносит Ватиканские секретные архивы в свет дня

Как AI приносит Ватиканские секретные архивы в свет дня

Ватиканские секретные архивы - одна из самых важных тем исторических документов, которые существуют сегодня в мире. Хотя термин «секретные архивы» является немного неправильным, лучший перевод может быть «частным архивом Ватикана» - архив содержит записи и документы всех действий, предпринятых католической церковью в течение более чем 800 лет , Не нужно быть религиозным ни в малейшей степени, чтобы увидеть исторический интерес к сохранению документов, которые в некоторых случаях относятся к концу 8-го века и относятся к институту, играющему ключевую роль в политике, религиозной практике, государственном , и культура в Европе и мире. Элементы, ранее представленные в архивах Ватикана, включают в себя 1521 быка отлучения от Мартина Лютера и письмо, написанное Марией, королевой шотландцев, в ожидании ее исполнения (предположительно, написанное в конце 1586 года или в начале 1587 года, учитывая относительно короткий период между ее испытанием и исполнением ).

Википедия отмечает, что архив считается завершенным с 1198 года по сегодняшний день, хотя период с 1939 года по-прежнему запрещен. Но, несмотря на то, что Ватиканский архив технически открыт для исследователей, возникла большая проблема с использованием большей части документации. Проблема, проще говоря, - это сам язык. Ниже приведен пример того, что известно как сценарий миниатюры Каролина. Документ Liber septimus regestorum domini Honorii pope III, по-видимому, относится к Папе Гонорию III, который был главой католической церкви с 1216 по 227 год. Я вывел отношения, но даты и папы, кажется, проверяют.

Соотношение кодов
Соотношение кодов

Я не нашел конкретного заявления, подтверждающего это, но Википедия отмечает, что Кэролайн минускула (также известная как мелочь Каролинга) использовалась примерно с 800-1200 года нашей эры, что соответствовало бы периоду времени Папы. Но, как вы могли заметить, текст чрезвычайно трудно читать. Если у вас нет степени в средневековой латыни и подробного знания сценария, это будет более или менее невозможно расшифровать. Это резко ограничило способность ученых широко использовать документы (Атлантический поясняет, что Ватиканские секретные архивы являются одним из самых больших и «самых бесполезных» архивов, существующих по этой точной причине). Ученые ранее пытались адаптировать оптическое распознавание символов или OCR для использования в архивах с ограниченным успехом. OCR работает только с наборами символов, которых нет. Ключом к функции OCR является способность распознавать пробелы между буквами, чтобы различать сами буквы. Попытка научить системы распознавания текста читать слова вместо писем, но требования к созданию базы данных слов достаточно велики, чтобы исследователи Атлантических нот обратились к другим методам. Введите новое решение: в кодексе.

В коэффициенте кодировки разрывает символы до штрихов пера, измеряя различия в толщине линии, создает идентификацию букв, измеряя, где эти более тонкие соединения, затем переходит к искусственному интеллекту, обученному старшеклассниками, для измерения точной идентификации идентифицированных букв. Вот как работает система:

Как AI приносит Ватиканские секретные архивы в свет дня

Старшие школьники показаны действительными примерами средневекового «G» сначала (зеленым) и примерами того, что не составляет «g» в красных ящиках. Затем их просят определить, какие буквы в белых ящиках представляют собой настоящие буквы, и которые представляют собой группы букв, которые, по мнению программного обеспечения OCR, могут быть буквами, которые на самом деле не являются. Вот Атлантика:

Настройка требовала некоторого экспертного вклада: ученым приходилось выбирать прекрасные примеры в зеленых, а также ложные друзья в красном. Но как только они это сделали, им больше не нужно. Студентам даже не нужно было читать латынь. Все, что им нужно было сделать, это сопоставить визуальные шаблоны. Поначалу «мысль о вовлечении учеников старших классов считалась глупой», - говорит Пауло Мериалдо, который мечтал в «Кодице». «Но теперь машина учится благодаря их усилиям. Мне нравится, что небольшой и простой вклад многих людей может действительно способствовать решению сложной проблемы ».

Это не конец подготовки; ученые, работающие над проектом, также должны были испечь в некотором здравом смысле, поскольку программное обеспечение OCR не всегда могло четко различать определенные группы букв. Но оказывается, что на латыни гораздо более вероятны буквы, чем другие, - двойное слово «n», как в слове «Anno», может выглядеть внешне похожим на набор из четырех i, но «nn» значительно более распространен, чем «Iiii». Сейчас программное обеспечение все еще учится. Хотя его 96-процентная точность впечатляет, этого достаточно, чтобы оставить хотя бы одну опечатку примерно в одной трети слов. Как можно себе представить, это было бы довольно неловко читать.

Но здесь есть две сделки: во-первых, даже 96-процентная точность часто бывает достаточной для чтения текстов и, следовательно, будет улучшением по сравнению с необходимостью средневекового латинского ученого каждый раз, когда кто-то хочет исследовать конкретного Папу или документ. Во-вторых, текущая производительность In Codice Ratio представляет собой ранний исходный уровень программного обеспечения, а не конечный продукт. Если этот подход будет работать, он может сыграть важную роль в восстановлении текста из документов, которые теперь слишком деградированы, чтобы их обрабатывать или их слишком трудно читать. Старшие школьники, которые помогали обучать ИИ, не нуждались в понимании латыни в любой форме - все, что им нужно, - это понимание распознавания образов.

Читать далее

Главный архитектор Intel повторно нанимает Nehalem для создания нового высокопроизводительного процессора
Главный архитектор Intel повторно нанимает Nehalem для создания нового высокопроизводительного процессора

Intel повторно наняла старшего научного сотрудника Гленна Хинтона для создания новой высокопроизводительной архитектуры ЦП. Назначение Гельсингера уже дает эффект.

Samsung архивирует документы для создания новой фабрики стоимостью 17 миллиардов долларов в США
Samsung архивирует документы для создания новой фабрики стоимостью 17 миллиардов долларов в США

Предыдущие слухи о том, что Samsung может построить завод в США, подтвердились. Компания изучает потенциальные площадки в Нью-Йорке, Техасе и Аризоне с планами построить объект стоимостью 17 миллиардов долларов. Anandtech сообщает, что литейный завод будет запущен к четвертому кварталу 2023 года. Если это правда, то это быстрый рост. Для сравнения, Intel…

AMD привносит свою архитектуру Zen 3, до восьми ядер процессоров в Chromebooks
AMD привносит свою архитектуру Zen 3, до восьми ядер процессоров в Chromebooks

AMD идет за высококачественным рынком Chromebook со своими новейшими APU Zen 3.

TSMC объявляет «FINFLEX» 3NM архитектуры с переменными конфигурациями
TSMC объявляет «FINFLEX» 3NM архитектуры с переменными конфигурациями

TSMC раскрыла новую смелую новую настраиваемую архитектуру «FinFlex» для своего 3NM процесса.