Як AI приводить Ватикану таємні архіви у світлі дня

Як AI приводить Ватикану таємні архіви у світлі дня

Ватиканські секретні архіви є однією з найважливіших трьох історичних документів, що існують у сучасному світі. Хоча термін "таємні архіви" є трохи неправильним - кращий переклад може бути "приватними апостольськими архівами Ватикану" - архів містить записи та документи про всі дії, здійснені Католицькою Церквою протягом періоду понад 800 років . Мені не потрібно бути релігійним, щоб побачити історичну зацікавленість у збереженні документів, які в деяких випадках датуються наприкінці 8-го століття та стосуються установи, що відіграє ключову роль у політиці, релігійній практиці, державній власності , а також культури в Європі та світі. Предмети, раніше виставлені в Ватиканському архіві, включають 1521 бика екскомуніки проти Мартіна Лютера і лист, написаний Марією, королевою шотландців, в очікуванні її виконання (мабуть, написана наприкінці 1586 року або на початку 1587 року, з огляду на відносно короткий період між її судовим розглядом та виконанням )

Вікіпедія зазначає, що архів вважається завершеним з 1198 року і до сьогодні, хоча період з 1939 року вперед все ще заборонений. Але, незважаючи на те, що Ватиканський архів технічно відкритий для дослідників, існує більша проблема із використанням більшої частини документації. Проблема, простіше кажучи, полягає саме в мові. Нижче наведено зразок того, що називається скрипт Кароліни. У документі Liber septimus regestorum domini Honorii pope III, мабуть, йдеться про Папи Гонорія III, який очолював католицьку церкву з 1216-1227 років. Я наводя це відношення, але, здається, дати та папи перевіряються.

В кодексі коефіцієнт
В кодексі коефіцієнт

Я не знайшов конкретної заяви, що підтверджує це, але Вікіпедія зазначає, що Кароліна мінуса (також відомий як каролінгівська мінус) використовується приблизно з 800-1200 р. Н.е., що відповідає власному періоду часу папи. Але, як ви помітили, текст надзвичайно важко прочитати. Якщо у вас немає ступеня середньовічної латиниці та докладні знання сценарію, розшифровувати його буде більш-менш неможливо. Це різко обмежило здатність вчених використовувати значні документи (Атлантика зазначає, що таємні архіви Ватикану є одночасно одним з найбільших і "найбільш марних" архівів, що існують саме з цієї причини). Вчені раніше намагалися адаптувати оптичне розпізнавання символів або OCR для використання в архівах з обмеженим успіхом. OCR працює тільки на наборі символів, які вони не є. Ключ до функції OCR - це можливість розпізнавати пробіли між літерами, щоб розрізняти самі букви. Спроба навчити системи OCR читати слова замість листів, але вимоги побудови бази даних слів досить великі, що в Атлантиці відзначають, що вчені звернулися до інших методів. Введіть нове рішення: коефіцієнт кодування.

У коефіцієнті коефіцієнт розбиває символи на рухи штрихів, вимірюючи відмінності в товщині лінії, створюючи ідентифікатори літер, вимірюючи, де ці тонші об'єднані, а потім перетворюється на AI, навчений високим школярам, ​​щоб визначити, чи ідентифікуються ідентифіковані букви. Ось як працює система:

Як AI приводить Ватикану таємні архіви у світлі дня

Високим школярам показано вірними прикладами середньовічного "G" першого (зеленим) та прикладам того, що не є "g" у червоних коробках. Потім їм пропонується визначити, які з букв у білих коробках складають справжні букви, а також буквені групи, які, на думку програмного забезпечення, можуть бути буквами, які насправді не є. Ось Атлантика:

Для налаштування потрібні деякі вхідні дані експертів: вчені мали вибрати ідеальні приклади в зеленому кольорі, а також фальшиві друзі червоним кольором. Але як тільки вони це зробили, їм більше не було потреби. Студенти навіть не мали змоги читати латинську мову. Все, що їм було потрібно, - це збіг візуальних візерунків. Спочатку "ідея залучення школярів вважалася дурнем", - каже Пауло Меріальдо, який мріяв про коефіцієнт коди. "Але зараз машина навчається завдяки своїм зусиллям. Мені подобається, що невеликий і простий внесок багатьох людей дійсно може сприяти вирішенню складної проблеми ".

Це не було закінчення навчання; вчені, які працювали над проектом, також мали випікати в якомусь здоровому глузді, оскільки програмне забезпечення OCR не завжди могло чітко розрізняти певні буквільні групи. Але виявляється, що буквові комбінації набагато більш шансів на латині, ніж інші - подвійне "n", як у слові "Anno", може виглядати поверхнево, як набір з чотирьох я, але "nn" набагато частіше, ніж "Iiii". Зараз програма все ще навчається. Хоча його 96-відсоткова точність є вражаючою, все ще достатньо, щоб залишити хоча б одну помилку приблизно на третину слів. Як можна собі уявити, це буде досить невтішним для читання.

Але тут є два прийоми: по-перше, навіть 96-відсоткова точність часто буває достатньо для читання текстів, і тому вона буде поліпшенням у зв'язку з необхідністю середньовічного латинського вченого кожного разу, коли хочеться дослідити певний Папа або документ. По-друге, поточна ефективність коефіцієнта коефіцієнта відображає ранній базовий рівень програмного забезпечення, а не кінцевого продукту. Якщо цей підхід виявиться ефективним, він може сприяти відновленню тексту з документів, які зараз занадто деградовані для обробки або занадто складних для читання. Студенти старших класів, які допомагали тренувати ІС, не мали потреби розуміти латинську мову в жодній формі - все, що їм було потрібно, - це розуміння розпізнавання образів.

Читати далі

Носити для Христа: Ватикан запускає новий "Клацніть, щоб помо

Ватикан випустив новий еРозарій, призначений як частина його ініціативи «Клацніть, щоб помолитися». Чи Католицька Церква щойно вийшла на ринок IoT, коли ніхто не дивився?