Як AI приводить Ватикану таємні архіви у світлі дня

Як AI приводить Ватикану таємні архіви у світлі дня

Ватиканські секретні архіви є однією з найважливіших трьох історичних документів, що існують у сучасному світі. Хоча термін "таємні архіви" є трохи неправильним - кращий переклад може бути "приватними апостольськими архівами Ватикану" - архів містить записи та документи про всі дії, здійснені Католицькою Церквою протягом періоду понад 800 років . Мені не потрібно бути релігійним, щоб побачити історичну зацікавленість у збереженні документів, які в деяких випадках датуються наприкінці 8-го століття та стосуються установи, що відіграє ключову роль у політиці, релігійній практиці, державній власності , а також культури в Європі та світі. Предмети, раніше виставлені в Ватиканському архіві, включають 1521 бика екскомуніки проти Мартіна Лютера і лист, написаний Марією, королевою шотландців, в очікуванні її виконання (мабуть, написана наприкінці 1586 року або на початку 1587 року, з огляду на відносно короткий період між її судовим розглядом та виконанням )

Вікіпедія зазначає, що архів вважається завершеним з 1198 року і до сьогодні, хоча період з 1939 року вперед все ще заборонений. Але, незважаючи на те, що Ватиканський архів технічно відкритий для дослідників, існує більша проблема із використанням більшої частини документації. Проблема, простіше кажучи, полягає саме в мові. Нижче наведено зразок того, що називається скрипт Кароліни. У документі Liber septimus regestorum domini Honorii pope III, мабуть, йдеться про Папи Гонорія III, який очолював католицьку церкву з 1216-1227 років. Я наводя це відношення, але, здається, дати та папи перевіряються.

В кодексі коефіцієнт
В кодексі коефіцієнт

Я не знайшов конкретної заяви, що підтверджує це, але Вікіпедія зазначає, що Кароліна мінуса (також відомий як каролінгівська мінус) використовується приблизно з 800-1200 р. Н.е., що відповідає власному періоду часу папи. Але, як ви помітили, текст надзвичайно важко прочитати. Якщо у вас немає ступеня середньовічної латиниці та докладні знання сценарію, розшифровувати його буде більш-менш неможливо. Це різко обмежило здатність вчених використовувати значні документи (Атлантика зазначає, що таємні архіви Ватикану є одночасно одним з найбільших і "найбільш марних" архівів, що існують саме з цієї причини). Вчені раніше намагалися адаптувати оптичне розпізнавання символів або OCR для використання в архівах з обмеженим успіхом. OCR працює тільки на наборі символів, які вони не є. Ключ до функції OCR - це можливість розпізнавати пробіли між літерами, щоб розрізняти самі букви. Спроба навчити системи OCR читати слова замість листів, але вимоги побудови бази даних слів досить великі, що в Атлантиці відзначають, що вчені звернулися до інших методів. Введіть нове рішення: коефіцієнт кодування.

У коефіцієнті коефіцієнт розбиває символи на рухи штрихів, вимірюючи відмінності в товщині лінії, створюючи ідентифікатори літер, вимірюючи, де ці тонші об'єднані, а потім перетворюється на AI, навчений високим школярам, ​​щоб визначити, чи ідентифікуються ідентифіковані букви. Ось як працює система:

Як AI приводить Ватикану таємні архіви у світлі дня

Високим школярам показано вірними прикладами середньовічного "G" першого (зеленим) та прикладам того, що не є "g" у червоних коробках. Потім їм пропонується визначити, які з букв у білих коробках складають справжні букви, а також буквені групи, які, на думку програмного забезпечення, можуть бути буквами, які насправді не є. Ось Атлантика:

Для налаштування потрібні деякі вхідні дані експертів: вчені мали вибрати ідеальні приклади в зеленому кольорі, а також фальшиві друзі червоним кольором. Але як тільки вони це зробили, їм більше не було потреби. Студенти навіть не мали змоги читати латинську мову. Все, що їм було потрібно, - це збіг візуальних візерунків. Спочатку "ідея залучення школярів вважалася дурнем", - каже Пауло Меріальдо, який мріяв про коефіцієнт коди. "Але зараз машина навчається завдяки своїм зусиллям. Мені подобається, що невеликий і простий внесок багатьох людей дійсно може сприяти вирішенню складної проблеми ".

Це не було закінчення навчання; вчені, які працювали над проектом, також мали випікати в якомусь здоровому глузді, оскільки програмне забезпечення OCR не завжди могло чітко розрізняти певні буквільні групи. Але виявляється, що буквові комбінації набагато більш шансів на латині, ніж інші - подвійне "n", як у слові "Anno", може виглядати поверхнево, як набір з чотирьох я, але "nn" набагато частіше, ніж "Iiii". Зараз програма все ще навчається. Хоча його 96-відсоткова точність є вражаючою, все ще достатньо, щоб залишити хоча б одну помилку приблизно на третину слів. Як можна собі уявити, це буде досить невтішним для читання.

Але тут є два прийоми: по-перше, навіть 96-відсоткова точність часто буває достатньо для читання текстів, і тому вона буде поліпшенням у зв'язку з необхідністю середньовічного латинського вченого кожного разу, коли хочеться дослідити певний Папа або документ. По-друге, поточна ефективність коефіцієнта коефіцієнта відображає ранній базовий рівень програмного забезпечення, а не кінцевого продукту. Якщо цей підхід виявиться ефективним, він може сприяти відновленню тексту з документів, які зараз занадто деградовані для обробки або занадто складних для читання. Студенти старших класів, які допомагали тренувати ІС, не мали потреби розуміти латинську мову в жодній формі - все, що їм було потрібно, - це розуміння розпізнавання образів.

Читати далі

CTS Labs реагує на твердження про погану віру над розкриттям архітектури процесора AMD, розкопує себе глибшої дірки

CTO Labs CTO написав листи, що адресовано та захищає розкриття своєї компанії різноманітної вразливості процесора AMD's Ryzen і наборів мікросхем, але його пояснення викликає більше питань, ніж відповідей.

Найбільший у світі твердий накопичувач стверджує, що є 100 ТБ, архітектура багатопроцесорних пристроїв

Nimbus Data стверджує нову рекорд для найбільшого SSD, з 100 ТБ зберігання в 3,5-дюймовому форм-факторі та новою багатопроцесорною архітектурою.

З нагоди 40-річчя від оригінального 8086 та архітектури x86

Щасливий 40-річний день народження одного з найважливіших процесорів, коли-небудь збудованих - і початок революції ПК.

З нагоди 40-річчя від оригінального Intel 8086 та архітектури x86

Щасливий 40-річний день народження одного з найважливіших процесорів, коли-небудь збудованих - і початок революції ПК.