Multimodal AI моделювання - це майбутнє, але це також коробка Pandora

Multimodal AI моделювання - це майбутнє, але це також коробка Pandora

Що потрібно, щоб створити AI, який може зрозуміти? Ми продовжуємо намагатися зробити комп'ютери, які діють як мізки, але у нас немає легкого шляху до побудови комп'ютерів, які можуть розуміти речі, як мізки. І що станеться, якщо ми отримаємо те, що ми просили - інтелектуальні системи, які розумніші і швидше, ніж ми?

Одна з ключових мети нейронних мереж та АГІ (штучна загальна інтелект) полягає в тому, щоб імітувати вільно, чуйні функції людського мозку для обробки складної інформації в режимі реального часу. Ми хочемо, щоб комп'ютер зрозумів, що ми хочемо це зробити. Зараз зараз нервові сітки, такі як GPT-3, і Dall-E можуть реагувати на натуральні мовні запити та виробляти якісні пропозиції та навіть фрагменти інтелектуального комп'ютера. Але їм не вистачає усвідомлення. Вони не роблять добре з підтекстом. Вони намагаються зрозуміти.

Multimodal AI моделювання - це майбутнє, але це також коробка Pandora

Розуміння, як іронічно, не все, що добре зрозуміло. Щоб зрозуміти, що відбувається навколо нас, ми часто повинні знати про прямий сенсорний вхід з усіх наших почуттів, а також запам'ятовується контекст, і нам потрібно знати, яку інформацію фільтрувала. (Людське тіло робить фільтруючу частину дуже добре - так добре, насправді, що до цього часу, напевно, ви, мабуть, не свідомо усвідомлювали вашу позу, або твій язик.) Вчені зробили величезні стрибки при аналізі кам'яних людей та інші види. У процесі ми дізналися, що мозок об'єднує багато різних потоків інформації відразу, всі, порівнюючи їх з пам'ятними, вже збереженими.

Дисципліна будівництва або викладання нейронної мережі, щоб мати такий вид багатофункціонального поінформованості називається мультимодальним моделюванням. Інструменти, такі як Dall-E, призначені для створення зображень на основі текстових описів, тоді як кліп (контрастно-образне попереднє навчання) призначена для пов'язування тексту та зображень більш подійних, ніж поточні моделі AI. Обидва побудовані Openai, який пише:

Незважаючи на те, що глибоке навчання має революційну комп'ютерну бачення, поточні підходи мають декілька основних проблем: типові набори бачення - це трудомісткість та дорого, щоб створити лише вузький набір візуальних концепцій; Стандартні моделі бачення хороші за одне завдання та лише одне завдання, і вимагають значних зусиль, щоб адаптуватися до нового завдання; І моделі, які добре виконуються на тестах, мають слабко погану продуктивність за стрес-тестами.

Використання цих складних моделей дає нам безпрецедентуну аналітичну та творчу силу. Вони використовуються в полях від медицини до архітектури, роздрібної торгівлі, фінансів, правоохоронних органів тощо. Але в неправильних руках багатомодальна нейронна сітка може створити багато проблем. Уявіть, що AI, який може створювати глибокі відеоролики з фальсифікованими метаданими, одночасно спостерігаючи за моделями, які виявлять людей. Які інструменти можуть це зробити, щоб протистояти такому противника? Але тоді будь-яка сила ви нагородите себе, ви даєте своєму ворогу. Це не питання про те, чи збувається АІ, це просто, коли і як. Це все ті ж самі раси.

Я дуже жартую про машину повстання, тому що ми обидва ближче до нього, і багато, набагато далі, ніж це виглядає. Сьогоднішній AIS являє собою проблиск усвідомлення, але, як клітини головного мозку в блюді Петрі, які нещодавно зробили заголовки для свого роду відтворення понг, обсяг їх здібностей є вузьким і щільно обмеженим. Клітини в блюді Петрі не усвідомлюють, не кажучи вже про боротьбу з людьми. Аналогічним чином, найпотужніший AIS сьогодні все ще є принципово, кореляційні двигуни більше, ніж вони дійсно можуть вважатися надійним, людським "інтелектом". Довгострокова мета називається штучним загальним інтелектом, і ми ще не там.

Люди, дебатно, найрозумніші істоти на планеті, тому наш вид інтелекту - це той, який ми використовуємо як критерій. Однак людський інтелект, як, як відомо, схильний до упередженості, а машинознавство ми розробили, часто відображають, що упередженість у своїй роботі. Людське ухил - це причина розпізнавання обличчя, призначене для боротьби з силіконовою долиною з обличчям кольору. Людське упередження, не властива машино-ворожнечі, є причиною прогнозної політики може так легко реплікувати історичні закономірності дискримінації, навіть коли явна мета - це закінчити. У поп-культурі найгірший з ворожих АІС знає, як люди будуть діяти, і як перехитрити нас за допомогою власних трюків та упереджень проти нас.

Цінності мають значення для цієї проблеми упередження, в конкретному сенсі. Це така низькотехнологічна частина вирішення високотехнологічної проблеми. Глипки тут, і для того, щоб отримати програмне забезпечення, щоб надійно визначити DeepFakes, нам доведеться навчати комп'ютерів, як ідентифікувати та зрозуміти нас краще - і немає того, що в коробці немає. Оскільки AI прогресує, ми збираємося залишити зону комфорту знову і знову. Це неминучим наслідком виготовлення інструментів з майже людськими можливостями. Яке питання полягає в тому, як наші цінності відображені у інтелектуальних системах, які ми створюємо. Можливо, нам не потрібно турбуватися про повстання робот. Можливо, дистопія йде всередині будинку.

Тепер читайте:

  • wfoojjaec пояснює: що таке нейронна сітка?
  • Вчені побудували штучний інтелект, щоб закінчити десяту симфонію Бетховена
  • Openai 'Dall-E' генерує зображення з текстових описів

Читати далі

Multimodal AI моделювання - це майбутнє, але це також коробка Pandora
Multimodal AI моделювання - це майбутнє, але це також коробка Pandora

Ми продовжуємо намагатися зробити комп'ютери, які діють як мізки. Але що це потрібно, щоб зробити комп'ютери, які можуть зрозуміти, як мізки? І що станеться, якщо ми отримаємо те, що ми попросили - інтелектуальні системи розумніші і швидше, ніж ми?