Google EfficientNet пропонує до 10-кратного підвищення ефективності аналізу зображень

Google EfficientNet пропонує до 10-кратного підвищення ефективності аналізу зображень

Google заслужив репутацію витіснення нових технологій інтелектуальної власності та модернізації у дивовижному темпі, а їхнє оголошення EfficientNet служить останнім прикладом. Використовуючи свою роботу з AutoML, вчені Google застосували метод масштабування, що забезпечує до десятикратного збільшення ефективності мережі.

Компанія пише: «Звичайна практика масштабування моделі полягає в тому, щоб довільно збільшувати глибину або ширину CNN, або використовувати більшу роздільну здатність вхідного зображення для навчання і оцінки. Хоча ці методи підвищують точність, вони зазвичай вимагають напруженого ручного налаштування, і до цих пір часто дають субоптимальну продуктивність. Що робити, якщо замість цього ми можемо знайти більш принциповий метод розширення CNN, щоб отримати кращу точність і ефективність?

Кредит на зображення: Google
Кредит на зображення: Google

Інженер Google Mingxing Tan пояснює нову розробку:

На відміну від звичайних підходів, які довільно масштабують мережеві розміри, такі як ширина, глибина і дозвіл, наш метод рівномірно масштабує кожне вимірювання за допомогою фіксованого набору коефіцієнтів масштабування. Працюючи на цьому новому методі масштабування і нещодавній прогрес в AutoML, ми розробили сімейство моделей, які називаються EfficientNets, які перевершують [sic] сучасну точність до 10 разів краще (менше і швидше).

Ці мережі добре підходять для таких завдань, як класифікація зображень і розпізнавання осіб, які надають переваги для високих сценаріїв використання, а також використання більш точних і ефективних моделей в мобільних технологіях. Як і більшість AI такого роду, EfficientNet використовує попередньо навчені CNN (згорткові нейронні мережі), призначені для виконання завдань, пов'язаних із зображенням, як базової мережі. Ці базові мережі можуть навчатися з ряду більш узагальнених візуальних наборів даних, щоб забезпечити більш швидке створення більш конкретних моделей з обмеженими навчальними даними.

Незважаючи на те, що стандартний процес довільного масштабування все ще дає функціональні результати, EfficientNet спочатку проводить пошук в мережі базової мережі для визначення взаємозв'язків між різними розмірами масштабування мережі (наприклад, шириною і висотою), враховуючи розмір моделі та доступні обчислювальні ресурси. Потім EfficientNet масштабує базову мережу на основі цієї оцінки. Результати первинного тестування в більшості випадків свідчать про більш високий рівень точності та швидкості.

Кредит на зображення: Google
Кредит на зображення: Google

EfficientNet також виступала виключно добре з більш ніж половиною з восьми найбільш часто використовуваних наборів даних зображень, таких як CIFAR-100 (91,7%) і Flowers (98,8%). Оскільки цей новий метод може значно покращити завдання комп'ютерного зору, Google має відкритий EfficientNet з доступом через GitHub.

Враховуючи, що моделі розпізнавання зображень мають певну репутацію для створення дивних помилок, EfficientNet може допомогти пом'якшити цю проблему, оскільки розробники AI використовують останні зусилля Google.