Інженер-Cервіс
» Новини
Новини
Майже 30 років ми використовуємо схожі методи компресії відео. І наступна зміна має бути революційною. Про зміну парадигми міркує Девід Шептон.
Вважаю, час змін настав. Парадигма — це слово використовують доволі часто, інколи навіть необачливо, але це саме те, що зараз потребує змін. Я не хочу бути невдячним, в рамках нинішньої парадигми кодеки виконують дуже добру та важливу роботу. Однак, я хочу дивитися 8K відео по моїй телефонній лінії. І це буде значним досягненням. Це взагалі не має бути можливим, і не було б без купи пов’язаних технологій, які шар за шаром привели нас до швидкого широкосмугового зв’язку та чудового зображення.
Тож, чому саме зараз мають настати зміни? Як на мене тут є щонайменше дві причини. По-перше, існуюча парадигма кодеків базується на математиці, яка оперує пікселями. Пікселі взагалі штучна річ в нашому світі, в нашому мозку або навіть в когнітивних методах. По-друге, кодеки взагалі нічого не знають про те, що саме вони компресують. Для вас це дивно? Я поясню.
Тупі кодеки
Сучасні кодеки відокремлені від контенту, їм байдуже що кодувати: драматичний кліп в залу суду, або відео хірургічної процедури. Їх не хвилює ваш кліп про те як летить лебідь, або про боксерський поєдинок. Важливі лише пікселі. Є лише одна важлива для кодека річ у контенті, коли контент складно компресувати: це може бути зимовий ліс у люту завірюху, або конкур зі «складним» фоном. У першому випадку дуже багато випадковості (доволі складно відрізнити купу сніжинок від випадкового шуму), другий приклад більше про дуже швидку зміну фону і разом з ним постійні зміни інформаційного потоку. Але в кожному з цих прикладів, де складнощі виникають саме в залежності від контенту, відсутній зв’язок між кодеком та типом контенту.
Яким чином може допомогти штучний інтелект (АІ)? Почнемо з того, що АІ, разом зі своїм «родичем» машинним навчанням не будуть дуже простими для розуміння, але якщо розглянути декілька прикладів, буде легше визначити наскільки корисними вони можуть бути для нас.
Народження розумних кодеків
Наразі вже існують декілька кейсів використання АІ для роботи з відео в реальному часі. Нещодавно результати такої роботи показала Nvidia у програмному забезпеченні для відео-конференцій, в якому учасникам здається, ніби вони дивляться у камеру, навіть коли вони не дивляться. Зручна річ, щоб не привертати уваги.
Напевно вам вже відомі сервіси, де АІ може створити фотореалістичне зображення на основі того що ви кажете голосом. «Покажи мені пінгвіна, який будує квантовий комп’ютер», кажете ви, і отримаєте водного арктичного птаха, який проектує водопровід для Кубітів.
Пару років тому веб-сайт "thispersondoesnotexist.com" дозволяв майже миттєво створювати фотореалістичні зображення людей. Кожного разу при оновленні, ви бачили іншу «особу». Жодної з них не існує. Це лише результат добре тренованого АІ, який добре знає, як взагалі виглядають люди.
Нові інструменти, як наприклад Google Imagen роблять сцену ще більш реалістичною. Крок за кроком, технології розвиваються та дозволяють створювати зображення з все більшою розподільною здатністю. І я навіть не уявляю, якщо АІ вміє так добре створювати те, чого взагалі не існує, що станеться, коли ви попросите його зробити найкраще зображення з того, що ви йому зараз показуєте.
Стривай! Це взагалі має сенс? Звісно має. Для цього навіть є назва: ре-синтез.
Завдяки ресинтезу ви можете взяти те, що вже існує та перебудувати його з чистого листа, щоб нова річ була такою ж, як оригінал, або навіть більш якісною. АІ може опиратися на ті ж самі методи, як при створенні штучних зображень, та застосовувати їх до реальних. Тут виникає питання: навіщо? Відповідь в том, що АІ взагалі не «думає» пікселями. Натомість він опирається на потужні концептуальні шаблони. Чим більша деталізація шаблону — тим кращим буде результат, та все одно він створений не з пікселів. Мені здається, при належному тренуванні АІ елементами зовнішнього світу, або тим речам, які ми очікуємо будуть виглядати як реальні, АІ матиме змогу відтворювати існуючу сцену на основі свого «знання» того, якою має бути суть цієї сцени.
Кодек з AI взагалі не матиме розподільної здатності. Як Postscript він матиме змогу видавати контент у будь-якій якості. Швидкість кадрів —будь-яка. Ці переваги будуть значними та трансформативними. В цій сфері вже є декілька напрямків. Один з них Computational Optics. Нещодавно Sony зробила прогноз, що в 2024 році камери в смартфонах обійдуть за продуктивністю DSLR (або їх бездзеркальні еквіваленти). Це завдяки неймовірній обчислювальній спроможності напрямку Computational Optics. Але все частіше будуть застосовуватися рішення штучного інтелекту. І в якийсь момент, я навіть не впевнений що ми будемо називати це кодеком, ваше відео буде зберігатися як концепт на відміну від пікселів. І це буде найбільшою зміною з моменту появи цифрового відео.
« До списку новин
|