Экономика больших массивов
Как заложить фундамент доверия в экономике данных
Объем генерируемых данных в мире растет, но количество не переходит в качество автоматически. Ценность внутренних данных компаний уже почти исчерпана, а качественные массивы для обучения искусственного интеллекта в дефиците. Ключ к новому рывку — обмен данными. Мировая практика показывает, что государство может выступать в двух ролях: арбитра, то есть того, кто устанавливает правила, кому, какими данными и как обмениваться; фасилитатора — того, кто стимулирует участников рынка к обмену. Россия пока тяготеет к первой модели.
Каждый день в мире генерируется порядка 400 млн терабайт данных. В 2025 году объем сгенерированных данных достиг 181 зеттабайта, а уже в текущем году может превысить 200 зеттабайт (1 зеттабайт = 1 млрд терабайт).
Объем сгенерированных данных в мире растет
Главные на сегодняшний день драйверы роста объема данных — сгенерированный искусственным интеллектом (ИИ) контент (тексты, изображения, видео, код и так далее), пользовательские данные на цифровых платформах и корпоративные данные, которые компании собирают о самих себе и своем бизнесе. Казалось бы, для экономики данных наступает золотой век. Но это не совсем так. Потенциал применения накапливаемых массивов имеет пределы.
Для обучения ИИ требуется прежде всего качественный текст, созданный человеком. Его объем в публичном доступе оценивается примерно в 300 трлн токенов (технических единиц данных). Этот ресурс может быть исчерпан уже в 2026– 2032 годах. Синтетических данных становится больше. В конце 2024 — начале 2025 годов объем текстового ИИ-контента в интернете превысил объем контента, созданного человеком. Однако такие данные пока способны лишь дополнять, но не заменять реальные обучающие корпуса.
Сведения о покупках, просмотрах, предпочтениях и других аспектах поведения пользователей, которые цифровые платформы собирают через свои интерфейсы, помогают повысить точность рекомендательных систем, настроить таргетированную рекламу и персонализировать сервис. Развлекательные площадки — видео, игры и социальные медиа — остаются основным драйвером роста интернет-трафика (97% мирового объема) и первичным каналом сбора пользовательских данных. Но потенциал монетизации этих данных имеет пределы. По мере того как платформенные бигтехи накапливают данные, каждая новая единица информации о пользователе приносит все меньший прирост в качестве продукта. Дата-аналитика на корпоративных данных позволяет компаниям оптимизировать бизнес-процессы, улучшать управленческие практики и в конечном итоге снижать операционные издержки. В последние годы этому дополнительно способствует активное масштабирование интернета вещей.
В 2026 году число активных IoT-соединений превысит отметку в 20 млрд. Однако в отношении этих данных действует та же логика убывающей полезности. Опора исключительно на собственные данные ведет к «стерилизации» выводов, предельная выгода от извлечения инсайтов сокращается, а потенциал дальнейшей экономии от каждого нового байта данных постепенно исчерпывается.
