России предстоит нарастить добычу "цифрового золота" для нейросетей, - Анастасия Башкатова 08:32 30.11.2024
Один из сценариев уже предполагает вырождение искусственного интеллекта Анастасия Башкатова Заместитель заведующего отделом экономики "Независимой газеты" 28.11.24
Центрам обработки данных нужно как можно больше этих данных. Среди российских компаний, "пощупавших" технологии искусственного интеллекта (ИИ), только хорошо если каждая десятая использует весь их доступный на сегодняшний момент функционал, следует из обзора Высшей школы экономики. А для большей части компаний такие новации пока становятся в основном либо данью моде, либо экспериментом с неясным результатом. Среди преград на пути массового внедрения ИИ оказались высокие затраты, дефицит специалистов и компетенций, а также нехватка качественных данных для обучения самого ИИ. Исчерпаемость "цифрового золота" еще несколько лет назад казалась маргинальной темой. А теперь она стала одной из самых главных при обсуждении перспектив новейших технологий.
Институт статистических исследований и экономики знаний (ИСИЭЗ) Высшей школы экономики проанализировал разные практики применения отечественным бизнесом технологий ИИ. Анализ охватил более 2,3 тыс. организаций различных видов экономической деятельности.
В исследовании выделяется пять практик, или, иначе говоря, функций, которые сейчас можно делегировать искусственному интеллекту в разных бизнес-процессах. Это обработка визуальных данных, включая компьютерное зрение; обработка звуковых данных, включая распознавание и синтез речи; обработка текста; интеллектуальная поддержка принятия решений, управление с опорой на ИИ; повышение эффективности как самого ИИ, так и процессов, в которых он уже задействован.
Далее здесь приводятся результаты, касающиеся только тех компаний, которые уже сейчас можно назвать в определенной степени цифровыми "передовиками", потому что они уже начали внедрять в свою работу технологии ИИ. Насколько полноценно, эффективно и осознанно, другой вопрос. Но главное их отличие от других компаний в том, что они все-таки сделали шаг навстречу нейросетевому будущему.
Итак, среди цифровых "передовиков" большинство – около 45% обследованных организаций – внедряют технологии лишь какого-то одного из пяти перечисленных классов для выполнения какой-то одной отдельной функции. Технологии, позволяющие выполнять две из пяти функций, внедрили 20% компаний-передовиков, три из пяти – около 15% компаний-передовиков, четыре из пяти – чуть больше 11% таких организаций.
И лишь около 9% компаний – пользователей ИИ, как можно судить по исследованию, используют весь доступный на сегодняшний момент функционал, внедрив технологии для выполнения всех пяти обозначенных исследователями функций.
Что же мешает более активному и массовому внедрению ИИ в практику? Судя по обзору ИСИЭЗ, компании, использующие цифровые новации, привели длинный список преград. Прежде всего это высокие затраты на само внедрение – около 64% упоминаний.
На втором месте с долей ответов, достигающей почти 50%, оказался дефицит специалистов в области ИИ. Третье место с долей упоминаний каждого фактора, составляющей почти по 40%, делят такие варианты, как нехватка у существующих сотрудников навыков для разработки и применения ИИ, недостаточность массивов больших данных, необходимых для развития ИИ, сложность интеграции технологий ИИ в производственные и бизнес-процессы.
Некоторые ответы компаний, кстати, дублируют друг друга по смыслу: так, если смотреть весь список преград, то бизнес в разных формулировках вновь и вновь упоминает и проблему кадровой подготовки, и неполноту или ненадежность данных для обучения ИИ, и некоторые тонкости взаимодействия с законодательством с точки зрения доступа ко все тем же необходимым данным.
Как ранее писала "НГ", развитие искусственного интеллекта уже сейчас требует ответа на ключевой для выживания этой технологии вопрос: откуда брать энергию для ненасытных центров обработки данных и суперкомпьютеров? Особенно в условиях локальных дефицитов мощности, которые рискуют при увеличении нагрузок стать уже непокрываемыми (см. номер от 28.10.24).
Но если предположить, что вопрос с рубильником будет успешно решен или что, по крайней мере, в ближайшее время масштабный блэкаут все-таки не случится, тогда на первый план выходит другая проблема – добычи "цифрового золота".
Качественные, правильно отфильтрованные под конкретную задачу, очищенные от ошибок, искажений, защищенные от зловредных вмешательств и манипуляций (от инфицирования) извне, да и изнутри, не нарушающие чувствительные нормы законодательства данные – это и есть "новое золото", "цифровое золото", необходимое для обучения искусственного интеллекта, для выведения его на следующий уровень развития.
При кажущейся бесконечности информационных потоков в интернете и при опять-таки кажущейся неисчерпаемости тех знаний, которые аккумулированы во всех библиотеках мира (бери да оцифровывай), не все данные реально могут быть использованы с учетом поставленных задач и выбранных критериев отбора. Более того, как выяснилось, этот ресурс как раз стремительно исчерпаемый.
По некоторым экспертным прогнозам, вскоре грянет проблема острого дефицита массивов данных, на которых можно обучать ИИ. И эта проблема актуальна как в глобальном масштабе, так и в масштабе отдельно взятых экономик или даже предприятий.
"Успех внедрения генеративного ИИ в отдельно взятой компании зависит именно от качества и полноты данных, причем эффективность внедрения тем выше, чем больше внутренней информации используется", – привел "НГ" пример директор по продажам и развитию продуктов ИИ в группе компаний "DатаРу" Владислав Ганюшин.
Один из вариантов развития событий предполагает, что вскоре ИИ начнет обучаться уже на синтетических данных – на том "контенте", который был произведен не самим человеком, а другими нейросетями предыдущих, менее продвинутых версий.
И в процессе такого обучения одни ошибки и зашумления будут накладываться на другие – новые на старые, что, по некоторым предположениям, в итоге приведет к деградации и даже "вырождению" искусственного интеллекта, как это происходит, например, в некоторых поселениях, где распространены браки среди близких родственников.
О таких рисках специалисты заявляли не вчера, а в течение последних нескольких лет, но только сейчас подобные опасения попали в поле зрения общественности и того бизнеса, который теперь стал очень заинтересован в развитии новых технологий.
"Учитывая прогнозы экспертов о том, что объем сгенерированного искусственным интеллектом интернет-контента к 2030 году будет достигать 99%, описанные риски "коллапса модели" выглядят оправданными", – пояснил "НГ" руководитель практики "Машинное обучение" компании Axenix Алексей Сергеев. Но все же только для такого варианта будущего, в котором ИИ становится способен самообучаться, как ему "вздумается", не разбираясь в том, какую информацию он поглощает.
|