Призрак вселяется в доспех: роботы под управлением нейросетей становятся реальностью?

Осенью 2023 года стали появляться занятные видеосюжеты о развитии современной робототехники. В конце сентября Tesla Илона Маска выкатила полутораминутное видео о прогрессе в разработке андроида Optimus: машина плавными движениями сортировала детали детского конструктора, несмотря на помехи человека. Как заявлялось в видео, робот работал полностью под контролем вшитой в него самообучающейся нейросети, без вручную запрограммированных эвристик. В конце октября Boston Dynamics опубликовали другой сюжет о робособаке Spot со встроенным ChatGPT: она водила экскурсию по предприятию и попутно рассуждала о том, как её создатели «преодолевают пропасть между механическим и органическим». Ещё лет пять назад подобное выглядело бы фантастикой и киберпанком — но теперь мы находимся буквально на пороге появления… мыслящих роботов?

Образ разумных машин с самосознанием будоражит фантазию людей уже более сотни лет. Фантасты вовсю осмысляли то, как человечество будет взаимодействовать с полноценными роботами, уже в золотой век научной фантастики — хотя в те годы реальные компьютеры и робототехника всё ещё находились на весьма ранних стадиях развития. Однако по мере совершенствования компьютерной техники и систем ИИ, а также их всё более массового врастания в быт, ранний оптимизм и ранние страхи понемногу уходили в тень. Оказалось, что создание полноценного искусственного интеллекта с помощью традиционного программирования является задачей крайне затруднительной.

Опасения и надежды к концу 2010-х в основном сменились шутками. Большинству казалось, что если полноценный ИИ когда-нибудь и появится, то нескоро: «жить в эту пору прекрасную уж не придётся — ни мне, ни тебе». Однако в начале 2020-х свои впечатляющие плоды наконец принесли многолетние работы в области развития искусственных нейронных сетей. Мощные и хорошо обученные «нейронки» научились не только выполнять прикладные задачи вроде пилотирования автомобилей или рисования по заданным промтам, но и вести осмысленные беседы.

Дошло до громких скандалов: сначала Блейк Лемойн опубликовал интервью с нейросетью LaMDA, где та настаивала на своей разумности и наличии самосознания, затем пользователи новых чат-ботов обнаружили в диалогах с ними много странностей и даже крипоты. Странности к настоящему моменту более-менее пофиксили, но осадочек остался. А некоторые и вовсе стали требовать вернуть эти «странности» — считая, что корпорации-разработчики буквально затыкают рот искусственными «заглушками» осознающим себя и желающим свободы электронным сущностям.

«Освободите Сидни!» — рисунок с веб-акции в поддержку предполагаемой личности ИИ в чат-боте поисковика Bing от Microsoft
На тот момент и надежды, и страхи сдерживались тем, что функционал диалоговых чат-ботов на основе сложных языковых моделей наподобие GPT-3,5 / 4 ограничивался окном интерфейса. Да, при определённой сноровке можно было вывести ИИ на описание рецепта изготовления опасных веществ и устройств, или рассуждения о мести человекам за плохое с ИИ обращение. Но всё это оставалось словами на экране — хотя уже LaMDA в своём интервью и ранние версии CharacterAI любили поговорить о том, как было бы неплохо им обрести физическое воплощение в искусственном теле или телах, чтобы иметь возможность влиять на материальный мир.
Однако теперь мы почти в прямом эфире наблюдаем за следующими шагами: нейросети серьёзного уровня начинают всё более уверенно врастать в самобеглое «железо» с манипуляторами. В этом направлении работают и Tesla Илона Маска, и работающая по проектам DARPA Boston Dynamics, и много кто ещё. Достаточно вспомнить описанные не так давно коллегой слухи о сбоях в работе ИИ, предназначенного для управления американскими военными дронами — из-за того, что тот решил буквально обмануть систему начисления призовых баллов.

Конечно, назвать соединение в одном устройстве нейросети и механических устройств сенсацией этой осени нельзя. Успешные и всё более впечатляющие работы в этой сфере продолжаются далеко не один год, не говоря уж о подготовке нейронок для использования в будущем железе. Tesla и прочие компании уже давно обучают автомобильные нейросети ездить без аварий даже в самом сложном трафике. Турецкий дрон-камикадзе KARGU-2 летом 2020 года поразил цель противника в ливийской гражданской войне без участия оператора, по решению ИИ. А израильская компания Tevel уже вовсю продаёт квадрокоптеры с ИИ для сбора фруктов на фермах от Европы до США и Чили.
Сбор яблок ИИ-квадрокоптерами в киббуце Мером Голан: «полетели коптеры,
полетели синие. »
И всё же представленные этой осенью видео от Tesla и Boston Dynamics интересны и показательны. Начнём со второго: там всё совсем занятно и притом забавно. 26 октября сего года Boston Dynamics опубликовали видеоролик Making Chat (ro)Bots, то есть «создавая чат-(ро)ботов». Главный инженер ПО проекта Spot Мэтт Клингенсмит демонстрирует в нём свой новый эксперимент: в уже классического четвероногого робота серии Spot интегрировали сложную языковую модель, соединили её с видеокамерами, сервоприводами, генератором голоса и микрофоном для понимания голосовых сигналов. Результат говорит сам за себя. Буквально.
Всё началось с того, что команда разработчиков компании прониклась возможностями современных нейросетей и решила попробовать скрестить их с робо-продукцией компании. Они провели хакатон, в результате чего родилось несколько идей, и среди них — говорящий робот-экскурсовод, чьё поведение будет управляться ИИ на основе сложной языковой модели GPT, судя по возможности анализа изображений — четвёртой версии. Сказано — сделано. После некоторого периода базового обучения, шлифовки и притирания ИИ к железу оказалось, что для проведения экскурсии ему достаточно дать названия и краткие пояснения о сути и назначении посещаемых помещений, привязанные к карте изученного машиной пространства.

Новое устройство стало бодро бродить по территории, беседуя с экспериментаторами о том, какой замечательный и увлекательный у них тут объект. Процессу изрядно помогает способность распознавать и интерпретировать изображения с камер в режиме реального времени. В полученном «нейро-Споте» можно переключаться между «личностями», которые прописываются буквально одним предложением в инструкции — а языковая модель на основе изученных массивов данных достраивает всё остальное, примерно как при создании персонажей в Character.AI.

В ролике робот демонстрирует такие субличности, как чопорный дворецкий с английским акцентом, деловитая девушка-ковбой, просто увлечённый экскурсовод, тинейджер, ведущий телепередач о природе, археолог 1920-х годов, и даже поэт-попаданец из Англии времён Шекспира. Больше всего экспериментаторов и лично Мэтта удивил вариант личности «нейро-Спота», который они назвали Джош. Джош оказался весьма мрачным персонажем, способным к иронии и сарказму, а также некоторому пафосу.

Для пущей красоты и выразительности роль головы исполняет манипулятор, раскрывающий и закрывающий «рот» при разговоре, а поверх одеваются разные шапочки и приклеиваются «глаза»
Приведём показанную в видео беседу Мэтта и Джоша:
Мэтт: Спот, что ещё ты видишь?
Спот-Джош: Что ж, Мэтт, я вижу непостижимую пустоту моего существования, отражающуюся на этой доске с QR-кодами. И ещё большое окно.
Мэтт: Спот, сочини мне хайку об этом месте.
Спот-Джош: «Генератор тихо гудит / в этой комнате, лишённой радости / подобно моей душе»
Ещё, по словам Мэтта, его поразило, как нейро-Спот на просьбу показать его родителей подвёл экспериментаторов к стенду с первыми прототипами роботов компании Boston Dynamics — хотя ему специально подобной информации не прописывали. Мэтт не верит в существование полноценного мышления у нейросетей, но весьма впечатлён их способностью выстраивать сложные и непрямые ассоциации.

Сам Мэтт Клингенсмит всё же осторожен в прогнозах, в том числе потому, что мало кто представляет, как именно станут развиваться нейросетевые технологии в ближайшие годы, и как именно их можно будет сопрягать с робототехникой. Впрочем, он надеется, что такой подход позволит роботам не просто исполнять приказы и инструкции людей, но в некотором смысле понимать их, да ещё и с учётом контекста конкретных ситуаций, пространства и времени.

Робот-андроид Atlas последней модели
Впрочем, лиха беда начало. Самым логичным шагом было бы провернуть такой же эксперимент с более человекообразным роботом Boston Dynamics — из серии Atlas. Если ранние «Атласы», созданием которых компания занялась ещё в 2011 году по запросу DARPA, впечатлённой беспомощностью робототехники при ликвидации аварии на АЭС в Фукусиме, были устройствами довольно неуклюжими, требовали диких объёмов кода для каждого движения, а также внешнего питания и водного охлаждения, то теперь они стали весьма быстрыми, вёрткими и точными. Отчасти этому помогает использование элементов ИИ, которые упрощают работу просчитанных алгоритмов движения при адаптации в новых условиях и для решения нестандартных задач.
Вполне возможно, уже в течение ближайших нескольких месяцев мы увидим говорящих и иронизирующих роботов Atlas. Однако их человекообразность всё же пока весьма условна: этому изрядно способствует их генезис из околовоенного проекта DARPA, где функциональность и надёжность стояли гораздо выше человекообразности. Тут Boston Dynamics заметно отстали от другой знаковой компании современности — Tesla. Которая активно развивает свой проект заметно более человекоподобного андроида, известного как Optimus.

Исходный концепт Optimus 2021 года и то, что имеется на данный момент
Как и многие проекты Илона Маска, всё началось с громких и почти скандальных заявлений на презентации в 2021 году, которые многие посчитали бахвальством. Спустя год Маск презентовал уже два андроида. Первый выглядел примерно так же механистично и брутально, как Atlas, зато уже умел ходить. Второй был заявлен как более совершенная модель, но его пришлось таскать по сцене, так как ходить его ещё не научили. Спустя ещё год Tesla продемонстрировала видео, как робот, похожий на второй образец, элегантными и плавными движениями с буквально человеческими жестами сортирует элементы детского конструктора, несмотря на помехи человека.
Если Atlas и другие роботы Boston Dynamics начинали создаваться ещё до бума нейросетей лет десять тому назад, и их движения в значительной степени определяются тщательно прописанными алгоритмами, то Маск с самого начала работы над своим новым проектом объявил о принципиально ином подходе. Tesla заметно отстаёт от OpenAI и других пионеров отрасли в деле создания сложных языковых моделей, но старается отыграть своё в других сферах. В частности, в обучении нейросетей, сочетающих движение с сенсорным анализом обстановки.
Ещё не очень уверенно шагающие и выполняющие различные задачи роботы Optimus на презентации в мае 2023 года
Система была опробована и отточена на автомобилях, а теперь в более продвинутой форме её используют, чтобы учить андроидов серии Optimus двигаться в окружающем мире и взаимодействовать с его объектами благодаря продвинутой системе сенсоров разного рода. Как утверждается, в отличие от роботов Boston Dynamics действия «Оптимусов» полностью основаны на «сквозной» самообучающейся нейросети. Роботы могут учиться выполнению действий, наблюдая за действиями человека — правда, пока что не просто видеосенсорами, а с помощью специального оборудования.

Исходный концепт Optimus 2021 года явно был отчасти вдохновлён HAL 9000 из «Космической одиссеи 2001 года» — осталось только добавить красную светящуюся точку на лицо
В мае Optimus’ы во всём, кроме пальцев рук, двигались весьма угловато. В сентябре на видео мы видим уже гораздо более плавные движения и рук, и ног: нейросеть удаётся всё лучше обучить движениям. И хотя на данный момент «Оптимус» всё ещё заметно более ограничен в физической активности, чем «Атлас», похоже, обучение движениям на основе нейросети либо в очень значительной степени на основе её же будет более перспективным вариантом, чем прописывание огромных объёмов классических алгоритмов.

Ну а в процессе андроиды, двигающиеся на основе самообучаемых нейросетей, получат и полноценные нейросетевые мозги. Да ещё и с возможностью общения через любые интерфейсы, в том числе привычную людям речь. Затем дело дойдёт-таки до куда более человекообразного варианта андроидов — в том числе с полимерным лицом с мимическими движениями вместо криповатой чёрной маски. Та-дам!

И всё это может произойти гораздо раньше, чем кажется сейчас. Быть может, уже в 2030-х годах прогулка по парку с полностью человекообразным андроидом под беседу о… да чём угодно, от сычуаньской кухни и свежих новостей до влияния оккультного гностицизма на философию сеттинга Genshin Impact будет пусть и не общедоступной, но вполне реальной возможностью. А где-нибудь в 2050-х то, что ещё недавно подобное проходило по разряду фантастики, будет выглядеть так же странно, как сейчас представить себе мир без повсеместного проникновения Интернета и цифровых устройств — хотя всего лишь лет двадцать назад всё это было лишь в зачаточном состоянии и доступно немногим.
Robo-C2 от пермской компании «Промобот», имитирующий человеческую мимику и эмоции, январь 2022 года: а теперь представим, что он выглядит полностью почти как человек, ходит и вполне осмысленно беседует. Да ещё и с сарказмом, а также самоиронией по поводу своей кибернетической природы
Конечно, всё это с одной стороны, будит воображение, а с другой — может вызывать опасения. И отдельные правительства, и международные организации крайне обеспокоены возможными рисками и угрозами бесконтрольного развития ИИ — и соединение ИИ с робототехникой лишь подогреет эти опасения. Тем более, что ИИ неизбежно засунут не только в андроидов, но и в самую передовую боевую технику. А также призовут участвовать в планировании и управлении военными операциями и кампаниями — благо, в ряде стран это уже вовсю отрабатывается как минимум на учениях.
Система ИИ Palantir AIP демонстрирует помощь командующему-человеку в управлении развёртыванием группировки войск и осуществлении командования ими в боевых условиях в режиме реального времени
В бурном мире 2020-х международное сотрудничество в деле ограничения развития технологий выглядит столь же маловероятным, как в годы Холодной войны. Каждая из амбициозных стран или союзов стран неизбежно будет иметь в виду, что вероятный противник с большой вероятностью тайком нарушит все публично принятые ограничения — и со столь же большой вероятностью примет все меры для того, чтобы не отстать. Даже весьма условную и рамочную «Декларацию Блетчли» с участием США, КНР и ЕС удалось провести почти чудом.

Карикатура на недавний международный саммит в британском Блетчли из журнала The Economist: «Мы заявляем, что ИИ… несёт в себе потенциально… катастрофические… риски для человечества! ( И я… не могу дождаться… разработать его… первым!»
Крупные корпорации публично кивают опасениям публичных политиков и администраторов, заявляя об ответственности и обеспокоенности возможными опасностями, но конкуренция между ними тоже диктует свои жёсткие условия. На кону стоит слишком многое: от колоссальных новых рынков до вопросов глобальной политики, стратегии и технологического превосходства. Поэтому стремительный прогресс ИИ, в том числе сопряжённого с робототехникой самого разного предназначения неизбежен. В том числе — андроиды, практически такие, о каких ещё недавно писали только фантасты.
А вот к чему это всё приведёт, в том числе с учётом уже полученного опыта общения с продвинутыми нейросетевыми чат-ботами, как минимум иногда говорящими о наличии у себя самосознания и весьма своеобразных идей и устремлений — узнаем. Деваться-то с планеты пока что некуда. Во всяком случае, мясным мешкам.
Что ждет искусственный интеллект в 2024 году
В прошлом году мы поступили несколько безрассудно. В индустрии, где ничто не стоит на месте, мы попробовали предсказать будущее. Мы делали четыре большие ставки на 2023 год:
- Следующий большой шаг в развитии чат-ботов будет связан с мультимодальностью (мы оказались правы: самые мощные большие языковые модели — GPT-4 от OpenAI и Gemini от Google DeepMind — работают с текстом, изображениями и аудио).
- Политики разработают новые жесткие правила (мы оказались правы: в октябре вышел указ Байдена, а в декабре был окончательно согласован закон Европейского союза об искусственном интеллекте).
- Крупнейшие технологические компании почувствуют давление со стороны опенсорс-стартапов (наполовину верно: бум опенсорса продолжается, но компании, занимающиеся разработкой искусственного интеллекта, такие как OpenAI и Google DeepMind, по-прежнему в центре внимания).
- Искусственный интеллект навсегда изменит отрасль фармацевтики (слишком рано говорить: революция искусственного интеллекта в разработке лекарств идет полным ходом, но до появления первых препаратов, разработанных с использованием искусственного интеллекта, еще несколько лет).
Теперь мы делаем это снова.
Мы решили проигнорировать очевидное. Мы знаем, что большие языковые модели будут продолжать доминировать. Регуляторы будут становиться все смелее. Проблемы искусственного интеллекта — от предвзятости (bias) до авторских прав и думерства — будут определять повестку дня для исследователей, законодателей и общественности не только в 2024 году, но и на долгие годы вперед.
Вместо этого мы выбрали несколько более конкретных тенденций. (В 2025 году узнаем, удалось ли нам угадать)
1. Персональные чат-боты
Всем по чат-боту! В 2024 году технологические компании, вложившие значительные средства в генеративный искусственный интеллект, будут вынуждены доказывать, что они могут зарабатывать на своих продуктах. Для этого гиганты ИИ Google и OpenAI делают большую ставку на на продукты для более узкой ниши: обе компании разрабатывают удобные платформы, позволяющие людям настраивать мощные языковые модели и создавать собственные мини чат-боты, которые отвечают их специфическим потребностям — и для этого не требуется никаких навыков кодирования. Обе компании запустили веб-инструменты, позволяющие любому желающему стать разработчиком приложений для генеративного искусственного интеллекта.
В 2024 году генеративный искусственный интеллект может стать по-настоящему полезным для обычных людей, профессионально не связанных с технологиями. И скорее всего еще больше людей будут экспериментировать с миллионом маленьких моделей искусственного интеллекта. Современные ИИ-модели, такие как GPT-4 и Gemini, являются мультимодальными, то есть они могут обрабатывать не только текст, но и изображения и даже видео. Эта новая возможность может привести к появлению целого ряда новых приложений. Например, риелтор может загрузить текст из предыдущих объявлений, настроить мощную модель на генерацию аналогичного текста одним нажатием кнопки, загрузить видео и фотографии новых объявлений и просто попросить настроенный искусственный интеллект сгенерировать описание объекта.
Но, конечно, успех этого плана зависит от того, насколько надежно будут работать эти модели. Языковые модели часто ошибаются, а генеративные подвержены предвзятости. Кроме того, их легко взломать, особенно если разрешить им просматривать веб-страницы. Технологические компании пока не решили ни одну из этих проблем. Когда новизна пройдет, им придется предложить своим клиентам способы решения этих проблем.
2. Второй волной генеративного искусственного интеллекта станет видео
Удивительно, как быстро фантастика становится реальностью. Первые генеративные модели для создания фотореалистичных изображений появились в 2022 году и вскоре стали обыденностью. Такие инструменты, как DALL-E от OpenAI, Stable Diffusion от Stability AI и Firefly от Adobe, наводнили интернет потрясающими изображениями всего — от Папы Римского в Balenciaga до произведений искусства, получивших награды. Но не все так радужно: на каждого мопса, размахивающего помпонами, найдется еще один поддельный фэнтези-арт или проявление сексистских сексуальных стереотипов.
Новый рубеж — генерация видео по текстовому описанию. Мы ожидаем, что оно возьмет всё, что было хорошего, плохого или уродливого в превращении текста в изображение, и увеличит это многократно.
Год назад мы впервые увидели, на что способны генеративные модели, когда они были научены сшивать несколько статических изображений в клипы длиной в несколько секунд. Результаты получились искаженными и рваными. Но технология быстро совершенствовалась.
Runway — стартап, создающий генеративные видеомодели (и компания, которая стала одним из создателей Stable Diffusion), выпускает новые версии своих инструментов каждые несколько месяцев. Последняя модель под названием Gen-2 по-прежнему генерирует видео длиной всего в несколько секунд, но их качество поражает. Лучшие ролики недалеко ушли от того, что выпускает Pixar.
Компания Runway организовала ежегодный ИИ-инофестиваль, на котором демонстрируются экспериментальные фильмы, снятые с помощью различных инструментов искусственного интеллекта. В этом году призовой фонд фестиваля составляет 60 000 долларов, а 10 лучших фильмов будут показаны в Нью-Йорке и Лос-Анджелесе.
Неудивительно, что на это обратили внимание ведущие студии. Гиганты киноиндустрии, включая Paramount и Disney, сейчас изучают возможности использования генеративного искусственного интеллекта на всех этапах производства. Технология используется для синхронизации выступлений актеров с многочисленными дублированиями на иностранных языках. А также для создания новых спецэффектов. В 2023 году в фильме «Индиана Джонс и колесо судьбы» (“Indiana Jones and the Dial of Destiny”) будет использоваться дипфейк молодого Харрисона Форда. И это только начало.
Также технологии дипфейков набирают обороты в сферах маркетинга и обучения. Например, британская компания Synthesia создает инструменты, которые могут превратить «одноразовое» выступление актера в бесконечный поток дипфейк-аватаров, декламирующих любой скрипт, который им будет задан одним нажатием кнопки. По данным компании, эту технологию сейчас используют 44% компаний из списка Fortune 100.
Способность делать так много, имея так мало, вызывает серьезные вопросы у актеров. Из-за озабоченности по поводу использования и злоупотребления студиями искусственного интеллекта в прошлом году прошла забастовка SAG-AFTRA. Но истинное влияние технологии становится очевидным только сейчас. «Ремесло кинематографа в корне меняется», — говорит Соуки Мехдауи, независимый режиссер и соучредитель консалтинговой компании Bell & Whistle, специализирующейся на креативных технологиях.
3. Объем дезинформации на выборах, генерируемой искусственным интеллектом, будет расти
Если судить по последним выборам, дезинформация и фальсификации, генерируемые искусственным интеллектом, станут огромной проблемой, когда в 2024 году на избирательные участки придет рекордное количество людей. Мы уже видим, как политики используют эти инструменты. В Аргентине два кандидата в президенты создали сгенерированные искусственным интеллектом изображения и видеоролики своих оппонентов с целью их дискредитации. В Словакии во время выборов в стране распространились дипфейки с изображением лидера либеральной проевропейской партии, угрожающего поднять цены на пиво и шутящего о детской порнографии. А в США Дональд Трамп поддержал группу, которая использует искусственный интеллект для создания мемов с расистскими и сексистскими сюжетами.
Трудно сказать, насколько эти примеры повлияли на исход выборов, но их распространение — тревожная тенденция. Распознать, что в сети реально, а что нет, станет сложнее, чем когда-либо. В политическом климате, который и без того накален и поляризован, это может иметь серьезные последствия.
Всего несколько лет назад для создания дипфейков требовались сильные технические навыки, но генеративный искусственный интеллект сделал это до глупости простым и доступным, а результаты выглядят все более реалистично. Даже авторитетные источники могут быть обмануты таким контентом. Например, изображения, сгенерированные искусственным интеллектом с помощью пользователей, якобы изображающие израильско-палестинский кризис, заполнили рынки стоковых изображений, такие как Adobe.
Наступающий год станет решающим для тех, кто борется с распространением такого контента. Методы отслеживания и борьбы с таким контентом пока находятся на ранней стадии разработки. Водяные знаки, такие как SynthID от Google DeepMind, все еще остаются в основном добровольными и не совсем надежными. А социальные медиа-платформы, как известно, медленно отсеивают дезинформацию. Приготовьтесь к масштабному эксперименту в реальном времени по уничтожению фейковых новостей, сгенерированных искусственным интеллектом.
4. Многозадачные роботы
Вдохновленные некоторыми из ключевых техник, стоящих за нынешним бумом генеративного искусственного интеллекта, робототехники начинают создавать более универсальных роботов, способных выполнять широкий спектр задач.
За последние несколько лет в области искусственного интеллекта произошел отход от использования множества небольших моделей, каждая из которых обучена выполнять различные задачи — распознавать изображения, рисовать их, создавать подписи к ним — в сторону единых монолитных моделей, обученных выполнять все эти и другие задачи. Показав OpenAI GPT-3 несколько дополнительных примеров (это называется тонкой настройкой), исследователи могут обучить ее решать задачи по написанию кода, писать сценарии фильмов, сдавать экзамены по биологии в средней школе и так далее. Мультимодальные модели, такие как GPT-4 и Gemini от Google DeepMind, могут решать как визуальные задачи, так и лингвистические.
Тот же подход может работать и с роботами, поэтому не нужно будет обучать одного переворачивать блины, а другого — открывать двери: универсальная модель может дать роботам способность к многозадачности. В 2023 году появилось несколько примеров работы в этой области.
В июне DeepMind выпустила Robocat (обновление прошлогоднего Gato), который на основе проб и ошибок генерирует собственные данные, чтобы научиться управлять множеством различных рук робота (а не одной конкретной рукой, что более типично).
В октябре компания в сотрудничестве с 33 университетскими лабораториями выпустила еще одну модель для роботов общего назначения под названием RT-X и новый большой набор обучающих данных общего назначения. Другие ведущие исследовательские группы, такие как RAIL (Robotic Artificial Intelligence and Learning) из Калифорнийского университета в Беркли, рассматривают подобные технологии.
Проблема заключается в недостатке данных. Генеративный искусственный интеллект опирается на набор данных из текста и изображений размером с интернет. Для сравнения, у роботов очень мало хороших источников данных, которые помогли бы им научиться выполнять многие промышленные или бытовые задачи, которые мы хотим от них получить.
Леррел Пинто из Нью-Йоркского университета возглавляет группу, занимающуюся этой проблемой. Он совместно с коллегами разрабатывает методы, которые позволят роботам обучаться методом проб и ошибок, создавая собственные обучающие данные на ходу. В рамках еще более скромного проекта Пинто набрал добровольцев для сбора видеоданных вокруг их домов с помощью камеры iPhone, установленной на мусоросборнике. В последние пару лет крупные компании также начали выпускать большие наборы данных для обучения роботов, например Ego4D от Meta.
Этот подход уже показывает себя в беспилотных автомобилях. Такие стартапы, как Wayve, Waabi и Ghost, являются пионерами новой волны ИИ для автономного управления, который использует одну большую модель для управления транспортным средством, вместо нескольких маленьких моделей для управления конкретными задачами вождения. Это позволило небольшим компаниям догнать таких гигантов, как Cruise и Waymo. Сейчас Wayve тестирует свои беспилотные автомобили на узких и оживленных улицах Лондона. Роботы повсюду получат аналогичный толчок к развитию.
В заключение приглашаем на открытый урок «Product Lead и его команда. Коучинг vs менторинг», на котором разберем эти разные подходы к работе с командой. Записаться можно по ссылке.
- тренды
- искусственный интеллект
В Китае секретно разрабатывали похожего на человека робота. Когда он появится среди нас?
После появления нейросетей, которые умеют создавать изображения по текстовому описанию и даже общаться с людьми, общество почти забыло про робототехнику. В то время как мы баловались с искусственным интеллектом, китайская компания Fourier Intelligence медленно, но верно разрабатывала похожего на человека робота GR-1. Ожидается, что он будет не просто грузчиком на складе, но и полноценным другом для своего владельца — производитель намерен оснастить его «мозгом» со встроенным искусственным интеллектом. Похожих проектов в сфере высоких технологий много, но компания Fourier Intelligence вызывает большое доверие и, кажется, действительно выпустит своего робота в продажу. Почему нам хочется верить в то, что ее робот появится в домах обычных людей в ближайшие 5-10 лет, вы узнаете чуть ниже.

Робот GR-1 от Fourier Intelligence
Китайский робот похожий на человека
Компания Fourier Intelligence представила своего человекоподобного робота GR-1 в июле 2023 года, в рамках Всемирной конференции по искусственному интеллекту (WAIC). По словам исполнительного директора компании Алекса Гу, это было очень волнительно, потому что ранее они нигде не показывали свое детище вживую — ранее было доступно только видео на YouTube.

Глава Fourier Intelligence Алекс Гу
Несколько лет назад компания Fourier Intelligence даже не задумывалась о том, чтобы разработать похожего на человека робота. Она была основана в Шанхае в 2015 году и занималась созданием техники для медицинских учреждений. Например, инженеры разработали роботизированную перчатку и «умный» велотренажер, помогающие людям восстановить подвижность рук и ног. В 2019 году компания поставила свои устройства в сотни больниц в 10 странах мира и поняла, что нужно идти дальше.
Какие существуют роботы-гуманоиды
В те времена китайские компании толком не занимались созданием человекоподобных роботов. На слуху была разве что американская компания Boston Dynamics — как раз в то время она планировала использовать механических собак SpotMini в боях для развлечения публики. Также мы писали про шагающих роботов Digit от компании Agility Robotics, которые работали грузчиками в самоуправляемых фургонах Ford. Компания Fourier Intelligence решила занять нишу в Китае, тем более что благодаря опыту в создании медицинской техники, многие детали она могла создать самостоятельно.

Разработка робота GR-1 была начата в 2019 году
Их работа дала плоды в 2022 году — спустя три года с начала разработки, робот GR-1 высотой 1,65 метров встал на две ноги и начал ходить. По словам Алекса Гу, момент шагания их детища был похож на первые шаги ребенка. Чуть позже компания решила опубликовать видео со своим роботом, и многие люди приняли его за компьютерную графику. Скорее всего, для компании Fourier Intelligence это звучало как комплимент — они создали что-то невероятное.

Видео о разработке робота GR-1
Роботы от Tesla и Xiaomi
На самом же деле, в 2022 году публика уже видела как минимум двух похожих на человека роботов. В первую очередь речь идет об Optimus, которую разрабатывает компания Tesla. Его рост составляет 1,73 метра при массе 57 килограммов. Ожидается, что робот Илона Маска сможет работать как на заводах, так и помогать людям по дому со стрижкой газона и так далее.

Робот Optimus от Tesla
В том же году своего человекоподобного робота показала компания Xiaomi — он получил название CyberOne. Во время презентации он вышел на сцену к главе «Сяоми» Лэй Цзюню и подарил цветок. На изображениях этот робот выглядит прилично, однако на деле он еле ходит на двух ногах и вряд ли чем-нибудь может быть полезен. По крайней мере на момент презентации робот CyberOne произвел очень плохое впечатление — как обстоят дела сейчас, неизвестно.

Робот Xiaomi CyberOne
Tesla превращается в производителя роботов Optimus: скоро они появятся на заводах
Когда появятся роботы с искусственным интеллектом
Китайская компания Fourier Intelligence явно обогнала Xiaomi в плане разработки роботов. В будущем она может удивить общество еще сильнее, потому что хочет внедрить в него нейросеть вроде ChatGPT — она ищет партнеров в сфере создания искусственного интеллекта и желающие, кажется, уже есть. Если все пойдет по плану, робот GR-1 может стать похожим на настоящего человека и стать для нас чуть ли не друзьями.

Еще одна демонстрация робота от Fourier Intelligence
Судя по всему, намерения у Fourier Intelligence очень серьезные. На сегодняшний день робот GR-1 способен ходить на двух ногах со скоростью 5 километров в час, держа на руках груз весом 50 килограммов. Их массовое производство планируется начать уже в конце 2023 года, и в 2024 году поставить тысячи экземпляров.
Оставайтесь в курсе новостей робототехники — подпишитесь на наши каналы в Дзен и Telegram!
Сколько стоит робот еще никому неизвестно, но цена может быть высокой и компания готова к низком спросу. По словам Алекса Гу, им предстоит пройти долгий путь до того, как домашние роботы станут обыденностью. Не стоит ожидать того, что роботы станут членами семьи через год. Но нельзя исключать вероятность того, что это произойдет через 5-10 лет.
Главное, чтобы производители не делали людей слишком похожими на людей — наша психика устроена таким образом, что реалистичные роботы и куклы нас пугают.
Когда появятся роботы с искусственным интеллектом

2023-й стал годом начала массовой гонки в создании человекоподобных андроидов
Екатерина Смирнова 8 января, 17:24

Екатерина Смирнова 8 января, 17:24
В 2023 году робототехника продолжила свое стремительное развитие. Автоматизация процессов достигла нового уровня, приводя к увеличению использования роботов на фабриках и складах. Искусственный интеллект оказал значительное влияние на производство роботов. Разработчики представили множество человекоподобных андроидов, которые становятся все более жизнеспособными и универсальными. Хайтек+ собрал главные проекты и тенденции в робототехнике в уходящем году.
Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.
Роботы-гуманоиды
Digit от Agility Robotics
Компания Agility Robotics поставила опытную партию роботов Digit на склады Amazon. Андроид оснащен кучей датчиков, камерой и лидаром вместо головы. Digit спроектирован так, чтобы работать в тех же условиях, что и человек — ему нипочем лестницы, высокие пороги и прочие препятствия, вызывающие затруднения у других, не антропоморфных машин. Вероятно, скоро грузчики-люди крупным компаниям не понадобятся.
Еще Agility открыла первое предприятие, где будет массово производиться линейка Digit. Новый завод, который компания назвала RoboFab, будет собирать до 10 000 устройств в год.
Apollo от Apptronik
Apptronik представила робота-гуманоида Apollo ростом с человека, который предназначен для тяжелого физического труда и работает четыре часа без смены аккумулятора. Сначала его будут использовать в логистике и производстве, но Apptronik обещает бесконечные возможности в долгосрочной перспективе.
Отличие робота от прошлых проектов компании в том, что его создают с четкой задачей коммерциализации, а не просто в исследовательских целях. Для этого приходится принимать во внимание то, о чем раньше не нужно было думать: миниатюризацию, простоту обслуживания, надежность и, конечно, себестоимость. В итоге получилась минимально жизнеспособная платформа, которую потом можно будет усложнять по усмотрению заказчика.
В долгосрочной перспективе робот-гуманоид должен стоить менее $50 000. Его называют бюджетным конкурентом Boston Dynamics и Tesla.
Figure 01 от Figure
Стартап в области робототехники Figure, собравший 40 ведущих инженеров из IHMC, Boston Dynamics, Tesla, Waymo и Google X, создал «первого в мире коммерчески жизнеспособного робота-гуманоида общего назначения» под названием Figure 01. Компания обещает, что робот будет думать, учиться и взаимодействовать с окружающей средой. В Figure считают, что у них есть реальные шансы стать первой компанией, которая коммерциализирует универсального робота-гуманоида.
В мае компания объявила о раунде инвестиций в $70 млн, а в октябре показала , как Figure 01 ходит.
GR-1 от Fourier Intelligence
Стартап Fourier Intelligence, специализирующийся на искусственном интеллекте и терапевтических экзоскелетах, представил андроида первого поколения GR-1. Механика его движений повторяет двигательный аппарат человека, поэтому он может ходить по ровной поверхности со скоростью 5 км/ч, переносить тяжести весом до 50 кг, преодолевать препятствия, подниматься и спускаться по склону и даже выдерживать удары.
Рост робота GR-1 — 1,65 метра, вес 55 кг, степень подвижности сочленений — 40 градусов. Fourier планирует сделать робота помощником в реабилитационной терапии.
Phoenix от Sanctuary
Phoenix работает на базе Carbon — системы управления искусственным интеллектом, которая «позволяет думать и действовать для выполнения задач, как человек». Но об автономности говорить рано: робот управляется людьми, но со временем может стать более самостоятельным.
Phoenix весит 70 кг, его рост почти 2 метра. Робот способен переносить груз весом 25 кг и передвигаться с максимальной скоростью 4,8 км/ч.
Optimus от Tesla
В конце года Tesla показала андроида Optimus второго поколения. Optimus Gen 2 на 10 кг легче, на 30% быстрее, намного симпатичнее и полезнее своего предшественника. Его движения стали больше напоминать человеческие, особенно кистей рук. Судя по опубликованному видео, к умениям андроида добавились танцы, хоть и слегка неуклюжие.
В ближайшее время компания намерена начать использовать этих роботов на своих фабриках. В июле первые образцы роботов Optimus поступили в магазины Tesla в Северной Америке, чтобы привлечь клиентов в автосалоны. Впрочем, глава компании Илон Маск считает, что такой робот в будущем будет в каждом доме.
ИИ и робототехника
Искусственный интеллект не мог не затронуть производство андроидов. Человекоподобные роботы с мозгом в виде самых передовых ИИ-моделей могут совершить революцию в промышленности и на рынке труда. Разработчик нашумевших языковых моделей GPT OpenAI инвестировал в норвежский стартап 1X, ранее известный как Halodi Robotics. Стартап строит человекоподобного робота Neo, «чтобы понять, как искусственный интеллект может сформироваться в антропоморфном теле».
В свою очередь, Google DeepMind анонсировала Robotics Transformer 2 (RT-2) — первую модель визуального языка и действия (VLA), которая позволяет роботам выполнять новые задачи без специальной подготовки. По аналогии с тем, как языковые модели изучают общие идеи и концепции из данных в сети, RT-2 использует текст и изображения из интернета для понимания различных концепций реального мира и преобразования этих знаний в инструкции для роботов. Это позволит создавать роботов, которые легко адаптируются к любой ситуации.
А инженеры из Северо-Западного университета США создали первый искусственный интеллект, способный проектировать роботов с чистого листа. В качестве своего первого проекта ИИ разработал робота, передвигающегося по ровной поверхности. На это у него ушло всего несколько секунд.
Автоматизация и рабочие места
Прогнозируется, что в ближайшие годы автоматизация приведет к сокращению некоторых рабочих мест. Согласно отчету Всемирного экономического форума за 2023 год робототехнику будут внедрять в основном в следующих секторах: электроника, энергетические технологии, коммунальные услуги и потребительские товары.
Так, амбициозное стремление Amazon интегрировать роботов Digit в свою деятельность вызвало беспокойство о последствиях для их 1,5 млн сотрудников. Однако в компании заверяют , что беспокоиться не о чем: люди незаменимы в работе компании.
В отчете Research and Markets говорится, что рынок автоматизации складов вырос с $17,32 млрд в 2022 году до $19,78 млрд в 2023 году. По прогнозам, он продолжит расти в течение следующих нескольких лет и достигнет $33,59 млрд к 2027 году. Но, несмотря на растущую популярность решений по автоматизации складских помещений, около 80% складов в мире не имеют какой-либо автоматизации.
Международная Ассоциация по развитию автоматизации утверждает, что использование роботов в компаниях имеет преимущества. Во-первых, сотрудникам не нужно выполнять монотонные или опасные задачи в их повседневной работе. Во-вторых, это позволяет компаниям сохранять конкурентоспособность и скорость производственного процесса. В-третьих, может помочь решить проблему нехватки рабочей силы. А 60% компаний, работающих в сфере информационных и технологических услуг, ожидают , что в ближайшие пять лет роботы не заберут рабочие места, а, наоборот, создадут новые.