Брайан Руммеле: В чем важность Siri?

Настала пора поговорить о той роли, которую технология Siri играет в мире современных технологий, вернее может сыграть в будущем при определенных обстоятельствах. Этой теме Брайан Руммеле (Brian Roemmele) посвятил статью «Why is Siri important?» («Почему Siri важна?»), опубликованную ресурсом Quora. Ответ на этот простой вопрос достаточно пространен, поэтому читателю рекомендуется запастись напитками, чипсами и терпением. Столь длинные тексты сложновато читать на голодный желудок. Итак, что же в Siri такого, позволяющего говорить о важности, а не только о полезности и привлекательности? Обзор изобилует прогнозами, предположениями и допущениями. Трудно сказать, каковы основания для подобных выводов.

Брайан Руммеле о перспективах Siri

Это не просто система распознавания речи

Велик соблазн счесть Siri лишь очередным распознающим речь приложением, но это было бы ошибкой. Siri значительно больше простой голосовой технологии. Она больше даже, чем динамическая инфраструктура искусственного интеллекта, чем самообучающаяся и ориентирующаяся на контекст система. Siri это все вышеперечисленное и даже чуточку больше того, нечто такое, что дает пользователю ощущение реального взаимодействия с виртуальным помощников. О ней можно кратко сказать следующее: «Две или более совместно функционирующие составляющие, позволяющие получить результат, недостижимый при использовании каждой [из составляющих] в отдельности». Ни одна из составляющих не является абсолютным новшеством, однако в сочетании, реализованном в Siri, кроются невиданные ранее возможности.

Мечтой исследователей в области компьютерных технологий было в один прекрасный день разработать устройство, которое станет в должной степени разговорчиво и разумно, чтобы поддерживать диалог с человеком. Брайан Руммеле говорит о богатом опыте взаимодействия с системами распознавания речи, который скорее забавен и не ведет к получению решения поставленной задачи. До сих пор не было такого сочетания технологий и их взаимодействия. Siri является побочным продуктом комплекса разработок последних нескольких лет.

Брайан Руммеле о перспективах Siri

Apple воплотила в реальность сорокалетние труды ученых

В Siri воплотился результат четырех десятилетий исследований, начатых DARPA через SRI International’s Artificial Intelligence Center (Международный центр искусственного интеллекта SRI). Компания Siri Inc. зародилась в недрах SRI Intentional в рамках программ «Personalized Assistant That Learns» («Персональный обучающийся ассистент»); «Когнитивный обучающийся агент» («Cognitive Agent that Learns»), а также Organizes Program (CALO). Подробности, касающиеся истории Siri были изложены в статье «9to5Mac: Сенсационное интервью с создателем искусственного интеллекта iPhone 5» от 4 октября 2011 года, с которой каждый из наших читателей имеет возможность ознакомиться.

Над этими проектами работали группы ученых из Университета Карнеги-Меллона (Carnegie Mellon University), Массачусетсского университета (University of Massachusetts), Рочестерского университета (University of Rochester), Института человеческого и машинного познания (Institute for Human and Machine Cognition), Университета штата Орегон (Oregon State University), Южнокалифорнийского университета (University of Southern California) и Стэнфордского университета (Stanford University).

Технологии ждут своего часа

На пути прежних форм систем распознавания речи и искусственного интеллекта было несколько переломных точек. Эти переломные точки преимущественно наступали по мере появления новых вычислительных возможностей и рабочих моделей человека с техникой. Закон Мура, Интернет и Apple обеспечили практические возможности, а сорокалетние университетские исследования обеспечили Siri. Так соответствующее устройство наконец встретилось с соответствующей голосовой технологией.

Следует выделить три важнейшие характеристики технологии Siri:
— Голосовой интерфейс
— Способность действовать по обстоятельствам в зависимости от контекста
— Обращение к сервисам

Четвертое поколение компьютерных интерфейсов

Не следует забывать, что нынешняя Siri является версией 1.0, поэтому сравнивать ее имеет смысл только с версиями 1.0 других продуктов. Siri кладет начало четвертому и, возможно, наиболее важному способу взаимодействия с устройствами. Механические интерфейсы пользователя (клавиатура, мышь и сенсорный экран) еще рано считать интерфейсами вчерашнего дня. Они еще долгое время будут сосуществовать с голосовым интерфейсом. Ранее Брайан Руммеле на основании патентов Apple прогнозировал появление нового набора жестов для сенсорного экрана и голографических дисплеев. Этой теме посвящена его статья «How will Apple’s new 3D display technology and 3D hand gestures operate?» («Как будут работать трехмерные жесты и новая технология трехмерных дисплеев?»).

Человек задает вопросы, а устройство отвечает ему. Это самый эффективный способ взаимодействия человека с машиной хотя бы потому, что именно таким образом люди общаются друг с другом. Главной проблемой на пути взаимодействия человека с компьютером всегда являлось да и по сей день является необходимость переформулировать простой вопрос таким образом, чтобы компьютер его понял. Мечтать о том, чтобы на заданный вопрос компьютером сразу давался правильный ответ (под «правильным» понимается тот, который необходим пользователю) в ближайшей перспективе не приходится. Привлекает уже сама идея задавать устройству вопрос тем же способом, которым вопросы задаются друзьям и сотрудникам библиотек, то есть при помощи речи.

Брайан Руммеле о перспективах Siri

Сообразительная малютка

В настоящее время экран iPhone невелик, даже экран iPhone 5, о котором известно из слухов, все равно обладает весьма ограниченным размером. В столь небольшом устройстве голосовой интерфейс весьма удобен, ведь миниатюрная экранная клавиатура не может сравниться с полноценной клавиатурой компьютера. Siri не только и не столько интерфейс обращения к поисковым системам. Она используется для получения «на лету» всех тех видов информации, которые могут потребоваться пользователю в любой момент времени. На фоне ограничений мобильного форм-фактора возможности псевдоразумного ассистента выглядят еще более привлекательными.

Небольшой экран и сравнительно невысокая скорость соединения с Интернетом не позволяют многократно формулировать и переформулировать один и тот же вопрос. Здесь на помощь приходит обычная речь, понимаемая Siri. Подобный интерфейс дает целый рад преимуществ. Пользователю достаточно лишь задавать правильные вопросы и Siri даст на них довольно подробные ответы. Такой подход к взаимодействию позволит ощутить ускорение процесса получения результата без постановки промежуточных задач, результат выполнения которых может оказаться не тем, которого пользователь ожидал.

В пути и транспорте вы можете просто не располагать временем, достаточным для навигации по страницам, на которые ведут ссылки и переключение между различными приложениями для получения простого ответа на простой вопрос. Всего один заданный вами вопрос порой может заменить два десятка промежуточных действий. И в этом могущество Siri.

Целью Siri является решение поставленной перед ней задачи

Используя традиционные системы ввода (механические интерфейсы пользователя), достаточно трудно отслеживать все промежуточные задачи. В настоящее время для того, чтобы получить ответ на вопрос потребуется действовать пошагово.

Брайан Руммеле о перспективах Siri

Каждый шаг пользователю приходится проделывать, поскольку другой возможности нет. С помощью Siri от многих из этих ручных действий можно избавится и свести их к обычному вопросу. Действия Siri описываются тремя базовыми концептуальными моделями.

Что она делает для вас, приближая выполнение задачи?
— Подбирает множественные вертикальные и горизонтальные критерии поиска
— «На лету» комбинирует информацию из различных источников
— В режиме реального времени редактирует информацию, базирующуюся на динамических критериях
— Доводит решение задачи до конечной точки (например, до покупки билета)

Воспринимает намерения пользователя с его слов с учетом:
— Географического контекста
— Временного контекста
— Контекста задачи
— Диалогового контекста

Воспринимает своего пользователя как личность, изучает информацию о нем и учитывает ее в своей работе, в частности:
— С кем дружит пользователь?
— Где пользователь живет?
— Каков его возраст?
— Что ему нравится?

Брайан Руммеле о перспективах Siri

Незаметно для пользователя Siri выполняет тяжелую работу по получению приемлемого результата. Эта работа в том числе затрагивает:
— Информированность о местоположении
— Информированность о времени
— Информированность о задаче
— Семантические данные
— Облачный программный интерфейс приложения
— Модели задач и доменов
— Голосовой интерфейс
— Уяснение сути задачи
— Преобразование речи в текст
— Преобразование текста в речь
— Диалоговый процесс
— Доступ к персональной информации и демографическим данным
— Социальные графики
— Социальные данные

Разумеется, двухядерный процессор A5 тоже оказывает некоторое влияние на конечный результат работы, но основной упор делается на облачные вычисления в комплексе с предварительным преобразованием голоса в текст на клиентской стороне.

Практическое применение

Siri была продемонстрирована 4 октября 2011 года. Начать работу с ней очень просто, достаточно лишь нажать на соответствующую кнопку и можно задавать вопрос. Этот способ взаимодействия называется «Press to ask» («Нажмите, чтобы задать вопрос»). Есть также возможность использования акселерометра, эта функция известна как «Lift to ask» («Поднимите, чтобы спросить»). Siri может оставаться активной в режиме восприятия голоса в течение длительного времени, если пользователю необходимо плотно поработать со своей виртуальной секретаршей. В этом случае никаких ручных действий по активации совершать не потребуется. Возможность пока чисто теоретическая и, скорее всего, появится только в поздних версиях, когда будет разработан ряд алгоритмов шумоподавления, а также более элегантные методы реализации активного восприятия речи. Siri будет также оптимизирована для работы с гарнитурами Bluetooth 4, что заставит повысить степень ее умения выделять вопросы из непрерывного потока речи. В будущем Siri станет постоянно активной и будет «в пределах разумного» вставлять свои комментарии-ответы даже в том случае, когда прямого вопроса не поступало. Это приблизит взаимодействие с устройством к привычному общению с приятелями.

Новая инфраструктура: интерфейс доступа к «облачной» базе данных

По мере осознания того, как люди используют Siri, будет расти понимание: целый пласт очень популярных приложений (и построенных вокруг них бизнес-моделей) избыточен или, как минимум, менее полезен, чем считается сейчас. В рамках новой модели будет достаточно программного интерфейса, получающего доступ к Siri и возвращающего результат Siri. Вполне возможно, что со временем вокруг Siri и ее облачной инфраструктуры будет сформирована экосистема, к которой позволят присоединиться и сторонним разработчикам. Брайан Руммеле тут же предупреждает читателя о том, что он никоим образом не прогнозирует исчезновения приложений. Он полагает, что со временем мы увидим их адаптацию к новой экосистеме, которая сформируется вокруг Siri. Процесс разработки и приспособления бизнес-моделей к этой новой тенденции будет крайне интересно наблюдать. Не исключено, что возможности, которые дает облачный программный интерфейс Siri сопоставимы по своим масштабам с теми возможностями, которые создал iTunes App Store. Здесь, по всей видимости, речь идет о тех преимуществах, которые получат как конечные пользователи, так и разработчики.

Брайан Руммеле о перспективах Siri

Siri сформирует экосистему облачного программного интерфейса удаленного буфера. В простейшей форме этот интерфейс будет оценивать значимость тех или иных доступных Siri данных из Интернета. Концепт «ontologies-as-specification» («онтология как спецификация») был сформирован основателем и руководителем технического отдела Siri Томом Грубером (Tom Gruber), который ныне продолжает трудиться над развитием своего детища в Apple. Он приблизился к тому, чтобы получая доступ к данным в Интернете, извлекать из них нечто полезное. С помощью специального программного интерфейса и упорного может быть сформирована экосистема, позволяющая получать релевантные данные быстрее и проще.

Важно сознавать, что программный интерфейс, к которому обращается Том, является облачным программным интерфейсом удаленного буфера. Доступ к нему будет осуществляться только из движка Siri путем признанных релевантными запросов. Пользователь не будет сам обращаться к программному интерфейсу, как это принято делать сейчас. Это за него сделает Siri. Брайан Руммеле испытывает некоторые сомнения в отношении того, решится ли Apple открыть программный интерфейс для сторонних разработчиков и совершенно уверен, что в Купертино будут держаться за право на непосредственный контроль над API и источниками данных.

Разработчиков ждут непростые времена, когда им предстоит разобраться с особенностями новой реальности семантического веба. Более подробно Брайан Руммеле осветил эту тему в статье «What do application developers need to know about Siri to interface with it?» («Что следует делать разработчикам приложений, чтобы о том, как взаимодействовать с Siri?»), опубликованной тем же ресурсом.

Яблочный Сад за высоким забором

Apple всегда являла собой пример «Walled Garden», «сада за высоким забором». В предшествующий возвращению Стива Джобса (Steve Jobs) период эта концепция чуть было не привела к банкротству компании. В то же время именно «высокий забор» лежит в основе нынешнего успеха Apple. Этот подход несет на себе отпечаток сложной гаммы эмоций: разочарования и уникальности, а также вполне оправданного опасения. История Apple от первого Apple II до iTunes Store простирается перед нами как история загадок. Брайан Руммеле образно описывает концепцию Apple следующим образом:

Apple желает владеть садом и в то же время приглашает каждого поиграть в нем. Стены сада обеспечили Apple несметным богатством. Некоторым может не нравится избранный садом путь, но лишь немногие из тысяч компаний могут посостязаться с [его] успехом.

Воздвигнутая вокруг Яблочного Сада стена таинственности является последним бастионом, который Apple может противопоставить конкурентам и предлагаемым ими смартфонам. Но одной загадочности мало. Чтобы соревноваться с другими компаниями, необходимо искать подобные или даже превосходящие решения конкурентов технологии. И Apple обрела такую технологию в виде Siri. В один миг Apple сделалась обладательницей Siri, плода сорокалетних трудов исследователей. Разумеется, Google в состоянии конкурировать. В настоящее время поисковый гигант располагает превосходной системой распознавания речи, практическая реализация которой являет собой отличный пример голосового поиска. Ей пока не хватает присущей Siri масштабности, но Брайан Руммеле убежден в том, что это положение вещей вскоре изменится и появятся аналогичные предложения для платформы Android, а Google обратится к проблеме работы с семантическим вебом.

Здесь важно подчеркнуть, что Apple располагает патентной заявкой, описывающей способ подключения программного интерфейса (API) к Siri и сужающей конкурентам рамки их потенциального ответа. Этот вопрос Брайан Руммеле ранее рассмотрел в статье «Does Apple have patents that may show the future of Siri?» («Располагает ли Apple патентами, проливающими свет на будущее Siri?»), размещенной на веб-сайте Quora.

В самом начале пути

Совершенно очевидно, что этот новый способ взаимодействия человека с техникой продолжит развиваться. Выше уже было сказано о том, что Брайан Руммеле не склонен полагать, что ныне существующие интерфейсы и средства доступа к информации станут достоянием истории. Никуда не денется доступ к данным при помощи приложений и традиционного веб-серфинга. В то же самое время, нет никаких сомнений в том, что Siri окажет сильное влияние на то, как пользователи взаимодействуют со своими устройствами и как устройства отвечают на вопросы пользователей.

Хотя новая технология была впервые применена в iPhone 4S, вскоре она появится в iPad 3 и даже в Apple TV. По крайней мере так полагает Брайан Руммеле. Огромные перспективы и у связок Siri c Bluetooth 4 и Bluetooth Low Energy (BLE). BLE-устройства, подобные дверному замку, смогут управляться при помощи Siri. Пользователь сможет попросить свою электронную помощницу: «Siri, закрой входную дверь» или «Открывай входную дверь, когда приходит Сара». Этой теме Брайан Руммеле посвятил отдельную статью «What impact will the addition of Bluetooth 4.0 have on the iPhone 4S?» («Каковы ожидаемые последствия интеграции Bluetooth 4.0 в iPhone 4S?»), размещенную на страницах того же веб-ресурса.

Все это замечательно, но еще только предстоит проверить, насколько хорошо теоретические научные исследования сработают на практике. Можно не сомневаться, что начало пути не будет устлано розами. И только лет через пять можно будет делать некоторые выводы об истинных масштабах влияния голосового интерфейса. Нельзя полностью исключать вероятность того, что все это так и останется забавным фокусом. А возможно этот способ взаимодействия с электроникой станет для пользователей самым любимым? Это вопрос, ответ на который может дать только будущее и никакой уверенности в том или ином развитии событий нет да и быть не может.

Источник: Quora.com, Tomgruber.org