РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА В РЕАЛЬНОМ ВРЕМЕНИ.
Статья посвящена обзору наиболее известных средств (платформ) распознавания эмоционального состояния человека в режиме реального времени, которые получают изображение лица человека напрямую с веб-камеры, фото или изображений. Приведено сравнение основных возможностей всех рассмотренных средств распознавания. А также методика, при помощи которой возможно улучшить точность распознавания эмоционального состояния человека, основанная на захвате и обработке, помимо карты лица, информации о движении кистей рук человека при помощи контроллера LeapMotion.
Введение
При сегодняшнем уровне развитии информационных
технологий все больше значение имеет человеко-компьютерное взаимодействие. С
каждым днем информационные системы становятся в се более дружелюбными к
человеку, они все проще в использовании, но, до сих пор, они не способны в
полной мере распознавать эмоции человека. Эмоции играют важную роль в жизни
человека, поэтому важно распознавать эмоции и использовать их. На сегодняшний
день разработано огромное множество API и SDK для определения эмоций
человека. Причем, источником для таких систем может быть не только видео ряд,
но и текст, звуковые ряды, изображения. Несмотря на все разнообразие
представленных средств, использование из по отдельности не даст достаточной
точности в определении эмоционального состояния человека. Но, при
комбинировании различных средств можно добиться значительного увеличения
точности распознавания. В статье приведены наиболее известные средства
распознавания эмоций по видео и изображениям, а также приведем метод, при
помощи которого возможно увеличить точность распознавания. Она основывается на
применении, в дополнении к средствам анализа видео и изображений, контроллера LeapMotion, который позволяет захватывать движение кистей рук
человека с достаточно высокой точностью, что позволит, значительно увеличить
точность распознавания текущего эмоционального состояния.
Обзор средств
распознавания эмоций
Affectiva
Affectiva AI идентифицирует человеческое лицо в режиме
реального времени. В качестве источника информации может выступать изображение
или видео файл. Алгоритмы компьютерного зрения определяют ключевые ориентиры на
лице - например, углы бровей, кончик носа, углы рта. В дальнейшем, алгоритмы
глубокого обучения анализируют пиксели в этих регионах для классификации
выражений лица. Комбинации этих выражений лица затем отображаются на эмоции. Affectiva AI способен определять 7 показателей эмоций: гнев,
презрение, отвращение, страх, радость, печаль и удивление, а также 20 показателей
выражений лица. В предоставляемых SDK и API имеются возможности по определению
эмоции, пола, возраста, этнической принадлежности и ряда других показателей.
Kairos
В своей работе Kairos использует проприетарные алгоритмы машинного обучения. Благодаря этому
технология Kairos способна
определять все те же эмоции, что и технология Affectiva. Но, несмотря на это, Kairos имеет ряд ключевых
особенностей, таких как: автокорректировка изображения при низкой освещенности,
невосприимчивость к аксессуарам, таким как очки, алгоритмическое изучение лица
человека с течением времени и адаптируемость к уникальным чертам и выражениям
каждого человека. Для работы с видео и изображениями Kairos предлагает свой
собственный SDK и облачный API (Cloud APIs).
Project Oxford by Microsoft.
Проект состоит из четырех групп самодостаточных облачных API:
Face APIs, Computer Vision APIs, Speech APIs, Language Understanding Intelligent
Services (LUIS). В набор служб Face APIs входят облачные алгоритмы обнаружения и распознавания человеческих
лиц на фотографиях, а именно: Обнаружение границ лиц в виде
описывающих прямоугольников с выделением дополнительных характеристик, вроде
координат частей лица, положения головы, пола и эвристической оценки возраста; Широкий
набор сервисов для распознавания, представляющих такие возможности как оценка
схожести двух лиц, поиск похожих лиц на серии фотографий по заданному образцу,
автоматическая группировка фотографий и идентификация (распознавание) людей на
основе заранее подготовленной обучающей выборки.
EmoVu
Предоставляет новые методы, использующие Deep Learning, в которых используются сверточные нейронные сети
(CNN). Методология распознавания выражений лица имитирует человеческое видение
и позволяет алгоритму изучать прототипические выражения непосредственно с лица.
Кроме того, методология вычисляет информацию о форме и текстуре, что приводит к
беспрецедентной точности в вариантах неконтролируемой среды. Сложные
ковариационные факторы, такие как изменения позы и освещения, смягчаются за
счет использования надежного отслеживания лица, нормализации и синтеза
положения и локальных дескрипторов признаков освещения. Разметка минимизируется
с помощью строгой схемы классификации, состоящей из правил принятия решения /
фильтрации, классификации и проверки.
Nviso
Специализируется на анализе эмоциональных
видеоизображений, используя технологию 3D-обработки изображений лица для
мониторинга множества различных точек и
способна работать в самых сложных природных условиях. Технология nViso, полностью свободна от вмешательства человека и
рассчитанная на работу в режиме реального времени, устойчива к плохому
освещению, отсутствию фокусных изображений, окклюзии, а также размыванию
движения в мобильных устройствах. Алгоритмы nViso захватывают сотни точек лица,
отслеживая 43 лицевые мышцы в реальном времени. Полностью автоматизированная и
не требует калибровки, специализированного лабораторного оборудования или
экспертного персонала для работы.
Face Reader
Используется в академической
сфере. API-интерфейс Face Reader основан на компьютерном обучении. API
использует 500 ключевых лицевых точек для анализа 6 основных выражений лица, а
также нейтральности. Face Reader также определяет направление взгляда и
ориентацию головы.
Face Reader работает в три этапа[Face Reader, 2014]. Первым этапом является
распознавание лица. FaceReader использует алгоритм Виолы-Джонса для обнаружения присутствия лица. Следующим
этапом является точное моделирование лица с использованием алгоритмического
подхода, основанного на методе Active Appearance. На последнем этапе модель обучается с помощью
базы данных аннотированных изображений.
Sightcorp.
Sightcorp предоставляет свою собственную SDK CrowdSight[CrowdSight, 2017]. Это
кроссплатформенная программная библиотека для автоматического семантического
анализа людей в видео и изображениях. CrowdSight SDK может использоваться для
автоматического анализа лиц в реальном времени с помощью простой веб-камеры и
передачи полученной информации в стороннее приложение. В настоящее время
CrowdSight SDK позволяет оценить местоположение глаз, позы головы, настроение,
возраст, пол, цвета одежды, шесть общих выражений лица, внимание и этничность
предметов. В дополнение к этому, CrowdSight SDK может использоваться для
отслеживания и распознавания лиц в широком диапазоне условий съемки.
Методика
улучшения точности распознавания эмоций
Для увеличения точности распознавания эмоций возможно
использовать, помимо веб-камеры, контроллер Leap Motion[LeapMotion, 2017]. При помощи контроллера необходимо считывать
динамику движения рук человека и, затем, сопоставлять полученную информацию с
той, которая получена при помощи веб-камеры. Данная методика заключается в
следующем: сперва происходит считывание карты лица человека и определение его
эмоций, затем эта информация сопоставляется с данными полученным с помощью
контроллера Leap Motion, что поможет подтвердить, либо опровергнуть те эмоции,
которые человек проявляет в данный момент. Не всегда удается абсолютно точно
определить, какую эмоцию проявляет человек в данный момент, так, например,
широко открытые глаза могут говорить о том, что человек удивлен, либо напуган,
возникает неопределенность. В этом и состоит преимущество использования
контроллера Leap Motion совместно
с веб-камерой. Если контроллер показывает, что у человека трясутся руки, то это
с большой долей вероятности страх, если же они находятся в спокойном состоянии,
то, скорее всего это удивление. В данном исследовании не рассматриваются случаи, в которых человек
может быть болен чем-либо, что может сказываться на характере его жестов и
мимики.
Для определения эмоций необходимо
зафиксировать динамику движения рук человека, например, резкое изменение
положения рук в пространстве будет означать испуг и, как следствие страх.
Сопоставив эти данные с данными, полученными с веб-камеры, можно с уверенностью
сказать, является ли данная эмоция страхом.
Рисунок
1 – Резкое изменение положение рук в пространстве при испуге.
На
рисунке 1 изображен график изменения координат руки человека во времени. При
испуге характерны резкие, кратковременные движения. Если сопоставить эти данные
с данными полученными с веб-камеры, показывающей, что у человека сильно открыты
глаза, то можно с уверенностью сказать, что этот человека, в данный момент,
испытывает чувство страха.
Данный метод позволит, в целом позволит
улучшить точность распознавания эмоций, в частности те эмоции, которые являются
наиболее труднораспознаваемыми, такие как: страх, отвращение и злость.
Заключение
В
рамках статьи был проведен обзор наиболее известных средств (платформ)
распознавания эмоционального состояния человека в режиме реального времени,
которые получают изображение лица человека напрямую с веб-камеры, фото или
изображений. Приведено сравнение
основных и наиболее ценных возможностей всех рассмотренных средств
распознавания, все данные были приведены в таблице 1. А также методика, при
помощи которой возможно улучшить точность распознавания эмоционального
состояния человека, основанная на захвате и обработке, помимо карты лица,
информации о движении кистей рук человека при помощи контроллера LeapMotion.
