Вверх

Как люди учат компьютеры видеть и понимать фотографии

Дата публикации: 31.03.2015

Даже трехлетние дети способны понять, что именно они видят на снимках, а также рассказать нам об этом, но самые мощные компьютеры с теми же задачами справляются с большим трудом. Впрочем, в последние годы ситуация быстро меняется, поскольку компьютерные специалисты разрабатывают новые алгоритмы, позволяющие компьютерам распознавать, что же изображено на фотографиях.

Ролик, представленный в рамках видеоконференций TED, показывает выступление Фей-Фей Ли (Fei-Fei Li), профессора Стэнфордского Университета, одного из ведущих мировых экспертов в области компьютерного зрения. Она рассказывает о своей революционном проекте ImageNet, призванном научить компьютеры «видеть».

Проект использует базу из 15 миллионов фотографий для обучения компьютеров распознаванию изображенных объектов. Сначала команда Ли приложила колоссальные усилия для отбора снимков и формирования коллекции, которая затем была открыта для свободного доступа всем желающим и стала одним из стандартов индустрии. С ее помощью тестируются способности компьютеров распознавать объекты.

Сначала Ли учила компьютеры узнавать на фотографиях простые объекты.

Как люди учат компьютеры видеть и понимать фотографии

Следующим шагом было научить компьютер описывать сцену, примерно как это сделал бы трехлетний ребенок: короткими связными предложениями вместо списка отдельных слов. Иногда результаты бывают весьма впечатляющими…

"Мужчина стоит возле слона"

"Мужчина стоит возле слона"

"Большой самолет стоит в начале взлетно-посадочной полосы аэропорта"

"Большой самолет стоит в начале взлетно-посадочной полосы аэропорта"

"Зебра стоит на травяном поле"

"Зебра стоит на травяном поле"

…хотя в других случаях ясно, что предстоит большая работа:

"Кошка лежит на кровати в одеяле"

"Кошка лежит на кровати в одеяле"

"Маленький мальчик держит бейсбольную биту"

"Маленький мальчик держит бейсбольную биту"

"Мужчина едет по улице на лошади рядом со зданием"

"Мужчина едет по улице на лошади рядом со зданием"

Специалисты компании Microsoft недавно объявили, что созданная ими технология при анализе фотографий из базы ImageNet дала результаты, превосходящие те, которые показали люди (4,94% ошибок против 5,1%). Компьютер смог корректно распознать, что изображено на большинстве снимков:

«Шаг за шагом, мы даем машинам зрение», говорит профессор Фей-Фей Ли. «Сначала мы научим видеть их. Затем уже они помогут лучше видеть нам».

Дата публикации: 31.03.2015
Комментировать

Другие статьи рубрики

Показать больше статей

Вопросы эксперту

80671d4e 4a1f 40ff a7fc 3c2e9e02a540