Даже трехлетние дети способны понять, что именно они видят на снимках, а также рассказать нам об этом, но самые мощные компьютеры с теми же задачами справляются с большим трудом. Впрочем, в последние годы ситуация быстро меняется, поскольку компьютерные специалисты разрабатывают новые алгоритмы, позволяющие компьютерам распознавать, что же изображено на фотографиях.
Ролик, представленный в рамках видеоконференций TED, показывает выступление Фей-Фей Ли (Fei-Fei Li), профессора Стэнфордского Университета, одного из ведущих мировых экспертов в области компьютерного зрения. Она рассказывает о своей революционном проекте ImageNet, призванном научить компьютеры «видеть».
Проект использует базу из 15 миллионов фотографий для обучения компьютеров распознаванию изображенных объектов. Сначала команда Ли приложила колоссальные усилия для отбора снимков и формирования коллекции, которая затем была открыта для свободного доступа всем желающим и стала одним из стандартов индустрии. С ее помощью тестируются способности компьютеров распознавать объекты.
Сначала Ли учила компьютеры узнавать на фотографиях простые объекты.
Следующим шагом было научить компьютер описывать сцену, примерно как это сделал бы трехлетний ребенок: короткими связными предложениями вместо списка отдельных слов. Иногда результаты бывают весьма впечатляющими…
…хотя в других случаях ясно, что предстоит большая работа:
Специалисты компании Microsoft недавно объявили, что созданная ими технология при анализе фотографий из базы ImageNet дала результаты, превосходящие те, которые показали люди (4,94% ошибок против 5,1%). Компьютер смог корректно распознать, что изображено на большинстве снимков:
«Шаг за шагом, мы даем машинам зрение», говорит профессор Фей-Фей Ли. «Сначала мы научим видеть их. Затем уже они помогут лучше видеть нам».