Ученые Университета Станфорда (Stanford University) и разработчики Google (Google Research) объединили усилия, чтобы создать программу искусственного интеллекта, которая сможет в деталях распознавать, что изображено на ваших фотографиях, и генерировать к ним подписи.
Именно подписи, а не просто тэги – например, «Группа людей делает покупки на уличном базаре. На прилавке множество овощей».
Процесс создания таких подписей, мягко говоря, чрезвычайно сложен, но в двух словах, происходит следующее: синхронно работают две нейронные сети, одна из которых анализирует содержимое картинки пиксель за пикселем, а другая просматривает имеющийся словарь и подбирает подходящие описания к изображенному сюжету.
Ученые рассказывают, что они могут корректировать работу программы и «учить» ее распознавать объекты более точно, используя снимки с уже имеющимися подписями. Ученые подсказывают программе правильные решения, и та сохраняет полученную информацию, чтобы использовать для будущей работы.
Программа распознает на изображении не только базовые понятия, такие как объект или его цвет, но и понимает сцену в целом, в контексте. То есть, она не просто может поставить к картинке тэги «снег» и «деревья», но создает развернутое описание: «снег идет перед стоящей вдали цепочкой деревьев».
Иногда программа делает ошибки, вызывая улыбку, но ведь проект пока еще находится на ранней стадии развития. Ученые продолжают «учить» программу, исправляя ошибки и наращивая ее «базу знаний», что повышает надежность распознавания и корректность формулировок. Сложно сказать, сколько уйдет на это времени, но возможно, когда-нибудь все снимки на вашем жестком диске будут храниться с подробными, автоматически сгенерированными, описаниями.