Команда разработчиков Facebook научила искусственный интеллект генерировать рецепты и подсчитывать количество калорий из фотографий блюда. Этот подход основывается на масштабном наборе данных Recipe1M. Сделали его для того, чтобы можно было наслаждаться блюдами, указав фото еды.
Создание рецепта с изображения требует одновременного понимания ингредиентов, а также типов обработки, которую они прошли, например, нарезки или смешивания с другими ингредиентами.
Традиционно проблема «изображение рецепта» формулируется как задача поиска, где рецепт извлекается из фиксированного набора данных на основе показателя сходства изображений. Производительность таких систем сильно зависит от размера и разнообразия наборов данных, а также от качества изученного материала. Не удивительно, что эти системы дают сбой, когда в статическом наборе данных отсутствует соответствующий рецепт для запроса изображения.
Альтернатива для преодоления ограничений набора данных поисковых систем заключается в том, чтобы сформулировать проблему «изображение-рецепт» как условную задачу генерации. Разработчики утверждают, что вместо получения рецепта с изображения непосредственно, конвейер генерации рецепта выиграет от промежуточного шага: прогнозирование списке ингредиентов. Потом будет сгенерирована последовательность инструкций, обусловлена как изображением, так и соответствующим ему списком ингредиентов, где взаимодействие между изображением и ингредиентами может дать дополнительное понимание того, как последние будут обрабатывались для получения блюда.
Система создания изображения для рецепта принимает на вход изображение пищи и выводит рецепт, содержащий название, ингредиенты и инструкции по приготовлению. Метод начинается с предварительной подготовки кодера изображения и декодера ингредиентов, который предусматривает набор ингредиентов, используя визуальные особенности, извлеченные из входного изображения и совместного использования ингредиентов. Затем разработчики учат кодировщик ингредиентов и декодер команд, которые генерируют заголовок и инструкции, принимая визуальные особенности изображения и предусмотренные ингредиенты и вводя их в современную модель генерации последовательности.
Распознавание пищи бросает вызов существующим системам компьютерного зрения, которые выходят за рамки просто видимого. В сравнении с естественным пониманием изображение, визуальное предсказание ингредиента требует высокоуровневых соображений и предыдущего знания (например, круассаны, вероятно, содержат масло). Это создает дополнительные проблемы, ведь пищевые компоненты имеют высокую внутрішньокласову изменчивость, во время приготовления возникают сильные деформации, а компоненты часто включаются в приготовленное блюдо. Эта система – первый шаг к более широких систем понимание пищи, таких как оценка калорий и создания рецептов.
Кроме того, этот вид обучения может использоваться для любой задачи, которая требует прогнозирования долгого структурированного текста с изображения и прогнозируемых ключевых слов. Первая часть конвейера (прогнозирование ингредиента) может быть применена для решения более широких проблем, таких как прогнозирование изображение для набора.