Команда разработчиков Facebook научила искусственный интеллект генерировать рецепты и подсчитывать количество калорий из фотографий блюда. Этот подход основывается на масштабном наборе данных Recipe1M. Сделали его для того, чтобы можно было наслаждаться блюдами, указав фото еды.

Создание рецепта с изображения требует одновременного понимания ингредиентов, а также типов обработки, которую они прошли, например, нарезки или смешивания с другими ингредиентами.

Традиционно проблема «изображение рецепта» формулируется как задача поиска, где рецепт извлекается из фиксированного набора данных на основе показателя сходства изображений. Производительность таких систем сильно зависит от размера и разнообразия наборов данных, а также от качества изученного материала. Не удивительно, что эти системы дают сбой, когда в статическом наборе данных отсутствует соответствующий рецепт для запроса изображения.
Альтернатива для преодоления ограничений набора данных поисковых систем заключается в том, чтобы сформулировать проблему «изображение-рецепт» как условную задачу генерации. Разработчики утверждают, что вместо получения рецепта с изображения непосредственно, конвейер генерации рецепта выиграет от промежуточного шага: прогнозирование списке ингредиентов. Потом будет сгенерирована последовательность инструкций, обусловлена как изображением, так и соответствующим ему списком ингредиентов, где взаимодействие между изображением и ингредиентами может дать дополнительное понимание того, как последние будут обрабатывались для получения блюда.

Система создания изображения для рецепта принимает на вход изображение пищи и выводит рецепт, содержащий название, ингредиенты и инструкции по приготовлению. Метод начинается с предварительной подготовки кодера изображения и декодера ингредиентов, который предусматривает набор ингредиентов, используя визуальные особенности, извлеченные из входного изображения и совместного использования ингредиентов. Затем разработчики учат кодировщик ингредиентов и декодер команд, которые генерируют заголовок и инструкции, принимая визуальные особенности изображения и предусмотренные ингредиенты и вводя их в современную модель генерации последовательности.
Распознавание пищи бросает вызов существующим системам компьютерного зрения, которые выходят за рамки просто видимого. В сравнении с естественным пониманием изображение, визуальное предсказание ингредиента требует высокоуровневых соображений и предыдущего знания (например, круассаны, вероятно, содержат масло). Это создает дополнительные проблемы, ведь пищевые компоненты имеют высокую внутрішньокласову изменчивость, во время приготовления возникают сильные деформации, а компоненты часто включаются в приготовленное блюдо. Эта система – первый шаг к более широких систем понимание пищи, таких как оценка калорий и создания рецептов.
Кроме того, этот вид обучения может использоваться для любой задачи, которая требует прогнозирования долгого структурированного текста с изображения и прогнозируемых ключевых слов. Первая часть конвейера (прогнозирование ингредиента) может быть применена для решения более широких проблем, таких как прогнозирование изображение для набора.

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here