U-Net es una red neuronal convolucional desarrollada para la segmentación de imágenes biomédicas en el Departamento de Informática de la Universidad de Friburgo.[1] La red se basa en una red neuronal totalmente convolucional[2] cuya arquitectura se modificó y amplió para trabajar con menos imágenes de entrenamiento y producir una segmentación más precisa. La segmentación de una imagen de 512 × 512 tarda menos de un segundo en una GPU moderna.
La arquitectura U-Net también se ha empleado en modelos de difusión para la eliminación iterativa de ruido en imágenes.[3] Esta tecnología es la base de muchos modelos modernos de generación de imágenes, como DALL-E, Midjourney y Stable Diffusion.