LinkedAI

En este artículo se muestra el uso de redes neuronales convolucionales centradas en datos para el recuento de racimos de uva a partir de imágenes de viñedos a una distancia de 1 o 1.5 metros de los racimos encontrados en Embrapa Wine Grape Instance Segmentation Dataset — Embrapa WGISD, sin embargo, en este dataset solo se cuenta con hay 300 imágenes en total, por lo que la biblioteca Flip de Python se utilizó para crear imágenes sintéticas con racimos de uvas que aumentan el tamaño del conjunto de datos.

Para esta tarea se utilizó el modelo Faster RCNN con backbone ResNet 50 presentado por PyTorch con pesos preentrenados y 2 clases llamadas background y cluster, adicionalmente se utilizó el optimizador SGD, una tasa de aprendizaje de 0.005 y una disminución en la Tasa de Aprendizaje cuando alcanzó la estabilidad de la pérdida. Por otro lado, se crearon 260 imágenes sintéticas con los fondos y objetos presentados en la siguiente figura, y para aumentar la variabilidad de las imágenes se permitió la rotación en el eje y tanto de los objetos como de los fondos y un cambio de brillo del 70%, manteniendo el parámetro “fuerza” en Falso para que estos cambios sean aleatorios.

Finalmente, se realizó la ecualización del histograma para resaltar los racimos y aumentar el número de imágenes tanto originales como sintéticas como se recomienda en el trabajo presentado por Santos, et. al.

‍

Fondos utilizados para las imágenes sintéticas.

‍

Objetos utilizados para las imágenes sintéticas.

‍

Se tomaron 40 imágenes del conjunto de datos original sin ningún procesamiento para evaluar el desempeño final de los modelos, dejando un total de 540 imágenes originales para entrenar, un número total que se mantendría para todos los experimentos con imágenes sintéticas para hacer los resultados obtenidos en cada experimento comparable y se variará el número de imágenes originales para observar escenarios en los que hay menos imágenes originales y el conjunto de datos se completa con imágenes sintéticas.

Se entrenaron 250 épocas para 5 conjuntos de datos diferentes.

En el primero se entrenó con el 100% de las imágenes originales.
En el segundo con imágenes 100% sintéticas.
En el tercero se utilizó una relación 50:50, es decir, 260 imágenes originales y 260 imágenes sintéticas.
Para el cuarto se utilizó una proporción de 70:30, con 70% de imágenes sintéticas y 30% de imágenes originales.
Finalmente en el último experimento se utilizó una proporción de 30:70 con 30% de imágenes sintéticas y 70% de imágenes originales.

Los resultados obtenidos se presentan en la siguiente tabla junto con ejemplos de los resultados cualitativos de cada uno, la métrica presentada es el promedio de la diferencia absoluta de los conglomerados detectados sobre el total de conglomerados presentes en la imagen.

‍

‍

Resultados con predicciones en rojo y anotaciones en azul.

‍

Como se ve en los resultados, el modelo original tiene un muy buen desempeño en el recuento de clústeres en el conjunto de datos de prueba, por otro lado, los resultados del conjunto de datos con imágenes 100% sintéticas obtienen un error 3 veces mayor que el original. Sin embargo, los experimentos donde se maneja una relación del 50% entre las imágenes o un mayor número de imágenes sintéticas se obtiene un error medio bastante cercano al original. Finalmente, el experimento en el que hay un 30% de imágenes sintéticas obtuvo un error menor que el modelo original, es decir, un mejor desempeño en el recuento de clústeres en el conjunto de datos de prueba.

Por tanto, es posible concluir un gran aporte de los datos sintéticos en el rendimiento de los modelos de Deep Learning, ya que en los casos en los que se tiene un conjunto de datos pequeño, se puede incrementar su tamaño y también mantener un error cercano a un conjunto de datos de gran tamaño de imágenes originales y, además, es posible obtener un mejor rendimiento con una combinación adecuada de imágenes originales y sintéticas.

‍

Resultados finales con predicciones en rojo y anotaciones en azul.

‍

Detección de racimos de uva mediante Deep Learning e imágenes sintéticas