
Su apariencia se va a mantener en esencia a medida que se va perfeccionando
Imágenes de alta calidad
Así funciona la nueva función de ChatGPT para generar imágenes realistas
La generación de imágenes es nativa de GPT-4o, lo que permite al modelo aprovechar tanto las imágenes como el texto del contexto de la conversación
ChatGPT ahora crea imágenes realistas directamente desde el chat. De hecho, con este avance, se ahorra a los usuarios el paso de recurrir a herramientas externas como DALL-E. La función, basada en el modelo GPT-4o (versión de pago), utiliza un enfoque autorregresivo y su conocimiento del mundo real, según la compañía, para ofrecer resultados de nivel profesional de manera más intuitiva y útil.
En este sentido, entre sus funciones se encuentra la capacidad de crear diferentes imágenes a partir de simples descripciones textuales durante la conversación y de archivos cargados. Además, también presenta mejoras en las representaciones de texto, el seguimiento de indicaciones y la comprensión del contexto.
En concreto, la generación de imágenes es nativa de GPT-4o, lo que permite al modelo aprovechar tanto las imágenes como el texto del contexto de la conversación para mantener la coherencia de la imagen en todo momento. Esto significa que, si estás diseñando un personaje, su apariencia se mantendrá consistente a medida que se vaya perfeccionando.
Tal y como explicó OpenAI en un comunicado, «mientras otros sistemas tienen dificultades con entre 5 y 8 objetos, GPT-4o puede gestionar hasta 10 o 20 objetos diferentes». A su vez, añaden que «este es el resultado de un año de trabajo junto con un centenar de entrenadores humanos, que han logrado hacer que el modelo comprenda mejor las indicaciones».Limitaciones
Por otro lado, aunque no es una limitación en sí misma, el tiempo de procesamiento, dado que crea imágenes más detalladas, puede alargarse hasta un minuto. Las limitaciones que sí ha identificado OpenAI y que planea corregir en los próximos meses son:
- Puede recortar de forma excesiva imágenes largas, como carteles, especialmente en la parte inferior.
- La generación de imágenes puede inventar información.
- Cuando se generan imágenes basadas en su base de conocimientos, puede tener dificultades para representar más de 10-20 conceptos distintos a la vez.
- A veces presenta problemas al renderizar idiomas no latinos, mostrando caracteres incorrectos o inventados.
- Las solicitudes para editar partes específicas de una imagen, como corregir errores tipográficos, no siempre son efectivas y pueden modificar otras áreas no deseadas.
- El modelo tiene dificultades para representar información detallada en tamaños muy pequeños.
Finalmente, todas las imágenes generadas con este nuevo modelo incluirán metadatos C2PA y la herramienta interna de OpenAI podrá verificar si una imagen fue generada utilizando este modelo.