Por qué la IA que genera imágenes comete errores tipográficos…»Ni siquiera los LLM pueden leer texto»


Resultado de la solicitud para crear 'Firmar con Hola' escrito en 'Dally'
Resultado de la solicitud para crear 'Firmar con Hola' escrito en 'Dally'


La explicación es que la inteligencia artificial generativa (IA) es débil en la «tipografía», que crea palabras dentro de imágenes, porque en realidad no reconoce letras. Los modelos de lenguaje grande (LLM) pueden componer poemas y escribir artículos, pero no comprenden el texto en sí.


El día 22 (hora local), TechCrunch citó a expertos y proporcionó una explicación detallada de los frecuentes errores ortográficos en las palabras en la salida de IA que genera imágenes.


En consecuencia, la mayoría de las IA de generación de imágenes actuales confunden la ortografía al generar caracteres en imágenes. Aunque 'Idiogram', considerado el mejor en el campo, y más recientemente 'Dally' y 'Stable Diffusion' han resuelto muchos problemas, todavía están lejos de ser perfectos.


Por ejemplo, 'Hola' se muestra como 'HeLIo' o 'HEELLLLOOOO'. Esto se convierte en un problema grave si la imagen generada se utiliza con fines comerciales.


Los expertos señalan que este problema se debe al principio de funcionamiento de la IA generativa.


«Los generadores de imágenes tienden a funcionar bien en artefactos como automóviles o rostros humanos, pero no funcionan bien en cosas pequeñas como dedos o escritura», dijo el cofundador Asmelash Hakur Chan.


Aunque las técnicas básicas de los generadores de imágenes y de los generadores de texto difieren, ambos modelos tienen dificultades similares en detalles como la ortografía.


El generador de imágenes utiliza un «modelo de difusión» para eliminar el ruido y reconstruir la imagen. El fundador Haku dijo: «Los generadores de imágenes aprenden principalmente patrones que tienen una gran porción de píxeles» y «el texto de la imagen no se reconoce como la parte más importante».

READ  LG Electronics ofrece 3 meses de Apple TV+ gratis a usuarios de Smart TV en 100 países


En el caso del texto, puede parecer que un modelo de lenguaje grande (LLM) lee y responde a los pasos de escucha como un ser humano, pero en realidad utiliza principios matemáticos para detectar patrones y clasificarlos con alta probabilidad. Por esta razón, LLM también se conoce como 'Probability Parrot'.


Además, el modelo de IA fue creado para reproducir algo similar a lo que había visto en los datos de entrenamiento, pero esencialmente no conocía las reglas para escribir palabras ni el número de dedos.


«Hasta el año pasado, los modelos de generación de imágenes tenían problemas para procesar correctamente las huellas dactilares y, en principio, el mismo problema con el texto», afirma Matthew Gustiel, investigador de IA y profesor de la Universidad de Alberta.


Para resolver este problema, los desarrolladores mejoran el problema aumentando los conjuntos de datos con muestras de entrenamiento diseñadas para enseñarle a la IA cosas como cómo se ven las manos. Pero los expertos no esperaban que el error tipográfico se resolviera tan rápido.


«Entrenar el modelo puede mejorar el rendimiento, pero lamentablemente el inglés es muy complejo», afirmó Gustiel. Si se expande a otros idiomas, la curva de aprendizaje aumenta enormemente.


Por lo tanto, algunos modelos, como Adobe Firefly, aprenden a no representar texto en imágenes. Cuando especificas tipografía, solo aparecen marcas blancas. Sin embargo, la explicación es que estos guardias pueden evitarse ingresando suficiente información en la línea.


Señaló: «Además, el texto es muy difícil. Por eso ni siquiera puedo pronunciar 'ChatGPT' correctamente».

READ  Samsung Air Conditioner fortalece las capacidades de comodidad del cliente en preparación para la temporada alta


Por ejemplo, se utiliza el arte 'ASCII'. El arte ASCII se refiere a seguir imágenes o palabras con letras.


De hecho, se han publicado varios videos en YouTube y X (Twitter) donde los intentos de crear arte ASCII usando ChatGPT han fallado. Esta es una prueba de que ChatGPT no entiende la palabra en sí.


«LLM se basa en una arquitectura transformadora que en realidad no lee texto. «Cuando escribes una línea, se convierte en una codificación», dijo. «En otras palabras, hay una codificación de lo que significa 'el', pero es 'T' 'H' No estoy seguro de qué es 'E'. Significado.»



«El problema no es sólo la ortografía o el número de dedos», añadió. «Si los desarrolladores trabajan duro para resolver el problema de la digitación, problemas como las cuerdas de la guitarra que salen como 7 cuerdas o los teclados de piano con partes blancas y negras se resaltarán en el lugar equivocado». » él dijo.


Señala que incluso si los modelos de IA generativa mejoran a un ritmo increíble, estos problemas seguirán surgiendo porque, siendo realistas, la capacidad tecnológica no puede seguir expandiéndose.


«Muestras como ésta siempre producen pequeños problemas y estamos haciendo un buen trabajo identificando algunos de ellos», dijo Gustiel.


El fundador Hagu añadió: «La IA está avanzando, no hay duda al respecto». «Pero esta tecnología está sobrevalorada», subrayó.


Corresponsal Lim Da-joon [email protected]




Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *