IA ADOBE EXPRESS
INTRODUCCIÓN
La Inteligencia Artificial (IA) se refiere a la creación de sistemas que simulan capacidades humanas como el aprendizaje, el razonamiento y la interpretación de datos con Adobe Express. En la búsqueda multimodal, permite integrar texto e imagen para ofrecer resultados más precisos y personalizados.
Los sistemas de búsqueda tradicionales se basan en anotaciones textuales y metadatos para indexar imágenes. Sin embargo, tecnologías como las incrustaciones multimodales, permiten realizar búsquedas directas de texto a imagen e imagen a imagen, mejorando la comprensión del contenido. A pesar de su efectividad, estos enfoques enfrentan retos al integrar contextos específicos.
Este documento describe la optimización de la búsqueda de plantillas en IA Adobe Express, que son documentos complejos que combinan imágenes, texto y metadatos enriquecidos. A través de incrustaciones y otras tecnologías, se busca mejorar la relevancia y precisión de los resultados.
INTELIGENCIA ARTIFICIAL (IA)
El objetivo es un ordenador que haga la misma clase de cosas que puede hacer las personas. La inteligencia es un espacio estructurado de capacidades diversas para procesar la información. Usa muchas técnicas para resolver problemas, las aplicaciones de la IA se esta utilizando para mejorar los hogares, autos, en las oficinas, bancos y en el internet.
Las dos funciones de la IA la tecnología usar los ordenadores para hacer cosas útiles y es científico ayudan a resolver problemas, aunque la IA hace referencias a máquinas físicas será más acertado que se utilizan los especialistas en sistemas llamado máquinas virtuales. La máquina virtual se puede definir como sistemas de procedimiento de la información que el programador concibe cuando escribe un programa. Pueden llevar a cabo tareas, tanto dentro del sistema como en el mundo exterior. ( Rouhiainen, 2018, pag 5, 8)
HISTORIA DE LA INTELIGENICIA ARTIFICIAL
Alan Turing en 1936 demostró que un sistema matemático que ahora se llama máquina universal de Turing puede llevar a cabo todos los cálculos posibles. Este sistema imaginario crea y modifica combinaciones de símbolos binarios representados por “0” y “1”. El aspecto fundamental de la lógica proposicional es que es binaria. Se supone que toda oración (llamada también proposición) es verdadera o falsa. No hay término medio.
McCullonch y Pitts podrían juntar a Russell y Sherrington porque ambos habían descrito sistemas binarios. Se asignaron los valores verdaderos / falso de la lógica a la actividad de encendido / apagado de las células cerebrales y a los 0/1 cd cada estado de las máquinas de Turing.
En suma la neurofisiología, la lógica y la computación se agruparon, y apareció también la psicología. McCulloch y creían (como muchos filósofos en aquel entonces) que el lenguaje natural se reduce, en lo esencial, a lógico. La computación de Turing podía aplicarse a la inteligencia humana y artificial. El artículo de McCulloch / Neumann, que pretendía en aquel entonces usar el sistema decimal le hizo reflexionar y cambiar al código binario.
La tecnología disponible era demasiado primitiva a mediados de la década de 1950, sin embargo, se desarrollaron máquinas más potentes y/o más fáciles de usar. Esto no significa que fuese más fácil pulsar los botones del ordenador o moverlo por la habitación. Más bien significa que era más fácil definir nuevas máquinas virtuales por el lenguaje de programación.
La investigación sobre la IA simbólica, en línea generales con el mismo espíritu del manifiesto de Turing, comenzó a ambos lados del atlántico. Un referente de finales de la década de 1950 fue el jugador de damas de Arthur Samuel que llegó a los titulares de los periódicos porque aprendió a general a su propio creador. Era un indicio de que los ordenadores podrían desarrollar inteligencia.
El segundo de estos indicios tuvo lugar a finales de la década de 1950, cuando la máquina de la Teoría Lógica no solo demostró dieciocho de los teoremas lógicos principales de Russell, sino que además halló una prueba más elegante para uno de ellos. (Boden, 2017, pag 12, 13 y 14)
ADOBE EXPRESS
Modelos y Datos
En esta sección se presentan los datos y modelos clave empleados para la recuperación y clasificación de plantillas IA Adobe Express. Las plantillas incluyen imágenes, texto y metadatos enriquecidos. Se dispone de datos de comportamiento estándar de búsqueda, como impresiones y clics, junto con datos específicos de la aplicación, como el número de ediciones y exportaciones.
Tipos de modelos multimodales:
- Modelos CLIP de texto e imagen.
- Modelo basado en la intención.
Estos modelos ayudan en la mejora de la recuperación y clasificación de plantillas, integrando múltiples fuentes de datos y capacidades de análisis multimodal. (Aroraa, King, Kumar, Sharma, Srikantan y Vardhan, 2024, pag 2)
Datos de Plantilla
Las plantillas IA Adobe Express son objetos enriquecidos que combinan múltiples capas visuales y cuadros de texto. Estas plantillas se presentan también como imágenes. Además de las imágenes, cada plantilla tiene un título proporcionado por el diseñador, junto con información de filtro como tipo de diseño, estilo, región y precio gratis o premium. También están disponibles datos de comportamiento agregados, tales como impresiones, clics, número de ediciones que reflejan cómo los usuarios personalizan las plantillas y exportaciones cuántas veces se exporta una plantilla después de ser editada. (Aroraa, King, Kumar, Sharma, Srikantan y Vardhan, 2024, pag 3)
Incrustaciones CLIP de Imagen y Texto
Recorte: integra imágenes y texto en un espacio común, lo que permite realizar búsquedas de imágenes a través de consultas textuales. Aunque existen modelos CLIP preentrenados, para la búsqueda de plantillas Express y otros activos visuales, como los de Adobe Stock, se necesitaba un modelo específico que cumpliera con varios requisitos:
- Funcionar con texto corto consultas y largo subtítulos.
- Soportar cinco idiomas inglés, francés, alemán, japonés y coreano.
- Ser eficaz con datos de imágenes de alta calidad, como plantillas, fotografías e ilustraciones.
- Contar con versiones dispersas y densas de incrustaciones.
Para cumplir estos requisitos, se entrenó un modelo CLIP con datos de imagen y texto con licencia de IA Adobe Express, enfocado en el vocabulario de Adobe y en varios idiomas.
En cuanto a la mejora de la latencia al usar incrustaciones con grandes cantidades de activos, se emplearon métodos aproximados que reducen la precisión, ya que la lista de activos más cercanos a la consulta no es exacta. Para mejorar la precisión, una vez reducido el conjunto de incrustaciones, por ejemplo, usando las en incrustaciones principales por puntuación aproximada, se utiliza la incrustación densa para obtener puntuaciones más precisas en la clasificación final. Además, se implementó un método de esparcimiento para tratar las incrustaciones de manera similar a las palabras clave en un índice.
Además de utilizar Adobe CLIP para aprender representaciones del contenido, se descubrió que mapear la intención del contenido a nodos discretos mejoraba la recuperación, la aplicabilidad y facilitaba tareas de recomendación. Sin embargo, los modelos auto supervisados como AdobeCLIP, entrenados con datos de consultas y títulos de activos (como Adobe Stock y IA Adobe Express), no lograban mapear correctamente la intención del activo a etiquetas discretas breves.
Para abordar esta limitación, se creó un Gráfico de Conocimiento Creativo (CKG), con más de 100,000 nodos centrados en las intenciones específicas de los usuarios de IA Adobe Express. Este gráfico fue clave para asignar activos a etiquetas discretas mediante un modelo transformador multimodal (MM-CKG), entrenado mediante un enfoque contrastivo supervisado.
Para el entrenamiento del modelo, se diseñaron bloques de autoatención secuenciales inspirados en arquitecturas previas. El modelo se construyó sobre la estructura base de CLIP, añadiendo bloques de atención secuencial que procesan los estados ocultos de la última capa de CLIP, los cuales pasan a través de capas transformadoras de múltiples cabezales. Las salidas de estas cabezas de atención secuencial se utilizaron como representación final de la imagen de entrada y el texto, mejorando así la precisión en la asignación de intenciones a los activos. (Samigova, 2023, pag 4, 5, 6 y 7)
CONCLUSIONES
Las búsquedas de material audivisual es muy sencillo de conseguir y las presentaciones, imagines o grabaciones tienen mucha más calidad.
Como la búsqueda es más objetiva se puede utilizar las herramientas adecuadas para que se explique de una mejor manera.
La creación de material es publicada para uso de quien lo necesite como planillas, el ahorro de tiempo y uso de material que puede ser comprado (una forma de ingreso).
El uso de aplicaciones con IA es fundamental para ser competitivos en el mundo laboral y ahorrar tiempo presentando de forma adecuada la información para que sea clara.
Créditos:
Autor: Helen Yohanna Naranjo Vargas
Editor: Carlos Iván Pinzón Romero
Código: UCPS
Universidad: Universidad Central
Fuentes:
Aroraa, C., King, T. H., Kumar, J., Lu, Y., Sharma, S., Srikantan, A., ... & Vardhan, H. (2024). Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express. arXiv preprint arXiv:2408.14698. https://arxiv.org/html/2408.14698v2
Boden, M. A. (2017). Inteligencia artificial. Turner. https://books.google.es/books?hl=es&lr=&id=LCnYDwAAQBAJ&oi=fnd&pg=PT3&dq=inteligencia+artificial&ots=dsSlC0bIh7&sig=p78mLngh9pfxRP2Ow2pIEF00hrA#v=onepage&q=inteligencia%20artificial&f=false
Rouhiainen, L. (2018). Inteligencia artificial. Madrid: Alienta Editorial, 20-21. https://planetadelibrosec0.cdnstatics.com/libros_contenido_extra/40/39308_Inteligencia_artificial.pdf
Samigova, G. A. (2023). The Importance of Artificial Intelligence in Modern Media Education Technologies in Institutions of Higher Education. International Journal of Current Science Research and Review, 6, 12. https://ijcsrr.org/wp-content/uploads/2023/12/50-2012-2023.pdf