QWen-Diseage es un generador de imagen nuevo, potente y de código abierto

¿Quieres visiones más inteligentes de tu bandeja de entrada? Suscríbase a nuestros boletines semanales para obtener lo que se refiere solo a la IA de las instituciones, los líderes de datos y seguridad. Suscríbete ahora


Después de aprovechar el verano con un grupo de modelos y símbolos fuertes que se centran en los nuevos modelos de código abierto y la codificación que coinciden o en algunos casos, logré hacerlo en competidores cerrados/reales estadounidenses, El «equipo Qwen» de AI Crack regresó de Alibaba nuevamente hoy con el lanzamiento de un nuevo generador de imágenes AI. – La fuente también está abierta.

Qwen-Taiage se destaca en un campo de imagen obstétrico lleno de gente debido a Concéntrese en presentar el texto con precisión dentro de las fotos de video – Un área todavía muchos competidores están luchando.

Con el apoyo de los programas de alfabeto y liquidación, el modelo está particularmente preparado en gestión de impresión compleja, línea múltiple, semántica a nivel de párrafo y Diale contenido del idioma (por ejemplo, inglés-chino).

En la práctica, esto permite a los usuarios Cree contenido como pegatinas de películas, rodajas de presentación, escenas de almacenamiento, cabello escrito a mano y gráficos de flores – Con un texto frágil en línea con sus reclamos.


La serie AI Impact regresa a San Francisco – 5 de agosto

La siguiente etapa de inteligencia artificial aquí: ¿estás listo? Únase a los líderes de Block, GSK y SAP para analizar exclusivos sobre cómo reiniciar a los agentes independientes de las tareas de flujo de trabajo de la Fundación, desde las decisiones en un momento real para la automatización integral.

Asegurar su lugar ahora: el espacio es limitado: https://bit.ly/3gulf


Los ejemplos de salida de la imagen QWEN incluyen una amplia gama de casos de uso en el mundo real:

  • Marketing y marcas: Personas de lingües de explosión con lemas de marca, línea elegante y formularios de diseño consistentes
  • Diseño de visualizaciónPiso, rebanadas familiarizadas con la planificación con las series jerárquicas para el título y las opiniones apropiadas del tema
  • educaciónObtener los temas de las aulas que se caracterizan por tarifas gráficas y el texto educativo presentados con precisión
  • Minorista y comercio electrónicoEscenas de interfaz de la tienda donde debe leer productos, pancartas y contexto ambiental
  • Contenido creativoPoesía escrita a mano, novelas de escena, aclaración similar a la animación con el texto de la historia compacta

Los usuarios pueden interactuar con el formulario en Chat de qwen El sitio web determinando el modo de «generación de imágenes» desde los botones debajo del campo de admisión.

Sin embargo, mis breves pruebas iniciales revelaron que el texto y el compromiso inmediato no fueron significativamente mejores que MidJourney, un famoso generador de inteligencia artificial de la compañía estadounidense del mismo nombre. Mi sesión a través de Qwen Chat ha producido múltiples errores en una rápida comprensión y sinceridad del texto, lo que plantea la decepción de mi esperanza, incluso después de repetidos intentos y la reformulación inmediata:

Sin embargo, MidJourney proporciona solo un número limitado de generaciones gratuitas y requiere contribuciones para obtener más información, en comparación con Qwen, que, gracias a su licencia de código abierto y sus postulados, publicados en ella BordadoPuede ser adoptado por cualquier institución o proveedor afiliado a una autoridad externa.

Licencias y disponibilidad

La imagen qwen se distribuyó en Apache 2.0 licenciaPermita el uso, redistribución y modificación comerciales y no comerciales, aunque se requiere el soporte y la inclusión del texto de la licencia para el trabajo derivado.

Esto puede hacer que sea atractivo para las instituciones que buscan una herramienta de generación de imágenes de código abierto para su uso para hacer garantías internas o externas, como boletines, anuncios, notificaciones, boletines y otros contactos digitales.

Pero el hecho de que los datos de capacitación modelo sigan siendo privados en secreto – Como con la mayoría de los generadores de fotos principales de la IA – Algunas instituciones pueden estropear la idea de usarlo.

Qwen, a diferencia de Adobe Firefly o Imágenes originales GPT-4O de OpenAi, Por ejemplo, No proporciona una compensación para los usos comerciales de su producto. (Es decir, si se presenta una demanda contra el usuario debido a la violación de los derechos de autor, Adobe y OpenAI ayudará a apoyarlos en los tribunales).

Formulario y activos asociados, incluidos las computadoras portátiles experimentales, herramientas de evaluación y programas textuales para el control, están disponibles a través de múltiples almacenes:

Además, el portal de evaluación directa llamado AI Arena proporciona a los usuarios para comparar las generaciones de imágenes en giras maritales, lo que contribuye a los líderes de ELO.

Capacitación y desarrollo

Detrás de Qwen-Dimage Performance está Un proceso de capacitación de ancho de ancho se basa en el aprendizaje gradual, alinee las tareas multimedia y la organización de datos agresivosDe acuerdo a El documento artístico emitido por el equipo de investigación hoy.

El grupo de entrenamiento incluye miles de millones de pares de imágenes obtenidas de cuatro áreas: imágenes naturales, imágenes humanas, contenido y diseño artístico (como calcomanías y diseños de interfaz de usuario) y datos que se centran en el texto artificial. El equipo de Qwen no especificó el tamaño del conjunto de datos de entrenamientoIndependientemente de los «miles de millones de pares de texto». Hicieron un colapso del porcentaje aproximado de cada una de la categoría de contenido que incluía:

  • naturaleza: ~ 55 %
  • Diseño (interfaz de usuario, calcomanías, arte): ~ 27 %
  • Personas (imágenes, actividad humana): ~ 13 %
  • Datos de provisión de texto artificial: ~ 5 %

Vale la pena señalar que Qwen confirma que todos los datos artificiales se han creado en el hogar, y que otros modelos de inteligencia artificial no utilizaron imágenes. A pesar de las etapas detalladas y la liquidación descritas, Los documentos no aclaran si alguno de los datos tiene licencia o se deriva de grupos públicos o de datos de propiedades.

A diferencia de muchos modelos obstétricos que excluyen el texto artificial debido al riesgo de ruido, Qwen-Tagage utiliza tuberías de exhibición artificiales que están estrechamente controladas para mejorar la cobertura de los caracteres, especialmente para letras de baja frecuencia en la bandeja.

Se utiliza una estrategia similar al plan de estudios: El modelo comienza con imágenes de suspensión simples y un contenido no de texto.Luego se trata de escenarios de texto sensibles, mezcla de lenguaje mixto y vértebras densas. este La exposición gradual a ayudar al modelo parece circular a través de programas de texto y tipos de formato.

QWEN-AS, fusiona tres unidades básicas:

  • Qwen2.5-vlEl modelo de lenguaje multimedia extrae el significado contextual y guía la generación a través de las afirmaciones del sistema.
  • VAE Cifrado/decodificadorEntrenadores de documentos de alta resolución y planificaciones realistas en el mundo real, tratan con representaciones visuales detalladas, especialmente el texto pequeño o grueso.
  • MmditLa columna vertebral del modelo de proliferación, coordinando el aprendizaje conjunto a través de los métodos de imagen y texto. Un nuevo sistema MSROPE (desarrollado codificación tópica) mejora la compatibilidad espacial entre los símbolos.

Juntos, estos ingredientes permiten que el amenaje QWEN funcione de manera efectiva en tareas que implican comprender y generar imágenes y edición exacta.

Estándares de rendimiento

La imagen qwen se evaluó en muchos estándares generales:

  • Ginebra y Dpg Estar de acuerdo
  • Un banco asientos y a Para el pensamiento formativo y la devoción al diseño
  • CVTG-2Ky Palabra chinaY Asientos de texto largo Presentar el texto, especialmente en contextos de lenguaje múltiple

En casi cada caso, la imagen QWEN-IMAGE o trasciende los modelos de código cerrado como GPT Image 1 (High), Seedream 3.0 y Flux.1 Kontext (PRO). Vale la pena señalar que su rendimiento del texto chino fue mucho mejor que todos los sistemas comparativos.

En la arena de IA, el general Tersors basados en más de 10,000 comparaciones del marido humano-Qwen-Tagage es en general en general y es un modelo de código abierto.

Los efectos de los tomadores de decisiones técnicas de las instituciones

Para los equipos de IA para instituciones que administran el complejo flujo de trabajo de medios, Qwen-Image ofrece muchas ventajas funcionales que están en línea con las necesidades operativas de diferentes roles.

Aquellos que dirigen un ciclo de vida de modelos de lenguaje de visión desde la capacitación para publicarBusque un valor en la calidad de la salida creada de Qwen-Amge y su ingrediente está listo para la integración. La naturaleza de código abierto reduce los costos de la licencia, mientras que la estructura estándar (QWEN2.5-VL + VAE + MMDIT) facilita la adaptación a los conjuntos de datos designados o refinandolos para las salidas del campo.

el Los datos de capacitación, en las líneas de los planes de estudio de estudio y los resultados estándar claros, ayudan a la diferencia en la evaluación de la aptitud física para este propósito. Ya sea que publiquen fotos de marketing, ofertas de documentos o gráficos de productos de comercio electrónico, Qwen-Dise permite una experiencia rápida sin restricciones reales.

Ingenieros Se estimará el costo de construir tuberías o modelos de inteligencia artificial a través de los sistemas distribuidos. El modelo ha sido capacitado para usar la estructura del producto y el consumidor, y admite un procesamiento desarrollado multipecisamente (256p a 1328p), y fue diseñado para funcionar con Megatron-LM y Tensor. este QWEN-AMAGAGE es un candidato para su publicación en entornos de nubes mixtos donde la confiabilidad y la productividad son importantes.

Además, el soporte para el flujo de trabajo de edición de fotos a la imagen (TI2I) y las demandas de la tarea permiten su uso en aplicaciones reales o interactivas.

Profesionales centrados en tragar datos, verificar la salud y la transformación QWEN-AISMAAGE se puede utilizar como una herramienta para crear conjuntos de datos artificiales para entrenar o aumentar los modelos de visión por computadora. Su capacidad para generar imágenes de alta resolución con comentarios ilustrativos de lenguaje múltiple puede mejorar en definición, detección de objetos o diseño.

Dado que Qwen-Image fue También entrena para evitar artefactos como códigos QRTexto distinguido y marcas de agua, y proporciona insumos artificiales de alta calidad de muchos equipos de instituciones de modelos generales asistentes para mantener la integridad del grupo de capacitación.

Buscando reacciones y oportunidades para la cooperación

El equipo de Qwen enfatiza la apertura y la cooperación de la comunidad en la emisión del formulario.

Se alienta a los desarrolladores a evaluar y establecer una imagen QWEN, enviar solicitudes de retiro y compartir la Junta de Evaluación. Las reacciones estarán en la presentación del texto, la lealtad de la edición y los casos de futuros de lenguaje múltiple para futuras repeticiones.

Con un objetivo declarado «reduciendo las barreras técnicas frente a la creación de contenido visual», el equipo espera servir a Qwen-amage solo como modelo, pero como base para futuras investigaciones y publicaciones prácticas a través de las industrias.


Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba