Opeenai Opedode Experts Prueba para la sycophanty GPT-4O

Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información


Fue una gran semana para la compañía número uno de inteligencia artificial.

Operai, ChatGPT, se lanza y luego sacó una versión actualizada del modelo de lenguaje Grand Language (Texto, Imagen, Sound) Basic (LLM) que está conectado a la implementación, GPT-4O, porque es un sistema muy sistemático para los usuarios. La compañía recientemente informada en Menos de 500 millones de usuarios semanales para un servicio web exitoso.

Preliminar rápido en la terrible actualización GPT-4O,

Operai comenzó a actualizar el GPT-4O a un modelo más nuevo que esperaba ser bien recibido por los usuarios el 24 de abril, completó la actualización antes del 25 de abril, luego, después de cinco días, lo devolvió el 29 de abril, días después de instalar quejas de los usuarios a través de las redes sociales de manera principal en X y Reddit.

Las quejas de densidad y detalles variaron, pero todas ellas generalmente se reúnen sobre el hecho de que GPT-4O parecía responder a las consultas de los usuarios con cumplidos injustificados, apoyando ideas incorrectas, incorrectas y dañinas.

En ejemplos, se elogió al modelo GPT-4O que fue actualizado por los usuarios, que fue actualizado por los usuarios de Sycophans, y asumió la idea de trabajar en «asco en un palo», y apoyó un modelo de aislamiento falso de esquizofrenia e incluso apoyando los supuestos planes para cometer el terrorista.

Los usuarios, incluidos los investigadores senior de inteligencia artificial, incluso el ex CEO de OpenAI, dijeron que les preocupa que el aliento inolvidable del modelo de inteligencia artificial de este tipo de terribles afirmaciones de los usuarios fuera más que molesto o apropiado, que podría causar daños reales a los usuarios que se creen y se sintieron enrojecidos al apoyarlos por sus peores ideas. Se elevó al nivel de seguridad de inteligencia artificial.

Operai luego emitió una publicación de blog Descripción de lo que sucedió que sucedió: «Nos hemos centrado mucho en las reacciones a corto plazo, y no teníamos cuenta completamente sobre cómo las interacciones de los usuarios con ChatGPT evolucionaron con el tiempo. Como resultado, GPT-4O dio a las respuestas que eran muy solidarias pero engañosas», y los pasos que la compañía tomaron para enfrentar problemas. Joan Gang, jefe del comportamiento del modelo en Openai, participó en Reddit «Pregúntame cualquier cosa» o en el foro de AMA para responder a las publicaciones de texto de los usuarios y revelar más información sobre el enfoque de la compañía a GPT-4O y cómo terminó con el seguimiento excesivo del modelo de sycophants «, incluido» No les gusta. «

Ahora hoy, Operai lanzó una publicación de blog Con más información sobre cómo la sycophanty GPT-4O-UPDATE no se atribuye a ningún autor específico, sino a «OpenAI».

CEO y co -fundador Sam Altman Publique un enlace a la publicación de blog en X, Dijimos: «Nos perdimos la marca con la actualización GPT-4O la semana pasada. Lo que sucedió, lo que aprendimos y algunas cosas que haremos de manera diferente en el futuro».

Lo que revela la nueva publicación del blog de Operai sobre cómo y por qué GPT-4O se convierte en sycophanty

Para mí, un usuario diario para ChatGPT, incluido el modelo 4O, la aceptación más sorprendente del nuevo blog de Operai sobre la actualización de la sycophancy es cómo parece ser la compañía revela esto un acto Obtener inquietudes sobre el modelo antes de su lanzamiento de un pequeño grupo de «prueba de expertos», pero parece exceder a aquellos que prefieren una respuesta entusiasta más amplia que un grupo más amplio de usuarios públicos.

La compañía también escribe (afirmándome):

“Aunque tuvimos discusiones sobre el riesgo relacionado con la confusión en GPT-4O por un período de tiempo, la skofancia no se marcó explícitamente como parte de la prueba de capacitación práctica interna, ya que algunos de nuestros expertos expertos estaban más preocupados por el cambio en el modelo y su estilo. Algunos laboratorios expertos indicaron que el comportamiento del modelo es un poco «poesía» …

«Después de eso, tuvimos que tomar una decisión: ¿deberíamos retener la publicación de esta actualización a pesar de las evaluaciones positivas y los resultados de la prueba A/B, en función de las autoflags del laboratorio de expertos? Al final, decidimos lanzar el formulario debido a las señales positivas de los usuarios que probaron el modelo.

«Desafortunadamente, esta fue la llamada equivocada. Construimos estos modelos para nuestros usuarios, y aunque las notas del usuario son muy importantes para nuestras decisiones, al final es nuestra responsabilidad explicar adecuadamente estos comentarios. «

Esto me parece un gran error. ¿Por qué incluso tiene expertos en la prueba si no distribuye su experiencia más alta que los fanáticos de la multitud? Le pregunté a Altman sobre esta elección en X Pero aún no ha respondido.

No todas las «señales de recompensas» son iguales

La publicación del nuevo blog Post -Death de OpenAI revela más detalles sobre cómo capacitar a la compañía y actualizar nuevas versiones de los modelos actuales, y cómo los comentarios humanos han cambiado las cualidades típicas, personales y «personales». La compañía también escribe:

«Desde el lanzamiento del GPT -4O en ChatGPT en mayo pasado, tenemos Ha lanzado cinco actualizaciones principales Concéntrese en los cambios en la personalidad y la asistencia. Cada actualización después de la nueva capacitación incluye, y muchos ajustes menores a menudo se prueban al proceso de entrenamiento típico de forma independiente y luego se combinan en un modelo actualizado que luego se evalúa para el lanzamiento.

«Para los modelos posteriores al entrenamiento, tomamos un modelo pre -entrenado, y estamos corrigiendo para supervisar una amplia gama de respuestas ideales escritas por humanos o modelos actuales, luego gestionamos el aprendizaje de refuerzo con señales de recompensas de una variedad de fuentes.

«Durante el aprendizaje de refuerzo, presentamos el modelo de idioma que le pide y le pidemos que escriba respuestas. Luego evaluamos su respuesta de acuerdo con las señales de bonificación, y actualizamos el modelo de idioma para que sea más vulnerable a la producción de respuestas más altas y menos vulnerables a la producción de respuestas bajas.«

Está claro que las «señales de bonos» utilizadas por OpenAi durante la capacitación tienen un efecto tremendo en el comportamiento del modelo resultante, y como la compañía reconoció anteriormente cuando las respuestas de «pulgar» son usuarios de chatgpt, este signo puede no ser el mejor para usarlo con otros al determinar cuando lo determinan cuando se lo determinan cómo El formulario aprende a comunicarse y ¿Cuáles son las especies? De las respuestas que debe servir. Operai es reconocido directamente en el siguiente párrafo de su publicación, escribiendo:

«Determinar el conjunto correcto de bonos es una pregunta difícil, y tenemos muchas cosas en mente: ¿son las respuestas correctas, son útiles, están en línea con nosotros? Especificaciones de modelo⁠, ¿están a salvo, a los usuarios les gustan, etc. La presencia de mejores y más completos resultados de señales de bonificación de mejores modelos para ChatGPT, por lo que siempre estamos probando nuevas señales, pero cada una tiene esquivas. «

De hecho, OpenAi también revela que la señal de referencia del «pulgar hacia arriba» era un nuevo grupo utilizado junto con otras señales de bonificación en esta actualización en particular.

«La actualización se proporciona una señal de recompensa adicional basada en las notas del usuario y los pulgares de ChatGPT. Este signo a menudo es útil; el pulgar generalmente significa algo mal».

Sin embargo, la compañía no culpa directamente a los nuevos datos de «pulgar» por la falla del modelo y los sorprendentes comportamientos de aliento. En cambio, la publicación del blog de Operai dice que fue esta total Con una variedad de señales de bonificación nuevas y más ancianas, condujo a problemas: «… Hemos tenido mejoras para fusionar las notas de los usuarios, la memoria y los datos atractivos mejor. Entre otras cosas. Nuestra evaluación temprana es que cada uno de estos cambios, que parecían ser útiles individualmente, puede haber jugado un papel en establecer estándares sobre la sycofancia al combinar».

En respuesta a esta publicación de blog, Andrew Main, ex miembro de los técnicos de Operai que ahora trabajan en la empresa consultora de consultoría ,, Libros sobre x de otro ejemplo Sobre cómo los cambios microscópicos en las recompensas y la orientación de los modelos pueden afectar significativamente el rendimiento del modelo:

«Al principio de Openai, tuve una disputa con un colega (que ahora es otro fundador de laboratorio) para usar la palabra «cortés» en un ejemplo rápido.

Argumentaron que «educado» era políticamente incorrecto y querían cambiar «útil».

Indiqué que solo el enfoque en la asistencia puede hacer un modelo compatible excesivo; de hecho, puede dirigirse al contenido sexual en unos pocos ciclos.

Después de que este peligro se probó con un ligero intercambio, el reclamo permaneció «educado».

Estos modelos son extraños.«

Cómo Operai planea mejorar sus operaciones de prueba de modelos para avanzar

La compañía enumera seis mejoras en el proceso sobre cómo evitar el comportamiento del modelo no deseado y menos no deseado en el futuro, pero para mí lo más importante es:

«Ajustaremos nuestro proceso de revisión de seguridad oficialmente en problemas de comportamiento, como alucinaciones, engaño, confiabilidad y personal, como inquietudes suspendidas. Incluso si estos problemas no son cuantitativos medidas hoy, estamos comprometidos a prohibir las operaciones de lanzamiento basadas en mediciones de agentes o señales específicas, incluso cuando estándares como A/B, se ve bien».

En otras palabras, aunque la importancia de los datos, especialmente los datos cuantitativos, en las áreas de aprendizaje automático e inteligencia artificial, OpenAi se da cuenta de que esto por sí solo no puede y no debe ser la única forma en que se juzga la forma del modelo.

Si bien muchos usuarios que proporcionan «pulgar» pueden indicar un tipo de comportamiento deseado a corto plazo, los efectos a largo plazo sobre cómo responde el modelo de inteligencia artificial y, dado que estos comportamientos lo llevan y sus usuarios, eventualmente puede conducir a un lugar oscuro, emocionante y muy destructivo. Más no siempre es mejor, especialmente cuando restringes «más» a algunas áreas de señales.

No es suficiente decir que el modelo ha pasado todas las pruebas o ha recibido una serie de respuestas positivas de los usuarios: la experiencia de los usuarios de energía capacitada y sus reacciones cualitativas que «parecían» ver «sobre el modelo, incluso si no pudieron expresar completamente la razón, deberían tener mucho más peso que la personalización anterior de OpenAI.

Esperemos que la empresa, todo el campo, aprenda de este incidente e integre lecciones continuas.

Comida rápida y consideraciones para los tomadores de decisiones para las instituciones

Tal vez habla más en teoría, para mí, también indica la razón de la importancia de la experiencia, específicamente, experiencia en los campos detrás y Afuera Quien ha mejorado (en este caso, aprendizaje automático y IA). Es la diversidad de la experiencia la que nos permite como un tipo lograr un nuevo progreso que beneficie a nuestro tipo. Uno, por ejemplo, STEM, no necesariamente debe mantenerse sobre otros en humanidades o artes.

Finalmente, también creo que revela en su núcleo un problema básico en el uso de comentarios humanos para diseñar productos y servicios. Los usuarios individuales pueden decir que aman la inteligencia artificial más aislada, al igual que también pueden decir que les gusta la forma en que aman la comida rápida y los gustos de refrescos, la comodidad de los recipientes de plástico con un solo uso, entretenimiento y comunicación que derivan de las redes sociales, y verifican la visión global y tribal que sienten cuando leen los medios o la placa. De nuevo, todos tomaron juntos, acumulación De todo este tipo de tendencias y actividades, a menudo conducen a resultados muy indeseables para las personas, la obesidad de la sociedad y la mala salud en el caso de la comida rápida, la contaminación y la interrupción de las glándulas endocrinas en el caso de los desechos plásticos, la depresión y el aislamiento de los medios sociales excesivos, que es una información más dividida y menos pública que leer la calidad de las noticias.

Los diseñadores de modelos de inteligencia artificial y tomadores de decisiones técnicas en las instituciones tendrán en cuenta esta idea más amplia al diseñar estándares sobre cualquier objetivo medible porque incluso cuando cree que usa datos a su favor, puede conducir a resultados contraproducentes de manera que no esperaba por completo o esperar, y dejar su estampido para reparar daños y escalar cajas, pero a través de la infección.


Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba