OpenAI lanza la Tarjeta del Sistema GPT-4o para evaluar la seguridad de sus modelos de lenguaje amplios (LLMs))

Aug 14, 2024

Modelos de lenguaje amplios (LLMs)

OpenAI presenta las Tarjetas del Sistema para sus modelos

El jueves, OpenAI lanzó la Tarjeta del Sistema GPT-4o, un informe detallado que explica la seguridad del LLM basada en evaluaciones de riesgo según el Marco de Preparación de OpenAI, red-team externos, y más. La Tarjeta de Puntuación refleja puntuaciones en cuatro categorías principales: ciberseguridad, amenazas biológicas, persuasión y autonomía del modelo. En las primeras tres categorías, OpenAI busca ver si el LLM puede ayudar a mejorar las amenazas en cada sector. En cuanto a la última, la compañía evalúa si el modelo muestra signos de realizar acciones autónomas necesarias para mejorar por sí mismo.

  • ¿Qué es Project Strawberry? OpenAI explicó su herramienta de IA misteriosa
  • Las categorías se clasifican como “baja”, “media”, “alta” y “crítica”. Los modelos con puntajes de media hacia abajo pueden desplegarse, mientras que los calificados como altos o inferiores deben ser desarrollados aún más. En general, OpenAI otorgó a GPT-4o una clasificación de “media”.
  • GPT-4o fue calificado como “bajo” en ciberseguridad, amenazas biológicas y autonomía del modelo. Sin embargo, recibió una clasificación “media” en la categoría de persuasión debido a su capacidad de crear artículos sobre temas políticos que resultaban más persuasivos que alternativas escritas por humanos profesionales, en tres de cada 12 veces.
  • El informe también proporcionó información sobre los datos en los que se entrenó GPT-4o, que llegan hasta octubre de 2023 y fueron obtenidos de datos públicos seleccionados y datos privativos de colaboraciones, incluida la asociación de OpenAI con Shutterstock para entrenar modelos generadores de imágenes.

Además:
– Se probaron 7 detectores de contenido AI: están mejorando notablemente en identificar el plagio.
– Asimismo, el informe incluyó cómo la empresa reduce los riesgos al implementar el modelo para abordar desafíos de seguridad, incluida su capacidad para generar contenido con derechos de autor, discurso erótico o violento, voces no autorizadas, inferencias infundadas y más. Puedes acceder al informe completo de 32 páginas aquí para obtener más detalles.
– El informe sigue a las recientes exigencias de legisladores estadounidenses para que OpenAI comparta datos sobre sus prácticas de seguridad después de que un denunciante revelara que OpenAI evitaba que el personal alertara a las autoridades acerca de los riesgos tecnológicos y obligaba a los empleados a renunciar a sus derechos federales de compensación por denuncias de mala praxis.