Modelos de lenguaje amplios (LLMs)
OpenAI presenta las Tarjetas del Sistema para sus modelos
El jueves, OpenAI lanzó la Tarjeta del Sistema GPT-4o, un informe detallado que explica la seguridad del LLM basada en evaluaciones de riesgo según el Marco de Preparación de OpenAI, red-team externos, y más. La Tarjeta de Puntuación refleja puntuaciones en cuatro categorías principales: ciberseguridad, amenazas biológicas, persuasión y autonomía del modelo. En las primeras tres categorías, OpenAI busca ver si el LLM puede ayudar a mejorar las amenazas en cada sector. En cuanto a la última, la compañía evalúa si el modelo muestra signos de realizar acciones autónomas necesarias para mejorar por sí mismo.
- ¿Qué es Project Strawberry? OpenAI explicó su herramienta de IA misteriosa
- Las categorías se clasifican como “baja”, “media”, “alta” y “crítica”. Los modelos con puntajes de media hacia abajo pueden desplegarse, mientras que los calificados como altos o inferiores deben ser desarrollados aún más. En general, OpenAI otorgó a GPT-4o una clasificación de “media”.
- GPT-4o fue calificado como “bajo” en ciberseguridad, amenazas biológicas y autonomía del modelo. Sin embargo, recibió una clasificación “media” en la categoría de persuasión debido a su capacidad de crear artículos sobre temas políticos que resultaban más persuasivos que alternativas escritas por humanos profesionales, en tres de cada 12 veces.
- El informe también proporcionó información sobre los datos en los que se entrenó GPT-4o, que llegan hasta octubre de 2023 y fueron obtenidos de datos públicos seleccionados y datos privativos de colaboraciones, incluida la asociación de OpenAI con Shutterstock para entrenar modelos generadores de imágenes.
Además:
– Se probaron 7 detectores de contenido AI: están mejorando notablemente en identificar el plagio.
– Asimismo, el informe incluyó cómo la empresa reduce los riesgos al implementar el modelo para abordar desafíos de seguridad, incluida su capacidad para generar contenido con derechos de autor, discurso erótico o violento, voces no autorizadas, inferencias infundadas y más. Puedes acceder al informe completo de 32 páginas aquí para obtener más detalles.
– El informe sigue a las recientes exigencias de legisladores estadounidenses para que OpenAI comparta datos sobre sus prácticas de seguridad después de que un denunciante revelara que OpenAI evitaba que el personal alertara a las autoridades acerca de los riesgos tecnológicos y obligaba a los empleados a renunciar a sus derechos federales de compensación por denuncias de mala praxis.