Evaluacion de la inteligencia artificial para codificacion con pruebas del mundo real

Feb 19, 2025

Introducción a la Evaluación de AI para Codificación

Desde que ChatGPT y la inteligencia artificial generativa (IA) llegaron a la conciencia pública en 2022, he estado explorando cómo bien pueden escribir código los chatbots de IA. Al principio, la tecnología era una novedad, similar a animar a un cachorro a realizar un nuevo truco. Pero después de ver cómo los chatbots de IA pueden ser herramientas de productividad efectivas y socios de programación, he estado sometiendo a las herramientas a pruebas más exhaustivas. Con el tiempo, he compilado un conjunto de cuatro pruebas del mundo real que se han utilizado para evaluar el rendimiento de los principales modelos de lenguaje grande de IA (LLM). Hasta ahora, he probado 10 LLM.

Evolución de la Suite de Pruebas de Codificación de IA

Hay una diferencia entre evaluar el rendimiento para ver si una IA cumple con especificaciones o requisitos arbitrarios y probar la tecnología para ver si puede ayudar en tareas de programación diarias. Inicialmente, intenté lo primero. Ejecuté una solicitud para generar la salida clásica “hola, mundo”, sazonada con algunos cálculos de tiempo y fecha. Esta solicitud se puede personalizar para probar diferentes lenguajes de programación. Probé la solicitud en ChatGPT, especificando 22 lenguajes de programación.

Pruebas de Productividad

Para las pruebas de productividad, utilicé mi trabajo de programación diario para alimentar las pruebas. Por ejemplo, poco después de que ChatGPT se convirtió en una herramienta pública, mi esposa me pidió que creara una función personalizada de WordPress para ayudarla con un proyecto de trabajo. Decidí ver si ChatGPT podía construirla. Para mi sorpresa, lo hizo. Otras veces, tuve que hacer que ChatGPT reescribiera un segmento de código, depurara un error de codificación que me tenía desconcertado y escribiera código utilizando herramientas de secuencias de comandos. Estos eran problemas que tuve que resolver como parte del trabajo real.

Pruebas Específicas

  • Prueba 1: Escritura de un Plugin de WordPress: Esta prueba evalúa si la IA puede escribir un plugin de WordPress completo, incluyendo código de interfaz de usuario. Si un chatbot de IA supera esta prueba, puede ayudar a crear código rudimentario como asistente de desarrolladores web.
  • Prueba 2: Reescritura de una Función de Cadena: Esta prueba evalúa cómo un chatbot de IA actualiza una función de utilidad para una mejor funcionalidad.
  • Prueba 3: Encontrar un Error Molesto: Esta prueba requiere un conocimiento íntimo de WordPress porque la respuesta obvia es incorrecta. Si un chatbot de IA puede responder correctamente a esta prueba, su base de conocimientos es bastante completa, incluso con frameworks como WordPress.
  • Prueba 4: Escritura de un Script: Esta prueba pide a un chatbot de IA que programe utilizando dos herramientas de programación bastante especializadas desconocidas para la mayoría de los usuarios. Básicamente, prueba el conocimiento del chatbot de IA más allá de los grandes lenguajes.

Resultados y Conclusión

Hasta ahora, he probado los siguientes chatbots de IA, además de ChatGPT: ChatGPT Plus, Perplexity, Perplexity Pro, Meta AI, Meta Code Llama, Claude 3.5 Sonnet, Gemini Advanced y Microsoft Copilot. Puedes tomar estas pruebas y conectarlas a tu IA de elección. Observa cómo salen los resultados. Utiliza estas, y otras pruebas que puedas desarrollar, para ayudarte a sentirte cómodo con la cantidad de confianza que puedes depositar en el código que produce tu IA. La evaluación continua de estas herramientas es crucial para entender su capacidad y limitaciones, lo que nos permitirá aprovechar al máximo su potencial en el desarrollo de software.