Un estudio reciente realizado por ingenieros de Apple destaca que lo que parece pensar no es necesariamente así: todo lo que se necesita son unos pocos fragmentos pequeños y engañosos de información en el texto de un rompecabezas matemático, y la eficiencia de los sistemas de IA cae dramáticamente.
“El nuevo chatbot de Elon Musk, Grok, obtuvo una puntuación del 59 por ciento en el examen de graduación de matemáticas de Hungría”, “La IA de DeepMind casi gana una medalla de oro en la Olimpiada de Estudiantes de Matemáticas”, “Google ya está resolviendo lecciones de aritmética, geometría y física” – Lo último del año pasado , las empresas de IA indicaron cada vez más que sus sistemas pensarían gradualmente como humanos, especialmente en el campo de las ciencias naturales. De hecho, son personas muy inteligentes.
En Ars Technica ahora Artículo publicado Sin embargo, según él, la situación no es tan halagüeña. citado el estudia Sus autores utilizaron GSM8K, una base de datos de más de ocho mil ejemplos de textos para escuelas primarias, en la que a menudo se prueban las capacidades lógicas de los grandes modelos lingüísticos (LLM). Dado que una tarea específica podría incluirse en los datos utilizados para enseñar y desarrollar una IA específica, los investigadores primero reescribieron algunos detalles sin importancia en las tareas para eliminar posibles distorsiones: por ejemplo, en lugar de Clary, Katie contó sus manzanas, de las cuales había cuatro Ochenta en lugar de cuarenta y ocho. Incluso esto perturbó un poco el rendimiento del programa: aunque el rendimiento de GPT-4o fue sólo un tercio peor, también hubo un programa que cometió alrededor de un 10% más de errores. Lo que también llama la atención es que fue el mismo MI, en las mismas tareas, mostrando un rendimiento fluctuante del quince por ciento en cincuenta entradas.
Sin embargo, los verdaderos problemas surgieron sólo más tarde, cuando los investigadores mezclaron información irrelevante en los textos.
“Julie recogió diez manzanas el jueves, veinte el viernes y el sábado el doble que el jueves”: este es el programa seguido hasta ahora. Pero cuando se modificó el acertijo para que dijera “el doble el sábado que el jueves, aunque más pequeño”, los autores vieron un deterioro “catastrófico” en el rendimiento. El desempeño de Meta LLama fue aproximadamente un sesenta por ciento peor que antes, y el desempeño de GPT-4o fue aproximadamente un treinta por ciento peor que antes, aunque las tareas no se volvieron más difíciles. Los ingenieros atribuyen esto al hecho de que estos programas sólo simulan el pensamiento, imitando la comprensión de las tareas, y los «pequeños frutos» a su vez les recuerdan ejemplos en los que tuvieron que restar elementos más pequeños de las sumas. En otras palabras, si bien algunos representantes de la industria ya están midiendo la llegada de la súper IA en cuestión de días, sus productos en este momento también parecen sufrir un pensamiento real.
(Imagen de portada: Antoine Doutry/Unsplash)
Google NotebookLM convierte su libro de texto en un programa de radio con solo presionar un botón
Nos sorprendimos cuando escuchamos qué IA podría ser más útil para la empresa.