Dentro de las redes neuronales (Parlangeli)

admin21/05/202504/10/2025014 minutos

Dentro de las redes neuronales (Parlangeli)

Este documento proporciona una visión general de la Inteligencia Artificial (IA), centrándose específicamente en los modelos de aprendizaje profundo y las redes neuronales que sustentan gran parte de la IA utilizada hoy en día, incluyendo Modelos de Lenguaje de Gran Tamaño (LLMs) como ChatGPT, basándose en la información obtenida de las fuentes proporcionadas.

1. ¿Qué es la IA Hoy?

El significado de «inteligencia artificial» ha cambiado considerablemente a lo largo de la historia. En la década de 1970, el enfoque estaba en crear sistemas de deducción automática, pero desarrollar una teoría completa del mundo resultó casi imposible.
Esto condujo al surgimiento del aprendizaje automático en las décadas de 1980 y 1990, el cual implica algoritmos capaces de aprender mediante ejemplos.
Entre las técnicas de aprendizaje automático, el aprendizaje profundo, que utiliza redes neuronales, ha tenido un éxito particular.
Casi toda la inteligencia artificial discutida hoy está basada en aprendizaje profundo, empezando por ChatGPT.

2. ¿Cómo Funcionan las Redes Neuronales?

2.1 Fundamentos Básicos

Las redes neuronales son esquematizaciones simplificadas inspiradas en el cerebro humano. El cerebro está compuesto por neuronas que reciben señales eléctricas (entrada), las promedian y producen una salida si el resultado supera un umbral.
De manera similar, las redes neuronales están formadas por «nodos» que se comportan como neuronas simplificadas.
Cada nodo está asociado con un número llamado «peso», que determina su relevancia dentro de la red.

2.2 Estructura de la Red

Los nodos están conectados en una estructura, inspirada especialmente en la corteza visual. Esta estructura suele ser de tipo «feed forward», lo que significa que la información se propaga únicamente hacia adelante.
La red se construye en capas: una primera capa para la entrada, capas intermedias y una capa final para la salida. Cada nodo en una capa está conectado con los nodos de las capas siguientes.

2.2.1 Proceso de Propagación

Los datos entran por la primera capa y salen por la última tras pasar por todas las capas intermedias.
El aprendizaje ocurre proporcionando una gran cantidad de entradas, lo que permite que la red se reconfigure progresivamente modificando los pesos para obtener mejores resultados. Así es como la red aprende.

3. Cómo Funcionan los Modelos de Lenguaje de Gran Tamaño (LLMs) como ChatGPT

3.1 Arquitectura Específica

Los LLMs operan de forma similar a otras redes neuronales, pero están construidos de manera diferente.
En los LLMs, tanto la primera capa (entrada) como la última capa (salida) constan de una enorme cantidad de nodos.

3.2 Generación de Palabras

La entrada (siempre un número) identifica de forma única una palabra específica.
Dada una secuencia de palabras, la red neuronal simplemente calcula la palabra más probable que le sigue.

4. Optimización del Rendimiento de la IA

4.1 Técnicas Empleadas

La estructura de una red neuronal depende de la tarea específica que debe realizar. Las redes neuronales transforman listas de números en otras listas de números.
DeepSeek, una IA proveniente de China que logró un alto rendimiento a una fracción del costo de sus contrapartes estadounidenses, se cree que utilizó técnicas de optimización conocidas.

4.2 Arquitectura Basada en Expertos

Una técnica es una arquitectura basada en una «mezcla de expertos», donde varias redes más pequeñas colaboran en paralelo, y el resultado final es similar a una decisión tomada por un comité.

4.2.1 Destilación de Conocimiento

Otra técnica utilizada es la «destilación», donde cada red pequeña aprende de redes más grandes y ya entrenadas, denominadas «maestras». Esta técnica reduce el número de variables procesadas, incluyendo pesos y nodos.
Se sospecha que DeepSeek logra un alto rendimiento a bajo costo destilando otras redes que requirieron recursos significativos para su entrenamiento.

5. Retos y Limitaciones en el Desarrollo de la IA

5.1 Falta de Teoría General

Un desafío importante es que no existe una teoría completa para las redes neuronales. A diferencia de otros métodos de aprendizaje automático, no es posible predecir las propiedades o el desempeño de una red neuronal solo analizando su estructura en papel.

5.2 Ensayo y Error

La única forma de saber si una red funcionará bien es probándola. Esto hace imposible identificar con certeza la arquitectura ideal. Actualmente, el desarrollo avanza por ensayo y error.

5.2.1 Integración con Legislación

Un reto clave para la investigación es conciliar la lógica de la informática tradicional con la inmensa capacidad estadística de las redes modernas. Una aplicación potencial mencionada es transformar las leyes europeas en reglas lógicas para que los textos generados por IA cumplan automáticamente con la legislación existente.

6. Errores Comunes en la IA: Alucinaciones y Sobreajuste

6.1 Tipos de Errores

Dos de los errores más comunes que comete la IA son las «alucinaciones» y el «sobreajuste».

6.2 Alucinaciones

Las alucinaciones ocurren cuando la IA produce información inexistente o engañosa. Puede inventar hechos, nombres, fechas o explicaciones en lugar de admitir que no sabe algo, como si imaginara detalles ausentes en los datos de entrenamiento.

6.3 Sobreajuste

El sobreajuste sucede cuando el modelo aprende demasiado rígidamente a partir de sus ejemplos. Se queda «atascado» en una respuesta inadecuada sin poder ampliar su perspectiva lo suficiente para encontrar la solución correcta. Esto se asemeja a aprender ejemplos de memoria sin entender la regla subyacente.

7. Preocupaciones sobre Datos y Entrenamiento

7.1 Fuentes de Datos

Los chatbots de IA generativa como los LLMs derivan su capacidad para formular textos de las enormes cantidades de datos con los que fueron entrenados — miles de millones de palabras procedentes de fuentes escritas, comenzando por la web.
Las empresas tecnológicas utilizan arañas web y herramientas de extracción web para recopilar estos datos. Las arañas navegan por internet y siguen enlaces para descargar texto, mientras que las herramientas de extracción estructuran los datos descargados.

7.2 Acceso y Transparencia

Grandes desarrolladores como Alphabet, OpenAI y Microsoft afirman recopilar solamente textos de páginas libremente accesibles, lo cual incluye redes sociales, material con derechos de autor como artículos en línea, blogs y páginas personales.
Sin embargo, las grandes empresas tecnológicas no son muy transparentes sobre la composición de sus conjuntos de datos.

7.2.1 Contenido Sensible

Han surgido problemas relacionados con el uso de material con derechos de autor y datos personales. Ejemplos citados incluyen Meta supuestamente usando un conjunto de datos que contiene más de 170 000 libros pirateados e imágenes de fuentes desconocidas que podrían incluir datos clínicos en la base de datos Laion. También hay sospechas de que algunas arañas pueden acceder a contenido protegido por contraseña en sitios de pago.

7.3 Calidad y Confianza

Esta falta de transparencia y dudas sobre el origen de los datos plantean preocupaciones no solo sobre derechos de autor y privacidad, sino también sobre la calidad de los textos que producen los algoritmos. Estos podrían estar basados en contenido racista o sexista, fuentes poco confiables o teorías conspirativas.
Es muy difícil que los ciudadanos puedan protegerse porque los datos utilizados por los LLMs no pueden eliminarse fácilmente una vez incorporados. Sería necesario reentrenar los modelos, pero esto es prácticamente imposible debido a los enormes costos implicados.

7.4 Consideraciones Geopolíticas

También existen preocupaciones geopolíticas, destacando la ubicación del centro de datos de DeepSeek en Xinjiang, China, lo cual genera temores sobre el flujo de datos al extranjero.

8. Perspectivas Futuras y Fiabilidad

8.1 Uso Responsable

Actualmente, la IA no debería usarse como un oráculo. Aunque una estructura que genere palabras aleatoriamente una detrás de otra no puede garantizar afirmaciones verdaderas, sí puede producir algo útil e interesante.

8.2 Certificación Externa

En el futuro, podría haber entidades virtuales autorizadas que certifiquen la fiabilidad de los resultados de una IA. Estas entidades externas esperan crear una «separación de poderes».

Conclusión

En resumen, la IA actual, especialmente los LLMs, aprovecha el aprendizaje profundo y redes neuronales entrenadas con enormes conjuntos de datos para generar texto y realizar tareas. Aunque existen técnicas de optimización, el campo carece de un entendimiento teórico completo, lo que lleva a un desarrollo basado en prueba y error y a problemas conocidos como alucinaciones y sobreajuste. Además, existen importantes preocupaciones sobre el origen, transparencia y calidad de los datos de entrenamiento, lo cual plantea cuestiones legales, éticas y de rendimiento para las empresas que implementan o dependen de estas tecnologías.

Fuente: Parlangeli, A. (2025). Dentro le reti neurali. Focus Italia, Giugno 392, 24-29.

#InteligenciaArtificial #IA #Tecnología #Innovación #BigData #TransformaciónDigital #ChatGPT #RedesNeuronales #ÉticaEnLaIA