16 de Mayo de 2024
Cultural

Internet se queda pequeña ante el apetito de datos de la IA


Foto: Blas A. Buendía .

*Se supone que es un sándwich hecho de 1s y 0s | Hecho en Midjourney

Espresso Matutino . | Ciudad de México | 02 Abr 2024

El rápido avance de la inteligencia artificial está topándose con un obstáculo inesperado: la falta de datos suficientes en Internet para alimentar a estos gigantes hambrientos de información.


Empresas como OpenAI y Anthropic están en una carrera contra el tiempo para encontrar nuevas fuentes de datos que permitan entrenar a la próxima generación de modelos de IA.


Te contamos por qué:


Los modelos de IA más avanzados, como GPT-4 de OpenAI, necesitan cantidades astronómicas de datos para aprender. Estamos hablando de hasta 100 billones de tokens (palabras y partes de palabras).


Pero se estima que solo un 10% de la información disponible en Internet es realmente útil para este propósito. La mayoría son fragmentos inservibles.


Y para complicar aún más las cosas, plataformas como Facebook e Instagram están limitando el acceso a sus datos.


Ante este desafío, las empresas de IA están explorando alternativas creativas. OpenAI ha discutido usar transcripciones de videos públicos de YouTube para entrenar a GPT-5. Otras apuestan por generar sus propios datos sintéticos, aunque esto lleva el riesgo de crear modelos que solo hablen disparates.


En perspectiva: La escasez de datos de calidad podría frenar el desarrollo de la IA en un futuro próximo. Pero, al igual que ocurrió con el temido "pico del petróleo", es probable que la innovación y la tecnología terminen superando este desafío.