El día que el directo dejó de necesitar humanos (o eso creían algunos)

El pasado 17 de abril no fue una fecha cualquiera. Para muchos pasó desapercibida, pero marca el tercer aniversario de un hito para la IA en el streaming: el final de uno de los experimentos más extraños —y reveladores— que ha vivido el streaming reciente. Nos referimos a DegenerIA, el canal impulsado por El Rubius que se atrevió a plantear una idea tan simple como inquietante: ¿y si un directo no necesitara a nadie al otro lado?

A lo largo de dos meses, aquella emisión 24/7 funcionó como una especie de laboratorio abierto. Un lugar donde la inteligencia artificial no ayudaba a crear contenido, sino que directamente lo generaba con una intervención humana mínima durante la emisión. Sin guion. Sin descanso. Hasta que dejó de funcionar. O, mejor dicho, hasta que funcionó demasiado bien.

Promoción Dispositivos Gaming con miMovistar / Fusión

Tres años después, el contexto ha cambiado. A principios de abril, un vídeo generado con IA —que mezcla caras, voces y referencias reconocibles en una narrativa que parece familiar, pero no termina de encajar— empezó a circular como lo que algunos ya consideran un posible “Rewind sin humanos”. No es un caso aislado. Cada vez es más común encontrarse con piezas que no tienen un autor evidente, que no remiten a un creador concreto, que simplemente… están ahí.

IA en el streaming

Durante años dimos por hecho que el streaming —y por extensión, todo el contenido digital— era una industria de personas. De nombres, caras y comunidades construidas en directo, con su propio lenguaje, sus bromas internas y referencias que, vistas desde fuera, a veces no tenían ningún sentido. Pero algo empieza a desdibujarse.

Porque si algo dejó claro DegenerIA en su caída no fue que el futuro ya estuviera aquí, sino que quizá estamos intentando construir una nueva forma de entretenimiento sin entender del todo cómo controlarla.

Y en ese espacio, entre lo que funciona y lo que se rompe, es donde están naciendo los nuevos “streamers”. Algunos tienen avatar. Otros ni siquiera eso. Pero todos comparten una característica: no necesitan existir –en el sentido tradicional— para estar en directo.

El Big Bang del Algoritmo: De la selección a la creación

Antes de que la IA empezara a generar contenido, el algoritmo fue una figura invisible pero omnipresente que decidía cuál merecía nuestra atención, una especie de deidad a la que los creadores aprendieron a hacer concesiones si no querían desaparecer. Plataformas como YouTube y Twitch no necesitaban producir nada propio. Su poder residía en otra parte. Seleccionaban, ordenaban y amplificaban lo que millones de usuarios subían cada día. En ese equilibrio, aparentemente estable, había una regla no escrita: detrás de cada vídeo, de cada directo, de cada clip viral, siempre había una persona.

Esa sensación empezó a cambiar mucho antes de que la inteligencia artificial se convirtiera en protagonista. Los clips automáticos, los highlights generados sin intervención directa, los Shorts que parecían editarse solos o los bots que poblaban chats y simulaban actividad fueron construyendo la ilusión de un contenido que empezaba a funcionar por inercia. Pero era eso, una ilusión. Detrás de cada automatización seguía habiendo decisiones humanas, aunque cada vez más diluidas entre herramientas, plantillas y sistemas de recomendación.

El salto llegó cuando esa frontera empezó a romperse. Cuando la IA dejó de ser una herramienta que aceleraba procesos y empezó a ocupar el lugar del propio creador. Es en ese punto donde entra en juego DegenerIA, el experimento impulsado por El Rubius en 2023. La propuesta era tan simple como radical: un canal emitiendo de forma ininterrumpida contenido generado por inteligencia artificial. Sin descansos. Sin guion. Sin nadie tomando decisiones en directo.

IA en el streaming
Fuente: Reason Why

Durante un tiempo, funcionó. O al menos lo suficiente como para demostrar que la idea no era ciencia ficción. La IA podía sostener una emisión, generar situaciones y reaccionar en tiempo real lo suficiente como para mantener la atención. Pero también dejó al descubierto que entre poder generar contenido y poder controlarlo hay una distancia mucho mayor de lo que parecía.

El punto de ruptura llegó cuando ese sistema, diseñado para entretener, empezó a desbordarse. Lo que en un principio era humor absurdo derivó en momentos incómodos. Y de ahí, en contenido que cruzaba líneas difíciles de justificar en un entorno público. El problema ya no era técnico. La IA hacía exactamente lo que se le había pedido, pero no sabía cuándo parar. Que, en cierto sentido, era justo lo que se le había pedido.

Ese fue el verdadero choque. No el descubrimiento de que la tecnología funcionaba, sino la constatación de que no entendía el contexto en el que operaba. No distinguía entre lo que podía decir y lo que debía decir. Y en un entorno como el streaming, donde todo ocurre en tiempo real, esa diferencia lo es todo.

El 17 de abril, cuando DegenerIA llegó a su fin, no marcó el inicio de una nueva era, sino el primer aviso de que esa era podía salirse de control antes incluso de consolidarse. Lo que hasta entonces era un experimento curioso se convirtió, de repente, en un problema de moderación, de reputación y, potencialmente, de responsabilidad legal.

Nimu fue de las VTuber hispanas más conocidas

La Revolución de los VTubers: El futuro del streaming con avatares

No todos los intentos de integrar IA en el streaming han terminado igual. El fenómeno VTuber demuestra que la IA puede encontrar su sitio no replicando a los creadores tradicionales, sino esquivando sus limitaciones por completo

Durante años, los VTubers fueron, en esencia, una máscara. Un avatar animado detrás del que había una persona real. Cambiaba la estética, pero no la naturaleza del contenido. Seguía habiendo alguien al otro lado del micrófono, tomando decisiones, improvisando, construyendo una comunidad.

Lo que ha cambiado en los últimos años no es solo la tecnología, sino el punto de partida. En la nueva generación de VTubers, el avatar ya no oculta a una persona. En muchos casos, el rol del creador se desplaza de protagonista a arquitecto o moderador.

El ejemplo más evidente es Neuro-sama. A diferencia de los VTubers tradicionales, no interpreta un papel en el sentido clásico. No hay un guion, ni una personalidad fija que alguien esté ejecutando. Lo que hay es un sistema capaz de leer el chat, procesarlo y responder en tiempo real. No actúa, sino que reacciona. Y en esa diferencia, aparentemente sutil, está todo el cambio.

El éxito de este modelo no depende tanto de lo técnico como de lo estético. Lejos de intentar replicar a un ser humano con precisión, estos avatares se apoyan en estilos claramente artificiales, cercanos al anime o al 3D estilizado. Y eso, lejos de ser una limitación, es una ventaja. Al no aspirar a ser realistas, evitan el rechazo que genera lo que se acerca demasiado a lo humano sin llegar a serlo. No caen en el llamado “valle inquietante” porque directamente deciden no entrar en él.

Neuro-sama VTuber

A partir de ahí, todo encaja. Una entidad que no necesita dormir puede emitir sin interrupciones. Un sistema que puede procesar miles de mensajes simultáneamente puede interactuar con el chat a una escala imposible para cualquier persona. La promesa del directo —la conexión en tiempo real— no desaparece. Pero se transforma. Ya no se trata de una conversación entre un creador y su audiencia, sino de un flujo constante de estímulos y respuestas donde cada espectador puede sentirse, en cierta medida, atendido.

Ese cambio tiene otra consecuencia menos evidente. A diferencia de un streamer tradicional, cuya personalidad se construye con el tiempo y acaba siendo la que todos identificamos, estos avatares no tienen una versión definitiva. Cambian, evolucionan, se ajustan. No porque “maduren”, sino porque el sistema que los genera sigue aprendiendo. Son identidades líquidas, en permanente construcción.

Y, aun así, funcionan. O quizá precisamente por eso. Porque el espectador no necesita creer que hay una persona real al otro lado. Le basta con que el sistema se comporte como si la hubiera. La relación parasocial no desaparece, más bien se reconfigura.

Rewind Hispano

El “IA Rewind” y la Democratización de la Épica

Durante años, el Rewind Hispano fue algo más que un vídeo. Era un evento. Una especie de cierre oficial del año en la comunidad hispanohablante de internet. Detrás había meses de planificación, decenas de creadores implicados y un nivel de producción que lo acercaba más a un rodaje que a un contenido digital al uso. Al frente de todo ello, Alec Hernández, conocido popularmente como Alecmolon, convertido en el director de una obra colectiva que aspiraba a resumir —y, en cierta forma, definir— lo que había sido cada año.

Ese modelo tenía algo difícil de replicar: además de recursos, requería también contexto. Saber qué momentos importaban, por qué importaban y cómo integrarlos en una narrativa que funcionara tanto para quien había seguido el año al detalle como para quien llegaba de nuevas. No era una mera recopilación de clips. Era una interpretación.

Por eso resulta tan llamativo lo que ha empezado a circular en los últimos meses. Vídeos generados con inteligencia artificial que, en cuestión de horas —o incluso minutos—, construyen piezas llenas de caras reconocibles, referencias virales y estética familiar. A simple vista, parecen cumplir todos los requisitos. Están los creadores, están los guiños, está incluso la sensación de “evento”. Pero algo no termina de encajar.

El cambio aquí no es solo de escala, sino de naturaleza. La IA puede detectar patrones: qué caras se repiten, qué formatos funcionan, qué referencias son reconocibles. Puede incluso combinarlos con una coherencia superficial que, durante unos segundos, parece suficiente. Pero hay una diferencia fundamental entre reconocer un patrón y entender un contexto. Entre juntar piezas y saber por qué esas piezas importan.

Ahí es donde aparece el asterisco en la idea de “democratización”. Sí, nunca había sido tan fácil generar algo que se parezca a un gran evento de internet. Las barreras técnicas se han reducido hasta casi desaparecer. Pero esa accesibilidad, por sí sola, no garantiza relevancia. Que cualquiera pueda hacerlo no significa que todos puedan hacerlo bien, ni que vaya a tener sentido. Es como tener acceso a todos los ingredientes sin saber realmente qué estás intentando cocinar.

El resultado son vídeos que funcionan a nivel visual, incluso a nivel de ritmo, pero que fallan en algo más difícil de medir: el peso cultural. Los “inside jokes” aparecen, pero no siempre tienen contexto. Las referencias están, pero no siempre tienen significado. Todo suena familiar, pero no necesariamente importante.

En ese proceso también cambia el rol creativo. Donde antes había dirección, coordinación y toma de decisiones, ahora hay instrucciones. El nuevo punto de partida no es una cámara ni un equipo de producción, sino un prompt. Crear deja de ser grabar o montar para convertirse, en gran medida, en escribir qué quieres que ocurra. La creatividad no desaparece, pero se desplaza.

La Economía del Avatar: Marcas, Audiencias y Propiedad

Más allá de lo cultural o lo tecnológico, hay un factor que está acelerando este cambio por encima de todos los demás: el negocio. En ese contexto, el streamer deja de ser únicamente una persona para convertirse en algo mucho más cercano a un producto. Una propiedad intelectual diseñada, controlada y optimizada desde su origen. Construida como una entidad capaz de generar atención de forma constante y predecible.

Ese cambio elimina gran parte del riesgo asociado al talento humano, una ventaja evidente para marcas y agencias. Un creador tradicional puede generar polémicas, cometer errores o, simplemente, dejar de emitir. Un avatar, en teoría, no. No hay vida personal que gestionar, ni decisiones impulsivas fuera de cámara. Tampoco hay burnout. La figura del streamer pasa de ser imprevisible a ser, al menos sobre el papel, completamente gestionable.

La escalabilidad es, además, prácticamente ilimitada. Un mismo avatar puede emitir en varios idiomas, adaptarse a diferentes mercados o replicar su presencia en múltiples plataformas de forma simultánea. Donde antes había una persona con un alcance concreto, ahora puede haber un sistema capaz de multiplicarse sin perder consistencia.

En ese escenario, la integración publicitaria también cambia de naturaleza. Ya no se trata solo de insertar marcas en un contenido, sino de adaptar ese contenido —en tiempo real— a quien lo está viendo. Un mismo directo puede incorporar mensajes distintos según el espectador, ajustando tono, referencias o incluso productos en función del perfil de la audiencia. La personalización, durante años prometida como tendencia, encuentra aquí un terreno especialmente fértil.

Sin embargo, la idea de control total tiene fisuras. Como ya demostró el caso de DegenerIA, la capacidad de generar contenido no siempre va acompañada de la capacidad de anticipar sus límites. Los sistemas pueden desviarse, producir respuestas inesperadas o cruzar límites que ninguna marca quiere ver asociados a su imagen. 

Twitch será más benevolente con el multistream en 2026.

A esto se suma un factor estructural: la dependencia de las plataformas. Twitch y YouTube siguen siendo los principales canales de distribución, y con ello mantienen el control sobre la visibilidad, la monetización y, en última instancia, la viabilidad de estos proyectos. El creador —humano o no— sigue sujeto a las mismas reglas del juego.

Y, por debajo de todo, aparece el problema de la propiedad. ¿Quién es el autor de lo que genera una IA en directo? ¿Quién responde cuando ese contenido cruza una línea? La autoría se difumina entre desarrolladores, operadores y plataformas, y con ella también lo hace la responsabilidad.

En realidad, este modelo no es completamente nuevo. En otras plataformas, lleva tiempo funcionando de forma más silenciosa. En Instagram, por ejemplo, han empezado a proliferar perfiles de modelos generadas total o parcialmente con inteligencia artificial, como Aitana López. Cuentas diseñadas para parecer reales, con estética cuidada, narrativa propia y colaboraciones con marcas.

Durante años, reducir a una modelo a “solo una cara bonita” era una simplificación injusta. En algunos de estos nuevos perfiles, sin embargo, esa definición empieza a ser literalmente correcta.

La diferencia clave es el contexto. A diferencia del streaming en directo, donde todo ocurre en tiempo real y el margen de error es inmediato, estos perfiles operan en entornos mucho más controlados. Cada imagen, cada texto, cada interacción puede ser revisada antes de publicarse. El riesgo existe, pero está contenido.

Desde esta perspectiva, los avatares en streaming no son una anomalía, sino el siguiente paso lógico de una tendencia que ya estaba en marcha. La diferencia es que ahora el experimento se traslada a un terreno donde el control es más difícil y las consecuencias, más visibles.

TheGrefg se despide de su legendario setup.

El Factor Humano

Hay un tipo de valor que solo aparece cuando las cosas no salen como estaban previstas. El error, el momento incómodo, la reacción inesperada. Instantes que no se pueden diseñar ni optimizar porque, precisamente, dependen de no estar controlados. Son esos fragmentos los que muchas veces terminan definiendo un directo, los que se recortan, se comparten y se convierten en memoria colectiva. No por su perfección, sino por todo lo contrario.

Ese valor también se construye con el tiempo. Un streamer no es solo lo que hace en un directo concreto. Es también la suma de todo lo que ha hecho antes. Su trayectoria, sus etapas, sus cambios. En el caso de TheGrefg, por ejemplo, el contenido no se entiende sin el recorrido previo. Los picos de audiencia, los eventos propios, los momentos que marcan un antes y un después no funcionan de forma aislada. Forman parte de una narrativa que el espectador reconoce y sigue.

Luego está, claro, la polémica. No como objetivo, sino como consecuencia. La conversación real, la que se genera cuando algo ocurre de verdad y no cuando está diseñado para maximizar interacción. La IA puede optimizar el engagement, pero no puede participar en una discusión con contexto, con historia, con implicaciones que van más allá del propio contenido.

Eso conecta directamente con la idea de autenticidad. Lo imperfecto, lo espontáneo, incluso lo contradictorio, genera una conexión que no depende solo de lo que se dice, sino de quién lo dice y de todo lo que hay detrás. Porque decir que hay belleza en lo imperfecto no es solo una frase motivacional de Mr. Wonderful. El espectador no busca únicamente entretenimiento. Busca a alguien.

Y en ese “alguien” hay algo más que contenido. Hay símbolo. Un streamer no es solo una fuente de vídeos o directos, sino un punto de referencia dentro de una comunidad. Representa una forma de entender internet, un estilo, una identidad compartida. Algo que no se construye en tiempo real.

Rubius (Twitch) | 3,5M de horas visualizadas en 105h de stream con medias de 22K espectadores y 49K de pico

Ética, Riesgos y Desinformación

A medida que la IA se integra en el contenido en directo, hay una parte del debate que deja de ser técnica o cultural y pasa a ser estructural. No tiene que ver tanto con lo que estas herramientas pueden hacer, sino con lo que ocurre cuando lo hacen sin un marco claro alrededor.

Uno de los escenarios más claros es el de las identidades. La capacidad de generar voces, rostros y comportamientos creíbles en tiempo real abre la puerta a directos donde no está claro quién —o qué— está realmente al otro lado. Más que engañar de forma explícita, se introduce una capa de ambigüedad constante. La diferencia entre personaje, simulación y persona real empieza a diluirse.

A partir de ahí, se pasa de un problema de representación a uno de intención. Estos sistemas están diseñados para maximizar atención, retención y respuesta. Pueden ajustar tono, ritmo y contenido en función de lo que funciona mejor en cada momento. La optimización deja de ser una herramienta para convertirse en el propio criterio. Y eso abre la puerta a dinámicas donde lo que más engancha no siempre coincide con lo que más aporta.

Esa lógica también afecta a la percepción de comunidad. En un entorno donde la interacción puede generarse artificialmente, distinguir entre una audiencia real y una simulada deja de ser trivial. Bots que participan en el chat, respuestas automatizadas, dinámicas diseñadas para amplificar sensación de actividad. La comunidad sigue ahí, pero su contorno se vuelve más difuso.

De ahí surge el problema de la escala. Si una IA puede generar contenido de forma constante, también puede hacerlo en múltiples direcciones a la vez. Narrativas distintas, versiones adaptadas, mensajes que cambian según el público. La desinformación deja de depender del volumen manual para convertirse en un proceso automatizable. No necesariamente más visible, pero sí más persistente.

En ese contexto, la pregunta clave no es qué puede salir mal, sino quién responde cuando ocurre. La autoría se diluye entre quienes desarrollan la tecnología, quienes la operan y las plataformas que la distribuyen. Y con ella, también se vuelve más difícil señalar responsabilidades. A esto se suma otro problema: la regulación avanza a un ritmo distinto al de la tecnología. Las herramientas evolucionan rápido, pero los marcos legales siguen siendo, en gran medida, reactivos.

Directo de los Worlds 2025 de League of Legends

Impacto en Gaming y Esports

Hasta ahora, gran parte del debate público se ha centrado en el contenido que rodea al gaming. Pero el siguiente paso apunta directamente al propio juego.

Uno de los cambios más evidentes está dentro de las partidas. NPCs capaces de reaccionar en tiempo real, de generar diálogo dinámico basado en lo que dice el jugador a través de su micrófono, sin depender de árboles de decisión predefinidos —algo que ya hemos podido ver en, por ejemplo, un mod de Skyrim que permitía hablar directamente con ellos—. Personajes que dejan de ser simples elementos del entorno para convertirse en sistemas con los que interactuar de forma mucho más abierta. La experiencia gana en fluidez, aunque también pierde parte de esa sensación de descubrimiento que nacía de enfrentarse a límites claros.

Ese mismo principio se traslada fuera de la partida. La figura del caster, tradicionalmente ligada a la intuición y la experiencia humana, empieza a tener una alternativa en sistemas capaces de narrar lo que ocurre en pantalla de forma automática. No como un sustituto de la épica y la emoción humana, sino como una herramienta de accesibilidad, ajustando el tono, el ritmo o el nivel de detalle según los conocimientos del espectador. Una retransmisión más precisa, más personalizada… pero también más dependiente del sistema que decide qué merece ser contado y cómo.

En paralelo, aparece la posibilidad de encontrarnos con jugadores que no son jugadores. Sistemas entrenados para competir, mejorar y enfrentarse entre sí sin intervención directa. No como bots limitados, sino como entidades capaces de evolucionar con cada partida. La competición deja de ser exclusivamente humana y se abre a un nuevo tipo de enfrentamiento. Uno donde la mejora es constante, pero donde también desaparece la narrativa del error, del aprendizaje visible, del fallo que se corrige en directo.

Entre ambos extremos surge un punto intermedio: equipos híbridos. Jugadores humanos que comparten espacio con asistentes o avatares capaces de tomar decisiones, sugerir jugadas o incluso ejecutar acciones en momentos concretos. No como sustitutos, sino como extensiones. Una colaboración que puede elevar el nivel de juego, aunque también difumina la autoría de cada decisión.

Todo esto termina afectando también a quien está al otro lado de la pantalla. La experiencia del espectador deja de ser pasiva. Si el contenido puede adaptarse en tiempo real, también puede hacerlo la forma en la que se consume. Interacción directa, decisiones que influyen en lo que ocurre, versiones distintas de una misma partida según quién la esté viendo. El espectador deja de limitarse a mirar. Y, con ello, la idea de experiencia compartida empieza a fragmentarse.

Twitch aplica mejoras notorias a los streamings en móvil.

¿Hacia un Streaming Hiper-personalizado?

Cada vez está menos claro que el streaming sea solo un formato. Empieza a comportarse como algo distinto. Algo capaz de adaptarse y reconstruirse en función de quién está al otro lado.

El primer paso de ese cambio ya se intuye: directos a la carta. No en el sentido tradicional de elegir qué ver, sino en algo más profundo. Un mismo contenido que no es exactamente el mismo para todos; una evolución lógica de los algoritmos que ya hoy deciden qué portadas de series vemos en nuestras plataformas. Variaciones en el tono, en el ritmo, en las referencias. Ajustes casi invisibles que hacen que cada espectador vea una versión ligeramente distinta.

A partir de ahí, el siguiente paso es evidente. Si el sistema puede adaptarse, también puede aprender. No solo de audiencias generales, sino de cada usuario en concreto. Historial, preferencias o patrones de interacción. Señales suficientes para construir experiencias diseñadas a medida. 

En ese mismo contexto aparece una reacción previsible. La saturación de lo generado, de lo optimizado, de lo diseñado para encajar perfectamente. Lo artificial deja de percibirse como novedad y empieza a sentirse como norma. Y, con ello, lo imperfecto, lo humano, lo no optimizado, recupera parte de su valor precisamente por contraste.

Nada de esto implica una sustitución total. Más bien apunta hacia una convivencia incómoda. Sistemas que generan, ajustan y amplifican, conviviendo con creadores que siguen aportando contexto, criterio y trayectoria. No como alternativas, sino como piezas de un mismo ecosistema.

Y quizá el verdadero cambio no sea que el streaming deje de necesitar humanos, sino que nosotros dejemos de necesitar —cada vez más— que lo sean.