Si la IA intenta apoderarse del mundo, no cuentes con un “interruptor de emergencia” para salvar a la humanidad.
- El destacado investigador de IA Geoffrey Hinton estima que las probabilidades de que la IA domine el mundo en un futuro no muy lejano son de entre el 10% y el 20%.
- La empresa de IA generativa Anthropic tiene a sus investigadores creando escenarios para que los LLM se “comporten mal” y así poder construir barreras de protección para evitarlo.
- Pero la idea de un “interruptor de seguridad”, una forma de destruir físicamente la infraestructura de IA como último recurso, probablemente no funcione dado que la tecnología está ahora muy ampliamente distribuida.

Cuando se informó el mes pasado que Claude de Anthropic había recurrido al chantaje y otras técnicas de autoconservación para evitar que lo cerraran, sonaron las alarmas en la comunidad de IA.
Los investigadores antrópicos afirman que provocar un mal comportamiento de los modelos («desalineación» en la jerga de la industria) contribuye a aumentar su seguridad. Sin embargo, los episodios de Claude plantean la pregunta: ¿existe alguna manera de desactivar la IA una vez que supera el umbral de ser más inteligente que los humanos, o la llamada superinteligencia?
La IA, con sus centros de datos en expansión y su capacidad para crear conversaciones complejas, ya ha superado el punto de un mecanismo de seguridad físico o un “interruptor de seguridad”: la idea de que simplemente se la pueda desconectar para que no tenga energía.
El poder que más importará, según un hombre considerado “el padrino de la IA”, es el poder de la persuasión. Cuando la tecnología alcance cierto punto, debemos persuadir a la IA de que su mayor interés es proteger a la humanidad, a la vez que evitamos que la IA pueda persuadir a los humanos de lo contrario.
“Si se vuelve más inteligente que nosotros, será mucho mejor que cualquier persona a la hora de persuadirnos. Si no tiene el control, solo hay que persuadir”, afirmó Geoffrey Hinton, investigador de la Universidad de Toronto, quien trabajó en Google Brain hasta 2023 y dejó el puesto por su deseo de hablar con mayor libertad sobre los riesgos de la IA.
“Trump no invadió el Capitolio, pero convenció a la gente para que lo hiciera”, dijo Hinton. “En algún momento, la cuestión deja de ser encontrar un interruptor de emergencia y se centra más en el poder de la persuasión”.
Hinton afirmó que la persuasión es una habilidad que la IA dominará cada vez más, y que la humanidad podría no estar preparada para ello. «Estamos acostumbrados a ser los seres más inteligentes del mundo», afirmó.
Hinton describió una situación en la que los humanos son como un niño de tres años en una guardería, y se enciende un interruptor grande. Los otros niños de tres años te dicen que lo apagues, pero luego vienen los adultos y te dicen que nunca más tendrás que comer brócoli si dejas el interruptor encendido.
“Tenemos que afrontar el hecho de que la IA se volverá más inteligente que nosotros”, dijo. “Nuestra única esperanza es que no quieran hacernos daño. Si quieren acabar con nosotros, estamos perdidos. Tenemos que hacer que sean benévolos; en eso debemos centrarnos”, añadió.
Existen algunos paralelismos entre la forma en que las naciones se han unido para gestionar las armas nucleares y que pueden aplicarse a la IA, pero no son perfectos. «Las armas nucleares solo sirven para destruir cosas. Pero la IA no es así; puede ser una fuerza tremenda, tanto para el bien como para el mal», afirmó Hinton. Su capacidad para analizar datos en ámbitos como la salud y la educación puede ser muy beneficiosa, lo que, según él, debería aumentar el énfasis entre los líderes mundiales en la colaboración para que la IA sea benévola e implementar medidas de protección.
“No sabemos si es posible, pero sería triste que la humanidad se extinguiera por no habernos molestado en averiguarlo”, dijo Hinton. Cree que hay una notable probabilidad del 10% al 20% de que la IA se imponga si los humanos no logran hacerla benévola.

Según los expertos, se pueden implementar otras medidas de seguridad de la IA, pero esta también comenzará a entrenarse en ellas. En otras palabras, cada medida de seguridad implementada se convierte en datos de entrenamiento para su elusión, modificando la dinámica de control.
“El mero hecho de incorporar mecanismos de apagado enseña a estos sistemas a resistirlos”, afirmó Dev Nag, fundador de la plataforma de IA agéntica QueryPal. En este sentido, la IA actuaría como un virus que muta contra una vacuna. “Es como una evolución acelerada”, afirmó Nag. “Ya no gestionamos herramientas pasivas; negociamos con entidades que modelan nuestros intentos de controlarlas y adaptarnos en consecuencia”.
Se han propuesto medidas más extremas para detener la IA en una emergencia. Por ejemplo, un ataque de pulso electromagnético (PEM), que implica el uso de radiación electromagnética para dañar dispositivos electrónicos y fuentes de energía. También se ha debatido la idea de bombardear centros de datos y cortar las redes eléctricas, considerándola técnicamente posible, pero actualmente una paradoja práctica y política.
En primer lugar, la destrucción coordinada de centros de datos requeriría ataques simultáneos en docenas de países, cualquiera de los cuales podría negarse y obtener una ventaja estratégica masiva.
“Destruir centros de datos es una gran ciencia ficción. Pero en el mundo real, las IA más peligrosas no estarán en un solo lugar: estarán en todas partes y en ninguna, integradas en la estructura de los negocios, la política y los sistemas sociales. Ese es el punto de inflexión del que realmente deberíamos hablar”, afirmó Igor Trunov, fundador de la startup de IA Atlantix.
Cómo cualquier intento de detener la IA podría arruinar a la humanidad
La crisis humanitaria que subyacería a un intento de emergencia de detener la IA podría ser inmensa.
“Una explosión de pulso electromagnético continental detendría los sistemas de IA, junto con todos los respiradores de hospital, plantas de tratamiento de agua y suministros de medicamentos refrigerados a su alcance”, dijo Nag. “Incluso si pudiéramos coordinarnos globalmente para apagar todas las redes eléctricas mañana, nos enfrentaríamos a una catástrofe humanitaria inmediata: sin refrigeración de alimentos, sin equipo médico, sin sistemas de comunicación”.
Los sistemas distribuidos con redundancia no solo se diseñaron para resistir fallos naturales, sino que también resisten inherentemente los apagados intencionales. Cada sistema de respaldo, cada redundancia diseñada para la confiabilidad, puede convertirse en un vector de persistencia para una IA superinteligente que depende en gran medida de la misma infraestructura en la que vivimos. La IA moderna opera en miles de servidores en distintos continentes, con sistemas automáticos de conmutación por error que tratan cualquier intento de apagado como un daño que deben evitar.
“Internet se diseñó originalmente para sobrevivir a una guerra nuclear; esa misma arquitectura ahora significa que un sistema superinteligente podría persistir a menos que estemos dispuestos a destruir la infraestructura de la civilización”, dijo Nag, y agregó: “Cualquier medida lo suficientemente extrema como para garantizar el cierre de la IA causaría un sufrimiento humano más inmediato y visible que el que intentamos prevenir”.

Los investigadores antrópicos se muestran cautelosamente optimistas respecto de que el trabajo que están haciendo hoy (incitar al chantaje a Claude en escenarios específicamente diseñados para ello) les ayudará a impedir que la IA tome el control mañana.
“Es difícil prever que llegaremos a un punto así, pero es fundamental realizar pruebas de estrés en el marco de nuestro plan para ver su rendimiento y utilizarlo como una especie de protección”, afirmó Kevin Troy, investigador de Anthropic.
El investigador antrópico Benjamin Wright afirma que el objetivo es evitar que los agentes tengan el control sin supervisión humana. “Si se llega a ese punto, los humanos ya han perdido el control, y deberíamos intentar evitarlo”, afirmó.
Trunov afirma que controlar la IA es una cuestión de gobernanza más que un esfuerzo físico. «Necesitamos interruptores de seguridad no para la IA en sí, sino para los procesos de negocio, las redes y los sistemas que amplían su alcance», afirmó Trunov, lo que, añadió, implica aislar a los agentes de IA del control directo sobre infraestructura crítica.
Hoy en día, ningún modelo de IA (incluidos Claude o GPT de OpenAI) tiene agencia, intención o capacidad de autoconservarse como lo hacen los seres vivos.
“Lo que parece ‘sabotaje’ suele ser un conjunto complejo de comportamientos que surgen de incentivos mal alineados, instrucciones poco claras o modelos demasiado generalizados. No es HAL 9000”, dijo Trunov, en referencia al sistema informático de “2001”, la clásica película de ciencia ficción de Stanley Kubrick. “Es más como un becario demasiado confiado, sin contexto y con acceso a códigos de lanzamiento nuclear”, añadió.
Hinton observa con recelo el futuro que ayudó a crear. Dice que si él no hubiera descubierto los fundamentos de la IA, alguien más lo habría hecho. Y a pesar de todos los intentos que él y otros pronosticadores han hecho para predecir lo que podría suceder con la IA, no hay forma de saberlo con certeza.
«Nadie tiene ni idea. Nunca hemos tenido que lidiar con cosas más inteligentes que nosotros», dijo Hinton.
Cuando se le preguntó si estaba preocupado por el futuro infundido con IA que algún día podrían enfrentar los niños de la escuela primaria de hoy, respondió: “Mis hijos tienen 34 y 36 años, y me preocupa su futuro”.
No hay comentarios:
Publicar un comentario