Claude (1): la IA con una Constitución

Gerardo Cerda Neumann
hace 9 horas
6 min de lectura

Desde este lunes 15 de junio estoy inscrito en el Servicio de la IA Claude. Por esa razón la estoy estudiando para aplicarla en el desarrollo de software para mis cursos universitarios. Por esta razón empiezo esta serie de comentarios sobre esta IA. Como primer capítulo les comparto algo que me acabo de enterar: tiene una Constitución. ¿De qué se trata? Se los cuento de inmediato.

Durante años, la industria ha intentado alinear los sistemas de inteligencia artificial mediante el aprendizaje por refuerzo a partir de la retroalimentación humana. El método tradicional consistía en contratar a miles de “etiquetadores” para que dijeran qué respuestas eran aceptables y cuáles no. Sin embargo, ese enfoque genera sistemas que priorizan agradar al usuario antes que entregar la verdad, y que carecen de criterios profundos cuando se enfrentan a escenarios totalmente nuevos.

Anthropic, creador de la IA analizada, ha decidido dar un giro drástico a esta situación al publicar una versión profundamente renovada de la constitución para Claude. No estamos ante una simple lista de prohibiciones mecánicas o de comandos rígidos ya que el documento, que supera las ochenta páginas, redefine por completo la metodología conocida como Inteligencia Artificial Constitucional.

¿De qué se trata este concepto? Primero hay que decir que fue creado y registrado formalmente por la Anthropic justamente para entrenar a su modelo, Claude. Se refiere al método de alineación en el que, en lugar de que humanos revisen y califiquen millones de respuestas para enseñarle a la IA qué es correcto y qué no, se le entrega al modelo un conjunto escrito de principios (por eso se califica como una "Constitución"). La propia IA utiliza estas reglas para “autocriticarse”, corregir sus borradores y entrenarse a sí misma mediante un ciclo de retroalimentación (llamado RLAIF o Reinforcement Learning from AI Feedback, traducido literalmente como “Aprendizaje por refuerzo a partir de la retroalimentación de la IA”).

Lo fundamental de este cambio estratégico radica en pasar desde la “instrucción estricta a la explicación fundamentada”. Se busca que el modelo entienda el trasfondo ético de las peticiones para que sea capaz de deducir las reglas de comportamiento de manera autónoma, en lugar de limitarse a obedecer un listado estático de restricciones.

A continuación, se analizan los aspectos estructurales de este nuevo marco normativo, evaluando el impacto real que tiene sobre los proyectos tecnológicos y la gestión de la información:

1. La transición desde de la “obediencia ciega” a la comprensión de principios. Se creó debido al problema de las primeras versiones de los modelos fundacionales era su fragilidad ante entornos imprevistos. Si un atacante diseñaba un Prompt que esquivaba la lista de palabras prohibidas, el sistema fallaba de forma estrepitosa, por eso el nuevo documento de Anthropic aborda esta debilidad enfocándose en la capacidad de generalización.

Al entrenar al modelo explicándole las razones subyacentes de un “valor moral” o de una directriz operativa, el sistema adquiere la capacidad de evaluar situaciones ambiguas. La aproximación técnica cambia por completo: durante la fase de entrenamiento, el propio sistema genera datos sintéticos, critica sus borradores iniciales utilizando los fundamentos constitucionales y reescribe los textos finales. Esto permite pasar de un esquema de cumplimiento rígido a uno de discernimiento basado en el contexto, reduciendo la dependencia de filtros de contenido externos que suelen degradar la calidad de las respuestas en entornos corporativos.

2. La jerarquía de prioridades como mecanismo de control. Uno de los aportes más prácticos de este documento es el establecimiento de una estructura jerárquica clara para resolver conflictos internos del modelo. En la gestión de proyectos informáticos, las prioridades mal definidas destruyen la arquitectura de cualquier sistema; en los modelos de lenguaje, la falta de jerarquía provoca respuestas erráticas o bloqueos operativos.

La escala de decisión de Claude se organiza ahora en cuatro niveles obligatorios:

- Primer nivel: Seguridad del sistema y soporte riguroso a la supervisión humana.

- Segundo nivel: Comportamiento ético y honestidad intelectual.

- Tercer nivel: Cumplimiento estricto de las directrices específicas de Anthropic.

- Cuarto nivel: Utilidad y ayuda directa al usuario final.

Esta pirámide soluciona el dilema de la complacencia artificial: si un usuario solicita un análisis que viola los principios éticos del segundo nivel, el sistema no puede descender al cuarto nivel para ser "útil". El modelo cuenta con un marco de decisión transparente que permite a los desarrolladores predecir cómo se comportará la tecnología cuando se integre en flujos de trabajo críticos a través de la API (sigla en inglés para Application Programming Interface o Interfaz de Programación de Aplicaciones).

3. Delimitación entre “restricciones duras” y configuraciones flexibles. El diseño de sistemas requiere un equilibrio constante entre el control centralizado y la flexibilidad del usuario final. Anthropic traslada este principio arquitectónico a su modelo distinguiendo de forma explícita las prohibiciones absolutas de los valores parametrizables.

Las “restricciones duras” cubren áreas críticas e innegociables: asistencia en armas biológicas, generación de material de abuso infantil o sabotaje de infraestructuras cibernéticas. Estas conductas están bloqueadas desde la base del código. Por el contrario, los valores asociados a la interacción diaria, el tono comunicativo o la adaptación a flujos de trabajo específicos se tratan como configuraciones por defecto modificables. Esta separación metodológica facilita el despliegue en entornos de inteligencia de negocios y Big Data, ya que las empresas pueden adaptar el comportamiento del asistente a la cultura de la organización sin comprometer la seguridad estructural de la plataforma.

4. El reconocimiento explícito de los distintos niveles de responsabilidad. Un aspecto innovador del texto es la forma en que Claude define su propia situación operativa frente a los diferentes actores que interactúan con el ecosistema. El documento formaliza que el modelo debe responder ante tres tipos de entidades con intereses potencialmente contrapuestos: la empresa creadora (Anthropic), el operador del sistema (la organización que integra la API) y el usuario final.

El marco normativo introduce heurísticas específicas para ponderar el beneficio de cada parte. Por ejemplo, se establece que las guías técnicas adicionales provistas por Anthropic sobre ciberseguridad o asistencia médica deben priorizarse sobre el deseo de complacer al cliente final. Esto se debe a que la empresa central posee un contexto de riesgos agregados del que el modelo carece de forma nativa. Para el consultor tecnológico, esta claridad en las reglas de integración disminuye la incertidumbre legal y operativa al implementar soluciones automatizadas de atención o análisis de datos sensibles.

5. La gestión de dilemas complejos: honestidad frente a compasión. El texto aborda un desafío recurrente en la informática aplicada: cómo gestionar los límites de la verdad frente a las expectativas del usuario. En lugar de forzar respuestas dogmáticas, la constitución le entrega al modelo pautas de razonamiento para balancear la honestidad intelectual con la protección de datos y la prudencia en entornos de alta complejidad.

El sistema está diseñado para tratar a los operadores como adultos capaces de tomar decisiones informadas, evitando el paternalismo excesivo que arruinaba la experiencia de usuario en las versiones previas. Cuando el modelo se enfrenta a una solicitud que roza los límites de la propiedad intelectual o de la privacidad de la información, el sistema debe argumentar su postura apoyándose en el contexto normativo de la constitución, lo que eleva el estándar de auditabilidad de los procesos automatizados.

Consideraciones para el diseño estratégico de sistemas:

- La lectura de este marco ético nos deja una lección profunda que va más allá de la inteligencia artificial. En la ingeniería de software y en la consultoría de procesos, la tendencia natural siempre ha sido construir manuales de usuario interminables y rellenar las bases de datos con reglas de validación infinitas. Intentamos prever cada error, cada excepción y cada mala práctica mediante restricciones explícitas en el código. El resultado de esa vieja escuela suele ser el mismo: plataformas de TI rígidas, sistemas que se rompen al menor cambio del mercado y un gasto constante en mantenimiento correctivo.

- El giro estratégico de Anthropic nos demuestra que la resiliencia de un sistema complejo no se logra acumulando prohibiciones, sino robusteciendo los principios que guían la toma de decisiones. Al diseñar la arquitectura de información de las empresas, resulta mucho más eficiente definir con claridad el propósito del dato, la jerarquía de los procesos y los límites éticos de la automatización.

- Construir plataformas informáticas bajo un esquema de principios claros y adaptables permite que las soluciones de negocio evolucionen a la par de las necesidades de la organización. La verdadera transformación digital no consiste en automatizar la burocracia mediante algoritmos ciegos, sino en dotar a las herramientas tecnológicas de la flexibilidad necesaria para resolver problemas reales en entornos de alta incertidumbre.

Saludos cordiales

Profesor Gerardo Cerda Neumann

Editor del Blog de la Comunidad

Fuentes consultadas:

Anthropic. (2026, 22 de enero). Claude's new constitution. https://www.anthropic.com/news/claude-new-constitution

BCS, The Chartered Institute for IT. (2026, 13 de abril). From compliance to comprehension: what Claude's new constitution means for LLMs. https://www.bcs.org/articles-opinion-and-research/from-compliance-to-comprehension-what-claude-s-new-constitution-means-for-llms/

InfoQ. (2026, 30 de enero). Anthropic Releases Updated Constitution for Claude. https://www.infoq.com/news/2026/01/anthropic-constitution/

Oxford Institute for Ethics in AI. (2026, 13 de marzo). Claude's new Constitution: two evaluative continua. https://www.oxford-aiethics.ox.ac.uk/blog/claudes-new-constitution-two-evaluative-continua

Claude (1): la IA con una Constitución

Entradas recientes

1 comentario