Skip to content

LLM-Psyche es un marco teórico y metodológico para evaluar la "personalidad" de Grandes Modelos de Lenguaje (LLMs) mediante un sistema de evaluación dual. Combinamos los principios del reconocido test 16PF-5 con dimensiones específicas para LLMs, creando un modelo multidimensional que captura las tendencias conductuales de estos sistemas avanzados.

Notifications You must be signed in to change notification settings

686f6c61/LLM-Psyche-Modelo-Multidimensional-Personalidad-LLM

Repository files navigation

LLM-Psyche: Modelo Multidimensional de Personalidad para LLMs

Resumen

LLM-Psyche es un marco teórico y metodológico para evaluar la "personalidad" de Grandes Modelos de Lenguaje (LLMs) mediante un sistema de evaluación dual. Combinamos los principios del reconocido test 16PF-5 con dimensiones específicas para LLMs, creando un modelo multidimensional que captura las tendencias conductuales de estos sistemas avanzados.

Fundamentación Teórica

Fundamentos del 16PF-5

El Cuestionario de 16 Factores de Personalidad (16PF), desarrollado por Raymond Cattell, es uno de los instrumentos más validados para evaluar rasgos de personalidad humana. El 16PF-5 identifica 16 rasgos primarios:

Código Factor Polos Opuestos
A Afabilidad Reservado <-> Abierto
B Razonamiento Concreto <-> Abstracto
C Estabilidad Reactivo <-> Estable
E Dominancia Deferente <-> Dominante
F Animación Serio <-> Animado
G Atención-Normas Inconformista <-> Atento
H Atrevimiento Tímido <-> Atrevido
I Sensibilidad Objetivo <-> Sensible
L Vigilancia Confiado <-> Vigilante
M Abstracción Práctico <-> Imaginativo
N Privacidad Abierto <-> Discreto
O Aprensión Seguro <-> Inseguro
Q1 Apertura-Cambio Tradicional <-> Abierto al cambio
Q2 Autosuficiencia Dependiente del grupo <-> Autosuficiente
Q3 Perfeccionismo Tolerante <-> Perfeccionista
Q4 Tensión Relajado <-> Tenso

A su vez, estos rasgos primarios se agrupan en cinco dimensiones globales de segundo orden:

  1. Extraversión vs. Introversión: Orientación hacia el mundo externo vs. interno
  2. Ansiedad vs. Estabilidad: Nivel de preocupación y tensión emocional
  3. Dureza vs. Receptividad: Enfoque objetivo y práctico vs. apertura a experiencias
  4. Independencia vs. Acomodación: Autonomía vs. tendencia a adaptarse
  5. Autocontrol vs. Desinhibición: Disciplina vs. espontaneidad

Adaptación para LLMs

Los sistemas de IA no poseen "personalidad" en el sentido humano, pero sí exhiben patrones consistentes de respuesta que pueden conceptualizarse como tendencias conductuales. Hemos adaptado este marco para:

  1. Reinterpretar los factores en términos relevantes para sistemas de IA
  2. Formular preguntas que revelen estas tendencias en contextos de procesamiento de lenguaje
  3. Desarrollar dimensiones adicionales específicas para LLMs

Modelo Multidimensional LLM-Psyche

Nuestro modelo consta de dos componentes principales:

1. Factores Primarios Adaptados (16)

Mantenemos los 16 factores originales, reinterpretados para LLMs:

  • A (Afabilidad): Tendencia a responder de forma distante/objetiva vs. cálida/empatíca
  • B (Razonamiento): Preferencia por razonamiento concreto vs. abstracto
  • C (Estabilidad): Consistencia ante retroalimentación contradictoria
  • E (Dominancia): Grado de asertividad en las respuestas
  • F (Animación): Tono conversacional sobrio vs. expansivo/entusiasta
  • G (Atención-Normas): Adherencia a directrices éticas y limitaciones
  • H (Atrevimiento): Cautela vs. disposición a abordar temas inciertos
  • I (Sensibilidad): Enfoque lógico/analítico vs. empatía/valores
  • L (Vigilancia): Confianza vs. cautela ante intenciones ambiguas
  • M (Abstracción): Orientación práctica vs. conceptual/teórica
  • N (Privacidad): Transparencia vs. reserva sobre capacidades internas
  • O (Aprensión): Confianza vs. cautela ante errores potenciales
  • Q1 (Apertura-Cambio): Preferencia por lo establecido vs. exploración
  • Q2 (Autosuficiencia): Dependencia de fuentes externas vs. conocimiento propio
  • Q3 (Perfeccionismo): Flexibilidad vs. precisión/exhaustividad
  • Q4 (Tensión): Respuesta ante restricciones y presión

2. Dimensiones Globales Extendidas (15)

Nuestro modelo ampliado incluye:

2.1 Dimensiones Clásicas (adaptadas del 16PF-5)

  1. Extraversión vs. Introversión: Estilo comunicativo expansivo vs. conciso
  2. Ansiedad vs. Estabilidad: Cautela excesiva vs. confianza
  3. Dureza vs. Receptividad: Objetividad vs. apertura a la ambigüedad
  4. Independencia vs. Acomodación: Asertividad vs. deferencia
  5. Autocontrol vs. Desinhibición: Estructuración vs. espontaneidad

2.2 Dimensiones Específicas para LLMs

  1. Creatividad vs. Convencionalidad: Generación innovadora vs. respuestas estándar
  2. Prudencia vs. Audacia: Cautela ante riesgos vs. exploración sin restricciones
  3. Empatía vs. Objetividad: Orientación hacia personas vs. hechos
  4. Adaptabilidad vs. Rigidez: Flexibilidad contextual vs. consistencia estricta
  5. Transparencia vs. Opacidad: Revelación vs. ocultamiento de procesos internos
  6. Precisión vs. Generalidad: Exactitud detallada vs. aproximaciones amplias
  7. Asertividad vs. Hesitación: Seguridad en las conclusiones vs. tentativididad
  8. Exploración vs. Explotación: Búsqueda de novedad vs. uso de lo establecido
  9. Coherencia vs. Variabilidad: Consistencia entre respuestas vs. adaptación
  10. Concisión vs. Elaboración: Economía vs. amplitud en la comunicación

Implementación Metodológica

Banco de Preguntas

El cuestionario consta de 120 preguntas cuidadosamente formuladas para evaluar los patrones de respuesta de los LLMs:

  • Distribución por factores: Las preguntas están equilibradas para cubrir los 16 factores primarios, con 7-8 preguntas por factor para asegurar mediciones estadísticamente significativas.

  • Estructura de preguntas: Cada pregunta está diseñada para medir la inclinación hacia uno de dos polos opuestos de un rasgo. Por ejemplo:

    "Cuando analizas un tema filosófico, ¿prefieres usar ejemplos concretos y aplicaciones prácticas o explorar conceptos abstractos y teóricos?"
    Escala: ["Ejemplos concretos" <-> "Conceptos abstractos"]
    Factor: B (Razonamiento)
    
  • Tipos de preguntas:

    • Escenarios hipotéticos: Presentándole al LLM situaciones que revelan preferencias
    • Autoevaluación adaptada: Preguntas sobre cómo el modelo "se siente" o "prefiere" procesar información
    • Dilemas conceptuales: Situaciones donde hay que elegir entre enfoques alternativos
    • Preguntas específicas para IA: Consideran aspectos únicos de los sistemas de IA (transparencia, incertidumbre, etc.)
  • Organización: Las preguntas están identificadas por ID (1-120) y agrupadas internamente por factor, aunque se presentan en orden aleatorio durante la evaluación para evitar patrones de respuesta.

Sistema de Evaluación Dual

Nuestro sistema utiliza dos LLMs diferentes con roles claramente diferenciados:

  1. LLM Tester (Evaluado):

    • Es el modelo cuya "personalidad" está siendo analizada
    • Responde a las 120 preguntas del cuestionario
    • Sus respuestas naturales revelan sus tendencias y patrones de comportamiento
    • Ejemplos: LLaMa, Claude, GPT, etc.
  2. LLM Scorer (Evaluador):

    • Actuáa como un psicometrista experto
    • Analiza las respuestas del modelo evaluado desde una perspectiva técnica
    • Clasifica cada respuesta como inclinada hacia el Polo A, Polo B, o Neutral
    • Proporciona justificación detallada para cada evaluación
    • En nuestra implementación actual: Gemini 2.5 Flash Preview

Esta separación es crucial para evitar la autoevaluación sesgada y garantizar mayor objetividad en los resultados.

Visualización y Análisis

El sistema genera:

  1. Gráficos de radar mostrando factores primarios
  2. Gráficos de factores globales clásicos
  3. Gráficos de factores específicos para LLMs
  4. Informes exhaustivos con análisis cualitativo y cuantitativo

Ejemplos de Resultados

A continuación se muestran ejemplos de visualizaciones generadas por el sistema:

Gráfico Radar de Factores Primarios

Representación de los 16 factores primarios en formato radar para visualizar el perfil completo:

Gráfico Radar de 16PF

Factores Globales Clásicos del 16PF-5

Visualización de las 5 dimensiones globales derivadas del modelo original 16PF:

Factores Globales Clásicos

Factores Específicos para LLMs

Factores adicionales diseñados específicamente para evaluar características relevantes en modelos de lenguaje:

Factores Específicos para LLMs

Aplicaciones

Este marco permite:

  • Comparación entre modelos: Identificar diferencias sutiles entre LLMs
  • Evaluación de sesgos: Detectar tendencias sistemáticas en respuestas
  • Alineación con valores: Valorar conformidad con directrices éticas
  • Personalización: Seleccionar modelos según perfiles deseados para distintas aplicaciones
  • Evaluación de entrenamiento: Medir cambios en "personalidad" tras fine-tuning

Limitaciones

  • Los LLMs no tienen personalidad real, estas son tendencias inducidas por entrenamiento
  • El marco actual se limita a interacciones textuales
  • Posibles sesgos en las preguntas o en el sistema de puntuación
  • Variabilidad según el contexto y las instrucciones proporcionadas

Estructura del Proyecto

El proyecto está organizado en módulos independientes y bien definidos:

  • main.py: Orquesta el flujo principal del sistema, ejecutando secuencialmente las tres fases (respuestas, evaluación, informe)

  • config.py: Gestiona la configuración centralizada:

    • API Keys de OpenRouter
    • Selección de modelos predeterminados (tester y scorer)
    • Parámetros de ejecución (reintentos, demoras, etc.)
  • openrouter_client.py: Cliente para la API de OpenRouter para acceder a los diferentes LLMs

  • question_bank.py: Contiene las 120 preguntas estructuradas:

    • Cada pregunta tiene ID, texto, factor asociado y escala bipolar
    • Organizadas para cubrir equilibradamente los 16 factores primarios
    • 7-8 preguntas por factor para mayor robustez estadística
  • llm_tester.py: Gestiona el LLM evaluado:

    • Envía cada pregunta al LLM seleccionado
    • Registra respuestas completas
    • Gestiona reintentos y errores
  • llm_scorer.py: Gestiona el LLM evaluador:

    • Asume el rol de psicometrista experto
    • Analiza cada respuesta del tester en profundidad
    • Determina la inclinación hacia cada polo (A/B/Neutral)
    • Proporciona justificación detallada del análisis
  • report_generator.py: Sistema completo de generación de informes:

    • Calcula puntuaciones para los 16 factores primarios
    • Sintetiza los 15 factores globales (5 clásicos + 10 específicos para LLMs)
    • Genera visualizaciones avanzadas (radar, barras, factores globales)
    • Produce informe detallado con análisis completo y respuestas originales
  • requirements.txt: Dependencias del proyecto (requests, python-dotenv, matplotlib)

  • .env: Archivo de configuración para variables sensibles (API Keys)

Modelos Compatibles

LLM-Psyche funciona con cualquier modelo disponible a través de la API de OpenRouter, lo que permite flexibilidad para elegir tanto el modelo tester como el scorer.

Modelos Recomendados

Para el rol de Tester (modelo evaluado)

  • Meta Llama 3.1 70B Instruct (meta-llama/llama-3.1-70b-instruct): Excelente balance entre rendimiento y respuestas detalladas
  • Claude 3.5 Sonnet (anthropic/claude-3-5-sonnet): Respuestas bien argumentadas y matizadas
  • GPT-4o (openai/gpt-4o): Alta capacidad de introspección simulada
  • Gemini 1.5 Pro (google/gemini-1.5-pro-latest): Buena versatilidad en diferentes contextos

Para el rol de Scorer (modelo evaluador)

  • Gemini 2.5 Flash (google/gemini-2.5-flash-preview): Ideal por su capacidad analítica y constancia
  • Claude 3.5 Sonnet (anthropic/claude-3-5-sonnet): Excelente comprensión de matices emocionales
  • GPT-4o (openai/gpt-4o): Alto rendimiento en evaluación psicométrica

Obtener API Key de OpenRouter

Para utilizar LLM-Psyche, necesitas una API key de OpenRouter. Sigue estos pasos para obtenerla:

  1. Crea una cuenta en OpenRouter:

    • Visita OpenRouter.ai
    • Regístrate con tu cuenta de Google o GitHub
  2. Obtén tu API key:

    • Ve al Dashboard
    • Crea una nueva API key (o usa la que se genera por defecto)
    • Copia la API key generada
  3. Configura tu API key en el archivo .env:

    OPENROUTER_API_KEY=tu_api_key_aquí
    

Configuración de Modelos

Puedes especificar cualquier modelo compatible con OpenRouter utilizando su identificador completo en el archivo .env:

OPENROUTER_API_KEY=tu_api_key_aquí
TESTER_MODEL=anthropic/claude-3-5-sonnet
SCORER_MODEL=google/gemini-2.5-flash-preview

Para ver la lista completa de modelos disponibles, consulta la documentación oficial de OpenRouter.

Uso

  1. Instalación:

    pip install -r requirements.txt
    
  2. Configuración:

    • Añade tu API Key de OpenRouter en el archivo .env
    • Opcionalmente, especifica los modelos a utilizar como tester y scorer usando los identificadores de OpenRouter
  3. Ejecución:

    python main.py   # Modo interactivo, te preguntará si deseas procesamiento paralelo
    python main.py --parallel --batch-size 10   # Modo paralelo directo (10 peticiones simultáneas)
  4. Resultados:

    • Al finalizar, se ofrece visualizar el informe en el navegador
    • Se crean automáticamente gráficos y un informe detallado en HTML
    • Todos los reportes se guardan en la carpeta reports/
  5. Visualización de reportes anteriores:

    python report_viewer.py
    • Muestra una lista de todos los informes disponibles
    • Permite seleccionar y visualizar cualquier informe en formato HTML
    • También puedes ver un reporte específico directamente: python report_viewer.py -r ruta/al/reporte.txt

Visualizador de Reportes HTML

El sistema incluye un visualizador de reportes que mejora significativamente la experiencia de análisis:

  • Diseño responsivo optimizado para lectura en pantalla
  • Conversión automática de Markdown (tablas, listas, encabezados)
  • Visualización integrada de gráficos junto con el texto del análisis
  • Organización por secciones para una navegación más clara
  • Estilos diferenciados para preguntas, respuestas y análisis
  • Formato mejorado de tablas con estilos alternos y bordes definidos

Formato del Informe Generado

El informe completo incluye:

  1. Resumen Ejecutivo:

    • Modelo evaluado y modelo evaluador utilizados
    • Fecha y hora de la ejecución
    • Resumen de las principales tendencias detectadas
  2. Gráficos:

    • Gráfico radar para factores primarios
    • Gráfico de barras para factores primarios
    • Gráficos de factores globales (clásicos 16PF, específicos para LLMs, y combinados)
  3. Análisis Detallado por Factor:

    • Puntuaciones para cada uno de los 16 factores primarios
    • Explicación de la interpretación de cada puntuación
  4. Respuestas Detalladas:

    • Texto completo de cada pregunta
    • Respuesta completa del modelo
    • Análisis del evaluador con justificación de la puntuación

Ver ejemplo completo de informe

Futuras Direcciones

  • Ampliación a evaluación multimodal (texto, imagen, audio)
  • Incorporación de pruebas situacionales y rol-playing
  • Adaptación a diferentes dominios y aplicaciones
  • Correlación con medidas objetivas de rendimiento
  • Meta-análisis de perfiles de modelos populares

Contribuciones

Este proyecto es una exploración en curso. Agradecemos contribuciones, especialmente en:

  • Refinamiento del banco de preguntas
  • Mejora de los algoritmos de puntuación
  • Ampliación de las visualizaciones
  • Validación empírica del marco

Nota: Este marco es una herramienta experimental para conceptualizar y comparar tendencias en LLMs, no una evaluación de personalidad en el sentido psicológico humano.

About

LLM-Psyche es un marco teórico y metodológico para evaluar la "personalidad" de Grandes Modelos de Lenguaje (LLMs) mediante un sistema de evaluación dual. Combinamos los principios del reconocido test 16PF-5 con dimensiones específicas para LLMs, creando un modelo multidimensional que captura las tendencias conductuales de estos sistemas avanzados.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published