🔬 Optimization Paradox in Multi-Agent Systems

This repo contains code for the "The Optimization Paradox in Clinical AI Multi-Agent Systems" paper. It demonstrates how optimizing individual components can catastrophically undermine overall system performance in multi-agent clinical AI systems. The framework enables evaluation of both single-agent and multi-agent workflows on real patient cases from the MIMIC-CDM dataset using multiple LLM families.

It currently supports 8 different LLM families and provides comprehensive evaluation metrics including diagnostic accuracy, process adherence, and cost efficiency.

📖 Table of Contents

🚀 Quick Start
📊 What This Does
🏥 Key Finding
📈 Results & Evaluation
🔧 Supported Models
📋 Requirements
📚 Citation
📧 Issues

🚀 Quick Start

Install dependencies

conda env create -f environment.yaml
conda activate clinagent_env

Configure APIs

cp config.example.yaml config.yaml
# Edit config.yaml with your API keys

Run evaluation

# Single agent
python3 run_single_agent.py --model_id_main gpt --dataset_type val

# Multi-agent 
python3 run_multi_agent.py --model_id_info gemini --model_id_diagnosis gpt --dataset_type val

📊 What This Does

Tests clinical reasoning on 2,400 real patient cases across 4 abdominal conditions:

Single-agent: One model handles everything
Multi-agent: Specialized models for information gathering, interpretation, and diagnosis
Best-of-Breed: Top-performing components combined (spoiler: performs worst!)

🏥 Key Finding

The Best-of-Breed system built from individually optimal components achieved only 67.7% accuracy vs 77.4% for a well-integrated multi-agent system, despite superior process metrics.

📈 Results & Evaluation

python3 run_evals.py --log_dir logs/<experiment_name>

Results include diagnostic accuracy, process adherence, and cost metrics.

🔧 Supported Models

Azure OpenAI, Claude, Gemini, Llama, o3-mini, DeepSeek

📋 Requirements

Python 3.10+
API keys for your chosen models
MIMIC-CDM dataset access

📚 Citation

(Placeholder for future publication citation.)

📧 Issues

Please report issues by creating an issue on this GitHub repository.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🔬 Optimization Paradox in Multi-Agent Systems

🚀 Quick Start

📊 What This Does

🏥 Key Finding

📈 Results & Evaluation

🔧 Supported Models

📋 Requirements

📚 Citation

📧 Issues

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
src		src
README.md		README.md
config.example.yaml		config.example.yaml
environment.yaml		environment.yaml
requirements.txt		requirements.txt
run_evals.py		run_evals.py
run_multi_agent.py		run_multi_agent.py
run_single_agent.py		run_single_agent.py

som-shahlab/opt-paradox

Folders and files

Latest commit

History

Repository files navigation

🔬 Optimization Paradox in Multi-Agent Systems

🚀 Quick Start

📊 What This Does

🏥 Key Finding

📈 Results & Evaluation

🔧 Supported Models

📋 Requirements

📚 Citation

📧 Issues

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages