本项目提供了论文《Visual Language Models Exhibit Multilayered Metacognitive Capabilities》中所有核心表格和图表的完整复现代码和数据。通过标准化的项目结构,您可以轻松重现论文中的所有关键结果。
- Table 1: 个体VLM的logits与self-report置信度相关性分析
- Table 2: 两种测量方法下的模型拟合结果对比
- Table 3: Self-report与Logits方法比较汇总统计
- Figure 3: 模型比较图 (Self-report版本 + Logits版本)
- Figure S1: 汇总图 (Self-report版本 + Logits版本)
Data_tables_figures/
├── README.md # 项目说明文档
├── scripts/ # 🔧 分析脚本
│ ├── generate_all.py # 🎯 主运行脚本 (推荐)
│ ├── generate_all_tables.py # 📊 表格生成脚本
│ ├── generate_table1.py # Table 1: 个体相关性分析
│ ├── generate_table2.py # Table 2: 模型拟合对比
│ ├── generate_table3.py # Table 3: 方法比较汇总
│ ├── generate_figures_self_report.py # 📈 Self-report图表生成
│ └── generate_figures_logits.py # 📈 Logits图表生成
├── results/ # 📋 分析结果
│ ├── tables/ # 📊 表格CSV文件
│ │ ├── table1_individual_correlation.csv
│ │ ├── table1_summary.csv
│ │ ├── table2_model_fits.csv
│ │ ├── table2_dominance_statistics.csv
│ │ ├── table2_detailed_dominant_models.csv
│ │ ├── table3_method_comparison_summary.csv
│ │ └── table3_detailed_statistics.csv
│ └── figures/ # 📈 图表文件
│ ├── publication/ # 发表级图表
│ │ ├── figure3_model_comparison.png/pdf/svg
│ │ └── figure3_model_comparison_logits.png/pdf/svg
│ └── supplementary/ # 补充图表
│ ├── figureS1_summary.png
│ └── figureS1_summary_logits.png/pdf
└── data/ # 📂 原始数据
├── README.md # 数据说明文档
├── logits/ # Logits数据
│ └── vlm_merged_models_logits_only.csv
├── self_report/ # Self-report数据
│ └── vlm_merged_models.csv
├── analysis_outputs/ # 分析输出数据
│ ├── bootstrap_results.csv
│ ├── model_fits.csv
│ ├── vlm_metacognition_logits_300boot_realtime_bootstrap.csv
│ └── vlm_metacognition_logits_300boot_realtime_fits.csv
└── figure_data/ # 图表分析数据
├── grid_metrics.csv
├── gabor_metrics.csv
├── brightness_metrics.csv
└── summary_all_tasks.csv
- Python 3.7+
- pandas, numpy, matplotlib, scipy
cd Data_tables_figures
python3 scripts/generate_all.pycd Data_tables_figures
python3 scripts/generate_all_tables.pycd Data_tables_figures
# Self-report图表
python3 scripts/generate_figures_self_report.py
# Logits图表
python3 scripts/generate_figures_logits.pycd Data_tables_figures
python3 scripts/generate_table1.py # Table 1
python3 scripts/generate_table2.py # Table 2
python3 scripts/generate_table3.py # Table 3table1_individual_correlation.csv: 每个VLM模型的Spearman和Pearson相关系数table1_summary.csv: 平均相关性、R²值等汇总统计
关键结果:
- 平均相关性: ρ = 0.211
- R² = 0.039
- 最强相关性: ovis2_34b (ρ = 0.445)
table2_model_fits.csv: 各任务的主导模型table2_dominance_statistics.csv: 主导模型统计table2_detailed_dominant_models.csv: 详细的VLM-任务级别结果
关键结果:
- Self-report: PE主导 12/18 (67%)
- Logits: LogN主导 6/18 (33%)
table3_method_comparison_summary.csv: 两种方法的对比汇总table3_detailed_statistics.csv: 详细统计指标
关键结果:
- Self-report: 平均置信度 = 4.443, AIC范围: 10-3301
- Logits: 平均置信度 = 3.783, AIC范围: 85-4351
- Self-report版本:
figure3_model_comparison.png/pdf/svg - Logits版本:
figure3_model_comparison_logits.png/pdf/svg
- Self-report版本:
figureS1_summary.png - Logits版本:
figureS1_summary_logits.png/pdf
- Self-report Confidence: 通过提示词让VLM直接报告置信度 (1-5量表)
- Logits-based Confidence: 基于概率差异的内部证据强度
confidence = 1 + 4 × |p_A - p_B|
- PE (Positive-Evidence): 正证据模型
- WEV (Weighted-Evidence-Visibility): 加权证据可见性模型
- LogN (Log-Normal): 对数正态模型
- SDT (Signal Detection Theory): 信号检测理论模型
- SDT+, SDT++: SDT的变体
- BCH (Bayesian Confidence Hypothesis): 贝叶斯置信度假设
- AIC (Akaike Information Criterion): 模型比较
- Bootstrap分析: 300次重采样验证
- 相关性分析: Spearman和Pearson相关系数
VLMs展现出两种不同的元认知机制:
- Proto-metacognition: 基于内部不确定性的计算路径 (Logits)
- Explicit metacognition: 基于显式置信度报告的计算路径 (Self-report)
- Self-report: 偏好确定性信号模型 (PE主导)
- Logits: 偏好多样化模型 (LogN, SDT+主导)
- Self-report: 高度集中 (65.75%在5级)
- Logits: 更分散 (20.88%在1-2级)
- 6个VLM模型: gemma3_27b, kimi-vl-a3b, ovis2_34b, qwen2.5-vl-32b, qwen2.5-vl-72b, qwen2.5-vl-7b
- 3个视觉任务: Grid, Gabor, Brightness
- 7个认知模型: PE, WEV, LogN, SDT, SDT+, SDT++, BCH
- 数据预处理: 合并logits和self-report数据
- 模型拟合: 使用AIC进行模型比较
- Bootstrap验证: 300次重采样确定主导模型
- 统计分析: 计算相关性、置信度分布等指标
- 可视化: 生成发表级图表
如果您使用了本项目的数据或代码,请引用原始论文:
@article{vlm_metacognition_2024,
title={Visual Language Models Exhibit Multilayered Metacognitive Capabilities},
author={[Authors]},
journal={[Journal]},
year={2024}
}欢迎提交Issue和Pull Request来改进本项目。
本项目采用MIT许可证 - 详见LICENSE文件。
注意: 本项目提供了论文中所有核心结果的完整复现,确保研究的可重现性和透明度。