Skip to content

grow-ai-like-a-child/VLM_MetaCognition

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

VLM Metacognition Analysis - Data Tables & Figures

📋 项目概述

本项目提供了论文《Visual Language Models Exhibit Multilayered Metacognitive Capabilities》中所有核心表格和图表的完整复现代码和数据。通过标准化的项目结构,您可以轻松重现论文中的所有关键结果。

🎯 核心内容

📊 表格数据 (Table 1, 2, 3)

  • Table 1: 个体VLM的logits与self-report置信度相关性分析
  • Table 2: 两种测量方法下的模型拟合结果对比
  • Table 3: Self-report与Logits方法比较汇总统计

📈 图表数据 (Figure 3, S1)

  • Figure 3: 模型比较图 (Self-report版本 + Logits版本)
  • Figure S1: 汇总图 (Self-report版本 + Logits版本)

📁 项目结构

Data_tables_figures/
├── README.md                    # 项目说明文档
├── scripts/                     # 🔧 分析脚本
│   ├── generate_all.py         # 🎯 主运行脚本 (推荐)
│   ├── generate_all_tables.py  # 📊 表格生成脚本
│   ├── generate_table1.py      # Table 1: 个体相关性分析
│   ├── generate_table2.py      # Table 2: 模型拟合对比
│   ├── generate_table3.py      # Table 3: 方法比较汇总
│   ├── generate_figures_self_report.py  # 📈 Self-report图表生成
│   └── generate_figures_logits.py       # 📈 Logits图表生成
├── results/                     # 📋 分析结果
│   ├── tables/                 # 📊 表格CSV文件
│   │   ├── table1_individual_correlation.csv
│   │   ├── table1_summary.csv
│   │   ├── table2_model_fits.csv
│   │   ├── table2_dominance_statistics.csv
│   │   ├── table2_detailed_dominant_models.csv
│   │   ├── table3_method_comparison_summary.csv
│   │   └── table3_detailed_statistics.csv
│   └── figures/                # 📈 图表文件
│       ├── publication/       # 发表级图表
│       │   ├── figure3_model_comparison.png/pdf/svg
│       │   └── figure3_model_comparison_logits.png/pdf/svg
│       └── supplementary/     # 补充图表
│           ├── figureS1_summary.png
│           └── figureS1_summary_logits.png/pdf
└── data/                        # 📂 原始数据
    ├── README.md               # 数据说明文档
    ├── logits/                 # Logits数据
    │   └── vlm_merged_models_logits_only.csv
    ├── self_report/            # Self-report数据
    │   └── vlm_merged_models.csv
    ├── analysis_outputs/       # 分析输出数据
    │   ├── bootstrap_results.csv
    │   ├── model_fits.csv
    │   ├── vlm_metacognition_logits_300boot_realtime_bootstrap.csv
    │   └── vlm_metacognition_logits_300boot_realtime_fits.csv
    └── figure_data/            # 图表分析数据
        ├── grid_metrics.csv
        ├── gabor_metrics.csv
        ├── brightness_metrics.csv
        └── summary_all_tasks.csv

🚀 快速开始

环境要求

  • Python 3.7+
  • pandas, numpy, matplotlib, scipy

🎯 一键生成所有数据 (推荐)

cd Data_tables_figures
python3 scripts/generate_all.py

📊 仅生成表格数据

cd Data_tables_figures
python3 scripts/generate_all_tables.py

📈 仅生成图表数据

cd Data_tables_figures
# Self-report图表
python3 scripts/generate_figures_self_report.py

# Logits图表  
python3 scripts/generate_figures_logits.py

🔧 单独运行特定脚本

cd Data_tables_figures
python3 scripts/generate_table1.py    # Table 1
python3 scripts/generate_table2.py    # Table 2
python3 scripts/generate_table3.py    # Table 3

📊 输出文件说明

Table 1 - 个体VLM相关性分析

  • table1_individual_correlation.csv: 每个VLM模型的Spearman和Pearson相关系数
  • table1_summary.csv: 平均相关性、R²值等汇总统计

关键结果:

  • 平均相关性: ρ = 0.211
  • R² = 0.039
  • 最强相关性: ovis2_34b (ρ = 0.445)

Table 2 - 模型拟合结果对比

  • table2_model_fits.csv: 各任务的主导模型
  • table2_dominance_statistics.csv: 主导模型统计
  • table2_detailed_dominant_models.csv: 详细的VLM-任务级别结果

关键结果:

  • Self-report: PE主导 12/18 (67%)
  • Logits: LogN主导 6/18 (33%)

Table 3 - 方法比较汇总

  • table3_method_comparison_summary.csv: 两种方法的对比汇总
  • table3_detailed_statistics.csv: 详细统计指标

关键结果:

  • Self-report: 平均置信度 = 4.443, AIC范围: 10-3301
  • Logits: 平均置信度 = 3.783, AIC范围: 85-4351

Figure 3 - 模型比较图

  • Self-report版本: figure3_model_comparison.png/pdf/svg
  • Logits版本: figure3_model_comparison_logits.png/pdf/svg

Figure S1 - 汇总图

  • Self-report版本: figureS1_summary.png
  • Logits版本: figureS1_summary_logits.png/pdf

🔬 研究方法

置信度测量方法

  1. Self-report Confidence: 通过提示词让VLM直接报告置信度 (1-5量表)
  2. Logits-based Confidence: 基于概率差异的内部证据强度 confidence = 1 + 4 × |p_A - p_B|

认知模型

  • PE (Positive-Evidence): 正证据模型
  • WEV (Weighted-Evidence-Visibility): 加权证据可见性模型
  • LogN (Log-Normal): 对数正态模型
  • SDT (Signal Detection Theory): 信号检测理论模型
  • SDT+, SDT++: SDT的变体
  • BCH (Bayesian Confidence Hypothesis): 贝叶斯置信度假设

统计方法

  • AIC (Akaike Information Criterion): 模型比较
  • Bootstrap分析: 300次重采样验证
  • 相关性分析: Spearman和Pearson相关系数

📈 主要发现

1. 多层元认知能力

VLMs展现出两种不同的元认知机制:

  • Proto-metacognition: 基于内部不确定性的计算路径 (Logits)
  • Explicit metacognition: 基于显式置信度报告的计算路径 (Self-report)

2. 方法依赖性

  • Self-report: 偏好确定性信号模型 (PE主导)
  • Logits: 偏好多样化模型 (LogN, SDT+主导)

3. 置信度分布差异

  • Self-report: 高度集中 (65.75%在5级)
  • Logits: 更分散 (20.88%在1-2级)

🔧 技术细节

数据来源

  • 6个VLM模型: gemma3_27b, kimi-vl-a3b, ovis2_34b, qwen2.5-vl-32b, qwen2.5-vl-72b, qwen2.5-vl-7b
  • 3个视觉任务: Grid, Gabor, Brightness
  • 7个认知模型: PE, WEV, LogN, SDT, SDT+, SDT++, BCH

分析流程

  1. 数据预处理: 合并logits和self-report数据
  2. 模型拟合: 使用AIC进行模型比较
  3. Bootstrap验证: 300次重采样确定主导模型
  4. 统计分析: 计算相关性、置信度分布等指标
  5. 可视化: 生成发表级图表

📚 引用

如果您使用了本项目的数据或代码,请引用原始论文:

@article{vlm_metacognition_2024,
  title={Visual Language Models Exhibit Multilayered Metacognitive Capabilities},
  author={[Authors]},
  journal={[Journal]},
  year={2024}
}

🤝 贡献

欢迎提交Issue和Pull Request来改进本项目。

📄 许可证

本项目采用MIT许可证 - 详见LICENSE文件。


注意: 本项目提供了论文中所有核心结果的完整复现,确保研究的可重现性和透明度。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages