Skip to content

关于ShareGPT4V多语言版本数据在原始ShareGPT4V中缺少平行数据 #3

@f6ster

Description

@f6ster

我在使用您提供的ShareGPT4V多语言版本:https://huggingface.co/datasets/AIDC-AI/Parrot-dataset/tree/main/sharegpt_4v
中的sharegpt4v_sft_zh_71k.json时发现,其中存在一部分内容与ShareGPT4V原始数据集,即sharegpt4v_instruct_gpt4-vision_cap100k.json不匹配。
我在您提供的中文版本中抽取的是来源于coco数据集的数据,例如这一条数据:
image
它对应在ShareGPT4V原始数据集中是:
image
图片的id能够匹配,但是其中的问题和回答无法匹配,且该条数据在ShareGPT4V原始数据集中有且仅有这一条。
同时,我在ShareGPT4V原始数据集原始仓库下的三个文件中https://huggingface.co/datasets/Lin-Chen/ShareGPT4V/tree/main
也无法匹配到该条内容。
请问您提供的ShareGPT4V多语言版本除了是通过对ShareGPT4V原始数据集进行翻译得到的结果,还加入了其他数据集的翻译结果吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions