-
Notifications
You must be signed in to change notification settings - Fork 2
Open
Description
我在使用您提供的ShareGPT4V多语言版本:https://huggingface.co/datasets/AIDC-AI/Parrot-dataset/tree/main/sharegpt_4v
中的sharegpt4v_sft_zh_71k.json时发现,其中存在一部分内容与ShareGPT4V原始数据集,即sharegpt4v_instruct_gpt4-vision_cap100k.json不匹配。
我在您提供的中文版本中抽取的是来源于coco数据集的数据,例如这一条数据:
它对应在ShareGPT4V原始数据集中是:
图片的id能够匹配,但是其中的问题和回答无法匹配,且该条数据在ShareGPT4V原始数据集中有且仅有这一条。
同时,我在ShareGPT4V原始数据集原始仓库下的三个文件中https://huggingface.co/datasets/Lin-Chen/ShareGPT4V/tree/main
也无法匹配到该条内容。
请问您提供的ShareGPT4V多语言版本除了是通过对ShareGPT4V原始数据集进行翻译得到的结果,还加入了其他数据集的翻译结果吗?
Metadata
Metadata
Assignees
Labels
No labels