Changes in the Fragment VC model for different language ?

I am using pretrained XLSR_wav2vec2 model as a vocoder. I am successful in loading the model and extracting features from my dataset. However, I am facing issues in running training the model because of shape mismatch issues. Is there any possibility in tweaking the Fragment VC model for XLSR wav2vec2 model ?