关于输入图像维度的问题

看到有说明输入的图像需要转化为512*512维度的图像。
我有大概数千张32*32的带类别标签的图像，如何采用这些图像去重新训练stable diffusion model？
需要缩放为512*512吗？还是说有办法拿这些32*32的图像直接去训练。
如果去训练改模型，vae、unet、text encoder这些权重哪些需要改变？
我是刚入门的小白，望大佬指教