Skip to content

【AIGC 实战入门笔记 —— AIGC 摩天大楼】分享 大语言模型(LLMs),大模型高效微调(SFT),检索增强生成(RAG),智能体(Agent),PPT自动生成, 角色扮演,文生图(Stable Diffusion) ,图像文字识别(OCR),语音识别(ASR),语音合成(TTS),人像分割(SA),多模态(VLM),Ai 换脸(Face Swapping), 文生视频(VD),图生视频(SVD),Ai 动作迁移,Ai 虚拟试衣,数字人,全模态理解(Omni),Ai音乐生成 干货学习 等 实战与经验。

Notifications You must be signed in to change notification settings

km1994/AwesomeMultiModel

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 

Repository files navigation

AIGC 实战入门笔记 —— AIGC 摩天大楼

第一层 LLMs 入门篇

DeepSeek 系列

Simple test-time scaling 系列

第一阶 阿里系列

  • AiGC摩天大楼 —— 第一层 LLMs 之 Marco-o1 🔥
    • 论文:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
    • Arxiv:https://arxiv.org/abs/2411.14405
    • Github:https://github.com/AIDC-AI/Marco-o1
    • 介绍:Marco-o1是一个模仿OpenAI o1,使用思维链,旨在解决复杂的现实问题,强调开放式答案和多语言应用。Marco-o1 是一个旨在支持开放性解决方案的推理模型,特别关注复杂的现实世界问题解决。该模型受到 OpenAI 的 o1 模型的启发,旨在突破标准化知识领域的限制,探索其在缺乏明确标准和难以量化奖励的更广泛领域中的通用性。
  • AiGC摩天大楼 —— 第一层 LLMs 之 QwQ: 千问团队开源会思考 🔥
    • 中文博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/
    • 介绍:阿里巴巴通义千问团队今日正式发布实验性研究模型 QwQ-32B-Preview,并配以博文《QwQ: 思忖未知之界》详解其设计理念与性能表现。作为一款专注数学与编程推理的开源大模型,QwQ-32B-Preview 成为全球首个以宽松许可(Apache 2.0)提供的同类领先模型,并在多个基准测试中超越 OpenAI 的 o1-preview 模型。
  • AiGC摩天大楼 —— 第一层 LLMs 之 Open Chat-o1 篇 🔥
    • 介绍:在技术博客《Learning to Reason with LLMs》中,OpenAI 对 o1 系列语言模型做了详细的技术介绍。OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。在 OpenAI 的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。
  • AiGC摩天大楼 —— 第一层 LLMs 之 Qwen2 本地部署
    • 介绍:相比Qwen1.5,Qwen2在大规模模型实现了非常大幅度的效果提升。我们对Qwen2-72B进行了全方位的评测。在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。这得益于其预训练数据及训练方法的优化。
  • AiGC摩天大楼 —— 第一层 LLMs 之 Qwen2.5 篇

第八届 Gemma 系列

第七届 Kimi 系列

  • AiGC摩天大楼 —— 第一层 LLMs之Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与训练效率双突破!
    • 介绍:Muon优化器在训练小规模语言模型方面展示了强大的效果,但其在大规模模型上的可扩展性尚未得到验证。Kimi确定了两个扩展Muon的关键技术:
      • 权重衰减:对扩展到更大模型至关重要
      • 一致的RMS更新:在模型更新中保持一致的均方根
    • 这些技术使Muon能够在大规模训练中开箱即用,无需超参数调优。扩展定律实验表明,在计算最优训练中,Muon相较通常默认使用的AdamW优化器,能提供高约2倍的样本效率。
    • 基于这些改进,Kimi基于Muon训练了Moonlight-16B-A3B系列模型。这是一个具备16B参数(激活参数为3B)的专家混合(MoE)模型,使用5.7T个token数据训练得到。该模型模型改进了当前的帕累托前沿,与之前的模型相比,使用更少的训练FLOPs就能实现更好的性能。
    • 同时Kimi开源了内存优化和通信效率高的Muon实现,还发布了预训练、指令微调和中间检查点,以支持未来的研究。

第六届 Phi 系列

  • AiGC摩天大楼 —— 第一层 LLMs 之 Phi-4系列:多模态与文本处理的创新突破
    • 介绍:Phi-4-mini是一个 3.8B 参数模型和一个密集的解码器专用转换器,具有分组查询注意、200,000 个词汇表和共享输入输出嵌入,专为提高速度和效率而设计。尽管体积小巧,但它在基于文本的任务(包括推理、数学、编码、指令跟踪和函数调用)中的表现仍然优于大型模型。它支持多达 128,000 个标记的序列,具有高准确度和可扩展性,使其成为高级 AI 应用程序的强大解决方案。

第二阶 Llama 系列

  • AiGC摩天大楼 —— 第一层 LLMs之 Llama 4 篇
    • 介绍
    • 1、上下文长度支持:Llama 4 Scout上下文支持达到了1000万。
    • 2、混合专家模型结构:Llama 4 Scout 和 Llama 4 Maverick均为MoE架构模型,Llama 4 Scout 是一个拥有 16 位专家的 170 亿活跃参数模型,Llama 4 Maverick 是一个拥有 128 位专家的 170 亿活跃参数模型。
    • 3、原生多模态:模型采用原生多模态设计,结合早期融合,将文本和视觉标记无缝集成到统一的模型主干中, 早期融合能够使用大量未标记的文本、图像和视频数据联合预训练模型。同时改进了 Llama 4 中的视觉编码器。它基于 MetaCLIP,但与冻结的 Llama 模型一起单独训练,以便更好地使编码器适应 LLM。
    • 4、超大模型:本次Meta还预览了 Llama 4 Behemoth,是Meta迄今为止最强大的新模型,也是 Llama 4 Scout 和 Llama 4 Maverick的老师。
  • AiGC摩天大楼 —— 第一层 LLMs 之 Llama 3.2 篇
  • AiGC摩天大楼 —— 第一层 LLMs 入门 之 Llama-3 初体验
    • 介绍:Llama-3是一款由Meta推出的大型开源人工智能语言模型,Llama-3共有80亿、700亿两个参数版本,分为基础预训练和指令微调两种模型(还有一个超4000亿参数正在训练中)。与Llama-2相比,Llama-3使用了15Ttokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升

第三阶 GLM 系列

  • AiGC摩天大楼 —— 第一层 LLMs 入门 之 ChatGLM3 模型学习与实战
    • 介绍:ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
      • 更强大的基础模型:ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
      • 更完整的功能支持:ChatGLM3-6B 采用了全新设计的Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
  • AiGC摩天大楼 —— 第一层 LLMs 入门 之 LongWriter: 如何让大模型输出 10k+ 字长文?
    • 论文名称:LongWriter: Unleashing10,000+ Word Generation from Long Context LLMs
    • 论文地址:https://arxiv.org/abs/2408.07055
    • 代码:https://github.com/THUDM/LongWriter
    • 介绍:LongWriter 作者们发现该问题的本质在于大模型受到监督微调(SFT) 期间看到的示例的限制。也就是说,这种输出限制主要原因在于现有 SFT 数据集中长输出示例的稀缺性导致。针对这一问题,LongWriter 作者们构建了一个 6000 多条2k-20k words 不等的长输出数据集 LongWriter-6k,并在此基础上,对 GLM-4-9B 进行 SFT微调和 DPO对齐。新的模型拥有了能够生成超过10,000字/词连贯文本的能力。同时,LongWriter使用多个需要不同长度响应的查询来探测最先进的长上下文模型的最大输出长度,

第四阶 Baichuan 系列

第五届 Mistral 系列

  • AiGC摩天大楼 —— 第一层 LLMs 之 Chinese-Mistral: 中文Mistral模型
    • 介绍:随着Mistral AI公司开源其七十亿参数模型Mistral-7B,该模型超越Llama,成为当前最强大的开源模型之一。Mistral-7B在各类基准测试中,不仅超过了Llama2-13B,而且在推理、数学、代码生成任务中超过Llama2-34B。然而,Mistral-7B的训练语料主要为英文文本,其中文能力较为欠缺。其次,Mistral-7B的词表不支持中文,导致其对中文的编码和解码效率较低,限制了在中文场景的应用。为了克服这一局限,我们基于Mistral-7B进行了中文词表扩充和增量预训练,增强了Mistral-7B在中文任务上的表现,并提高了其对中文文本的编解码效率。

第二层 LLMs 指令微调篇

第三层 LLMs 应用实战篇

第三层 第一阶 LLMs RAG实战系列

第三层 第二阶 LLMs Agent 实战系列

第三层 第三阶 LLMs PPT自动生成实战系列

第三层 第四阶 LLM 会议纪要总结系列

第三层 第五阶 LLM 对齐角色扮演系列

第三层 第六阶 Text-to-SQL 系列

第三层 第七阶 长文本摘要生成 系列

第四层 LLMs 推理优化篇

第四层 LLMs 推理优化篇 第一阶 vLLM 系列

第四层 LLMs 推理优化篇 第二阶 Ollama 系列

第四层 LLMs 推理优化篇 第三阶 TensorRT-LLM 系列

第四层 LLMs 推理优化篇 第四阶 Medusa 系列

第五层 LLM API性能评估 篇

第六层 Stable Diffusion 文生图 篇

  • 第十阶 之 MIDI-3D:单图秒变3D场景!40秒生成360度空间
    • 模型:HuggingFace 模型库:https://huggingface.co/VAST-AI/
    • 介绍:MIDI-3D(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是一种先进的 3D 场景生成技术,能够在短时间内将单张图像转化为高保真度的 3D 场景。通过智能分割输入图像,识别出场景中的独立元素,再基于多实例扩散模型,结合注意力机制,生成360度的3D场景。MIDI-3D 具有强大的全局感知能力和细节表现力,能在40秒内完成生成,对不同风格的图像具有良好的泛化能力。无论是游戏开发、虚拟现实,还是室内设计,MIDI-3D 都能提供高效的3D场景生成解决方案。
  • 第九阶 之 OmniGen 篇
    • 模型:HuggingFace 模型库:https://modelscope.cn/models/BAAI/OmniGen-v1
    • 介绍:现有的图像生成模型往往需要加载多个额外的网络模块(如 ControlNet、IP-Adapter、Reference-Net 等)并执行额外的预处理步骤(例如人脸检测、姿势估计、裁剪等)才能生成令人满意的图像。但认为未来的图像生成范式应该更加简单灵活,即直接通过任意多模态指令生成各种图像,而无需额外的插件和操作,类似于 GPT 在语言生成中的工作方式。
  • 第八阶 之 Janus-Pro
    • 模型:https://modelscope.cn/collections/Janus-Pro-0f5e48f6b96047
    • 介绍:Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立的路径,同时仍然使用单一的、统一的变压器架构进行处理,该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型,并且匹配或超过了特定任务模型的性能。Janus-Pro 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的强大候选者。
  • 第七阶 之 VisCPM 基于CPM基础模型的中英双语多模态大模型系列
    • 模型:https://hf-mirror.com/openbmb/VisCPM-Paint
    • 介绍:VisCPM 是一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型),在中文多模态开源模型中达到最佳水平。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器Muffin和视觉解码器Diffusion-UNet以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
  • AiGC摩天大楼——第六层 Stable Diffusion文生图 之 OmniGen 篇
    • 模型链接:https://modelscope.cn/models/BAAI/OmniGen-v1
    • 介绍:用户可以轻松地微调 OmniGen,而不必担心为特定任务设计模型;你只需要准备相应的数据,然后运行训练脚本即可。想象力不再受限;每个人都可以构造任何图像生成任务,可以实现非常有趣、精彩和富有创意的事情。

第六层 Stable Diffusion 文生图 篇 —— 第五阶 Stable Diffusion3.5 系列

第六层 Stable Diffusion 文生图 篇 —— 第四阶 PixArt 系列

  • AiGC摩天大楼——第六层 Stable Diffusion文生图 之 PixArt-alpha 篇
    • 介绍:PixArt-α是一种基于Transformer的文生图(T2I)扩散模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL甚至Midjourney)相媲美。
  • AiGC摩天大楼——第六层 Stable Diffusion文生图 之 PixArt-sigma 篇
    • 论文名称:PIXART-Σ:Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
    • 论文地址:https://arxiv.org/pdf/2403.04692.pdf
    • 介绍:华为发布了 PixArt-Σ,一种Diffusion Transformer(DiT)模型,能够直接生成4K分辨率的高质量图像。总的来说就是PixArt-Σ通过将更高质量的数据纳入训练,并提出一种新颖的注意力模块来压缩Key值和Value值,实现了从“弱”基线到“强”模型的训练效率。该模型在生成高保真图像的同时,与文本提示紧密对齐,超越了其前身PixArt-α模型。PixArt-Σ可以直接生成 4K 的图片,目前开源的模型暂时还没有模型能做到,这个能力对于从事电影和游戏等行业的设计师来说是个巨大的福音了。

第六层 Stable Diffusion 文生图 篇 —— 第三阶 VisCPM 系列

  • AiGC摩天大楼——第六层 Stable Diffusion文生图之VisCPM基于CPM基础模型的中英双语多模态大模型
    • 介绍:VisCPM 是一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型),在中文多模态开源模型中达到最佳水平。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器Muffin和视觉解码器Diffusion-UNet以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。

第六层 Stable Diffusion 文生图 篇 —— 第二阶 Stable Diffusion 系列

第六层 Stable Diffusion 文生图 篇 —— 第一阶 Midjourney 系列

第七层 OCR 篇

第八层 ASR 篇

第九层 TTS 篇

第十层 人像分割 篇

第十一层 Language-Image 篇

第十二层 Ai 换脸 篇

第十三层 Ai 文生视频 篇

第十四层 Ai 图生视频 篇

第十五层 Ai 动作迁移 篇

第十六层 Ai 虚拟试衣 篇

第十七层 数字人 篇

  • AiGC摩天大楼第十七层数字人—JoyHallo:京东开源的普通话数字人项目,从效果看唇形表达流畅自然
    • 介绍:在音频驱动的视频生成中,制作普通话视频面临着巨大的挑战。收集全面的普通话数据集很困难,而且与英语相比,普通话中复杂的唇部动作使模型训练更加复杂。在本研究中,我们从京东健康公司员工那里收集了 29 小时的普通话语音视频,形成了 jdh-Hallo 数据集。该数据集涵盖了各种年龄和说话风格,涵盖了对话和专门的医学主题。为了使 JoyHallo 模型适用于普通话,我们采用了中文 wav2vec2 模型进行音频特征嵌入。提出了一种半解耦结构来捕捉唇部、表情和姿势特征之间的特征间关系。这种集成不仅提高了信息利用效率,而且还将推理速度提高了 14.3%。值得注意的是,JoyHallo 保留了其强大的生成英语视频的能力,展示了出色的跨语言生成能力。
  • AiGC摩天大楼第十七层数字人—LivePortrait:高级AI肖像动画,配有拼接和重定向功能
    • 论文名称:LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
    • 介绍:LivePortrait是由快手科技与中国科学技术大学和复旦大学合作开发的先进AI驱动的肖像动画框架。不同于主流的扩散方法,LivePortrait利用基于隐式关键点的框架,从单个源图像创建栩栩如生的视频动画。这种方法平衡了计算效率和可控性,使其成为多种应用的实用工具。
  • AiGC摩天大楼第十七层数字人—Hallo2 篇
    • 项目官网: fudan-generative-vision.github.io/hallo2
    • 介绍:复旦大学跟百度联手开发的Hallo2简直离谱,一张照片配上一段语音,直接能搓出4K清晰度的数字人视频,关键是能录一整个小时!
  • AiGC摩天大楼——第十七层 数字人——TANGO:声音驱动视频生成全身数字人
    • 论文名称:TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation
    • 介绍:目前已经有很多面部和唇形同步的数字人项目了,但大多只支持头像和上半身,现在终于有个类Heygen的开源全身数字人项目。TANGO是由东京大学和CyberAgent AI Lab共同研发的项目,它能根据目标语音音频生成同步全身手势的视频。只需提供一段肢体动作视频和目标语音音频,TANGO就能将两者合成制作出高保真度、动作同步的视频。
  • AiGC摩天大楼——第十七层 数字人—— EchoMimic:让数字人说话更自然,表情更生动
    • 论文名称:EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning
    • 论文地址:https://arxiv.org/abs/2407.08136
    • 介绍:EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不仅支持单独使用音频或面部特征生成视频,还能将两者结合,实现更自然、流畅的对口型效果。
  • AiGC摩天大楼——第十七层 数字人——V-Express 篇
    • 论文名称:V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
    • 论文地址:https://arxiv.org/abs/2406.02511
    • Github:https://github.com/tencent-ailab/V-Express/
    • 介绍:V-Express方法通过渐进式训练和条件退出操作来平衡不同的控制信号,逐渐实现弱条件的有效控制,从而实现同时考虑面部姿态、参考图像和音频的生成能力。
  • AiGC摩天大楼——第十七层 数字人—— wav2lip 篇
    • 论文:A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild
    • 论文地址:http://arxiv.org/abs/2008.10010
    • 介绍:Wav2Lip 是一种通过将音频与视频中的嘴唇动作同步的技术,旨在生成与音频内容高度匹配的口型动画。其主要应用是让视频中的人物嘴唇动作与配音或其他音频输入精确同步,这在电影配音、虚拟主持人、在线教学、影视后期处理等领域非常有用。

第十八层 全模态理解 篇

第十八层 Ai音乐生成 篇

About

【AIGC 实战入门笔记 —— AIGC 摩天大楼】分享 大语言模型(LLMs),大模型高效微调(SFT),检索增强生成(RAG),智能体(Agent),PPT自动生成, 角色扮演,文生图(Stable Diffusion) ,图像文字识别(OCR),语音识别(ASR),语音合成(TTS),人像分割(SA),多模态(VLM),Ai 换脸(Face Swapping), 文生视频(VD),图生视频(SVD),Ai 动作迁移,Ai 虚拟试衣,数字人,全模态理解(Omni),Ai音乐生成 干货学习 等 实战与经验。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published