-
Notifications
You must be signed in to change notification settings - Fork 5.9k
最佳实践
zR edited this page Sep 30, 2023
·
20 revisions
- 在
text_splitter
文件夹下新建一个文件,文件名为您的分词器名字,比如my_splitter.py
,然后在__init__.py
中导入您的分词器,如下所示:
from .my_splitter import MySplitter
- 修改
config/model_config.py
文件,将您的分词器名字添加到text_splitter_dict
中,如下所示:
MySplitter: {
"source": "huggingface", # 选择tiktoken则使用openai的方法
"tokenizer_name_or_path": "your tokenizer", #如果选择huggingface则使用huggingface的方法,部分tokenizer需要从Huggingface下载
}
TEXT_SPLITTER = "MySplitter"
完成上述步骤后,就能使用自己的分词器了。
- 创建自己的Agent工具
-
开发者在
server/agent
文件中创建一个自己的文件,并将其添加到tools.py
中。这样就完成了Tools的设定。 -
当您创建了一个
custom_agent.py
文件,其中包含一个work
函数,那么您需要在tools.py
中添加如下代码:
from custom_agent import work
Tool.from_function(
func=work,
name="该函数的名字",
description=""
)
- 请注意,如果你确定在某一个工程中不会使用到某个工具,可以将其从Tools中移除,降低模型分类错误导致使用错误工具的风险。
- 修改
custom_template.py
文件
开发者需要根据自己选择的大模型设定适合该模型的Agent Prompt和自自定义返回格式。
在我们的代码中,提供了默认的两种方式,一种是适配于 GPT
和 Qwen
的提示词
"""
Answer the following questions as best you can. You have access to the following tools:
{tools}
Use the following format:
Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can be repeated zero or more times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question
Begin!
history:
{history}
Question: {input}
Thought: {agent_scratchpad}
"""
另一种是适配于 GLM-130B
的提示词
"""
尽可能地回答以下问题。你可以使用以下工具:{tools}
请按照以下格式进行:
Question: 需要你回答的输入问题
Thought: 你应该总是思考该做什么
Action: 需要使用的工具,应该是[{tool_names}]中的一个
Action Input: 传入工具的内容
Observation: 行动的结果
... (这个Thought/Action/Action Input/Observation可以重复N次)
Thought: 我现在知道最后的答案
Final Answer: 对原始输入问题的最终答案
现在开始!
之前的对话:
{history}
New question: {input}
Thought: {agent_scratchpad}
"""
开发者可以自行对提示词进行修改。
- 局限性
- 在我们的实验中,小于70B级别的模型,若不经过微调,很难达到较好的效果。因此,我们建议开发者使用大于70B级别的模型进行微调,以达到更好的效果。
- 由于React Agent 的脆弱性,temperature 参数的设置对于模型的效果有很大的影响。我们建议开发者在使用自定义Agent时,对于不同的模型,将其设置成0.1以下,以达到更好的效果。
- 即使使用了大于70B级别的模型,开发者也应该在Prompt上进行深度优化,以让模型能成功的选择工具并完成任务。
- Qwen系列模型已经对 Agent 进行了对齐,但是经过开发组调试,其效果尚且不能完成大规模的Agent任务。
- 本项目基于 FastChat 加载 LLM 服务,故需以 FastChat 加载 PEFT 路径。
- 开发者需要保证路径名称里必须有 peft 这个词。
- 配置文件的名字为
adapter_config.json
- peft 路径下包含.bin 格式的 PEFT 权重, peft路径在startup.py中
create_model_worker_app
函数的args.model_names
中指定
args.model_names = ["/home/ubuntu/your_peft_folder/peft"]
- 执行代码之,应该设定环境变量
PEFT_SHARE_BASE_WEIGHTS=true
注:如果上述方式启动失败,则需要以标准的 FastChat 服务启动方式分步启动,PEFT加载详细步骤参考以下ISSUE
- 使用自定义的嵌入模型,开发者需要将其合并到原始的嵌入模型中,之后仅需将其路径添加到
config/model_config.py
中并选择自己的模型启动即可。
- 日志功能记录了大模型的心跳和网络端口传输记录,开发者可以通过日志功能查看模型的运行情况。
- 在默认的配置文件中,我们提供了以下模型组合
LLM: Chatglm2-6b
Embedding Models: m3e-base
TextSplitter: ChineseRecursiveTextSplitter
Kb_dataset: faiss
- 我们推荐开发者根据自己的业务需求进行模型微调,如果不需要微调,且配置充足,可以选择以下性能较好的本地大模型配置:
model_config.py
LLM: Qwen-14B-Chat 或 Baichuan2-13B-Chat
Embedding Models: piccolo-large-zh 或 bge-large-zh-v1.5
HISTORY_LEN = 20
TEMPERATURE = 0.1
使用该模型将需要更高的硬件要求
1张 RTX A6000 或者 A40 等 48GB 显存以上的显卡。推荐 1 x A100 以上。
(使用多张显卡拼接也能运行,但是速度非常慢,2张4090拼接运行大概为一秒一个字的速度)
64GB 内存用于加载模型而不被Kill
服务器级的CPU,推荐 Xeon(R) Platinum 8358P 以上
-
如果开发者知识库较大,有大量文档,大文件,我们推荐开发者使用
pg
向量数据库 -
如果开发者的知识库具有一定的关键词特征,例如:
- 问答对文件(以Q + A 为一个组合的json文件)
- Markdown文件
- 并排的pdf文件
- 具有多个表格的pdf文件
我们推荐开发者自行开发分词器,以达到更好的效果。
-
如果开发者想使用更全面的 Agent 功能,我们推荐开发者使用以下配置
LLM: Qwen-14B-Chat 或 GPT-4
Tools 的工具控制在10个之内