综述

agent
- 提示词prompt
- 工作流搭建
模型部署和高并发（资源优化和分配）
开发框架
- langchain
- pytorch
- tensorflow
- hugginface
模型训练与微调
- 高质量微调数据与评估
- 微调原理
- LLM蒸馏（大模型到小模型）
- 多模态
知识库搜索
- Embbedings和向量库
- RAG技术
- RAG多模态处理
- RAG调优
AI Coding
- 如何使用和经验
- AI开发与AI重构
- 分工与协作：前端、后段、产品经理
- 部署Claude Code （信创要求高：国央企、军队）
  几个模型大厂和六小厂
  云计算、GPU租赁：阿里云、火山引擎、AutoDL
  OPC（一个人公司，one person company）

行业场景

2C企业：
需要流量、成交口碑、副购、成本，
低价值低投入场景：文案、图片生成、数字人、网络信息搜索、对话数据解析、模版文件处理、软件操作、票据处理、简历面试
高价值高投入：图片定制生成、营销视频、视频行为分析、在线客服/销售、个性化服务、声音合成、产品效果展示、产品创意设计、合规审查、数据可视化、企业知识库

模型能力不行时需要工程应用处理
2B企业（生产性企业，利润低）：
需求：稳定生产、提高效率、降低成本
低价值低投入：生产计划、采购计划、市场数据抓取、系统软件操作
高价值高投入：生产质量、生产设备监测、视频行为分析、原料消耗管理、调度物流配置、仓储管理、价格预测
服务企业：
需求：升级产品和服务、提升竞争力、降低服务成本、推出AI新产品和新服务
国央企：
需求：优化资源配置、提高办事效率、加快响应速度、安全防护
|673

提示词工程

系统提示词和用户提示词，prompt是与LLM打交道的唯一方式。应用层的技术是为了拼出一个合适的promt。

身份设定
背景设定
参考资料
样例
- 没有样例：Zero-Shot
- 一个样例：One-Shot
- 多个样例：Few-Shot
- 如何动态添加样例而不是手写样例
  - RAG：Retrieval-Augmented Generation（回答问题之前先做一轮内部知识搜索）
    - 将参考资料和样例放在prompt中，就叫做In-Context-Learning（下一轮对话需要注入上下文，否则会忘掉）
    - 模型接收提示词有字数限制，且内容多性能下降，需要知识库塞入这些内容。
    - 构建知识库：
      - 分析场景是宽场景还是窄场景
      - 搜集文件（pdf、word、md、html、表格、图片）并纯文字化-》
      - 分块/切片（100～2000文字）（ai、agent、人工）-〉
        
        技巧：每一个切片是一个对立的主题（一行一个主题）
        
        技巧：人为切分固定数量的文本
        
        技巧：问答对格式，一个问答对为一个chunk，优先使用rag而不是微调
      - 向量化embedding和存储
      - 优化检索结果
        
        没有检索到
        
        检索到了但是相似度不高
    - LLM调用知识库：
      - 用户query-》向量化embedding
      - 在向量库中搜索相似的向量
      - 拼接提示词（系统提示词+搜索到的知识向量+原始query向量）=》最终提示词
      - 最终提示词给LLM并给出反馈
指令
限制条件

RAG的高级技巧：双向奔赴

用户的query如何在向量库中找出来对应的信息，
融合策略：

Query改写（依靠LLM）：
- 汇总上下文信息，总结用户核心诉求作为query
  - query默认是用户问题
  - query的样式多种多样
  - 用户会多轮的形式提问
  - 多意图query
  - 反问型query
  - 条件型query，哪些需要检索知识库哪些检索数据库
  - 模糊指代型query
  - 对比型query
  - 上下文依赖型query
- Agentic RAG：在检索RAG前agent判断是否进行改写query，针对上下文分析对RAG检索几次，如何拼接成提示词
知识库处理技巧
- 对场景的理解：清除用户会问什么，怎么问
- 对技术的理解：问题的分类、不同问题对应的知识库、每个知识库的知识处理方式
  - 举例：
    - coze知识库爬虫-》转纯文本txt，
      - 知识和问题内容不对等、长度不对等，需要使用excel表格填充问题和知识内容对，用LLM根据知识内容生成用户问题
      - 将问题变成数学向量放入向量库并加入meta信息（即对应的知识出处，创建时间、元文字的其他信息）
    - 微信对答知识库
      - 问答对（多个问题一个回答）
    - 长视频知识库
      - 视频变成文字处理方式：
        
        视频归类
        
        演讲类画面不重要音频为重
        
        找一个工具分离出音频
        
        找一个工具把声音转成文字（一般6万到8万字）
        
        切片（LLM辅助切片，观察数据梳理数据：例如最小颗粒度的知识点不会超过1000个文字），先取1000个字，让LLM分析讲了几个主题，将第一个主题的文字长度输出出来，再从第一个主题后的第一个文字开始取1000个文字，重复上述工作
        
        如果LLM切的不好，你要通过提示词告诉它你的主题是如何定义的
        
        三元组（问题、知识内容、图片），问题放入向量库并把知识和图片放入向量对应的meta元文字中
        
        视频画面传递信息
        
        两种类型交替出现（切割视频）

Agent

workflow agent 工作流智能体

设计agent时要给大语言模型多大的空间

LLM幻觉
LLM只会说，不会做
LLM规划的步骤不可靠
如何应对极强的准确度、可控性=》模型提供智能，agent保证结果。
意图识别，分流（function call）
对其中每种意图做工作流（功能模块）或者skill
问：例如五道口有地铁站吗
操作：
1、检索知识库
2、执行工作流（地点意图）
得到两个结果，检索知识库的回答结果和工作流输出结果。将两个结果拼成最终的提示词给LLM让它给出反馈结果。

工作流和skill

工作流和skill是提前开发好的功能模块，大语言模型有function call能力（大语言模型能够看到用户的自然语言命令、要求和问题，并有能力自主判断是否要调用某个功能模块（工具）、调用哪些功能模块、调用工具时的参数是什么），但是你要把这些可被调用的工具写到系统提示此中，否则大语言模型不知道都有哪些工具可被它支配。

react agent 推理型智能体

通用agent例如open claw龙虾、permis爱马仕、manus、codex、claude使用推理智能体。
专用agent例如某个场景无自主性，工作流智能体。
有些任务无法提前设定步骤怎么办？
react：reasoning+acting：推理（要采用什么行动）、行动、整理并获得反馈，三者多轮循环，每轮循环都在更新拼接新的提示词。

推理阶段：

LLM推理使用哪个工具。返回文本
我们要给出若干可用的行动工具skill到系统提示词中，让大语言从里面挑选。
输出行动的名称。
行动阶段：
提前写好的行动代码（可以是人也可以是LLM写）
反馈阶段：
agent拼接提示词

例如AutoGPT
模版提示词拼接内容：
三个板块

引导LLM思考
列出所有行动工具：ListFileNames、AskDocument
输出的内容是当前最新的任务执行记录

模拟循环过程：

step0:
- 原始提示词
- LLM给出调用工具文本名{"action": ListFileNames}
- agent执行ListFileNames,返回文本

1
2
3

各类电子产品销售数据.xlsx
各地供应商信息.xlsx
2023年供应商月销售额任务管理方案.pdf

step 1：
- 新的拼接提示词=原始提示词+上轮返回的文本

1
2
3

各类电子产品销售数据.xlsx
各地供应商信息.xlsx
2023年供应商月销售额任务管理方案.pdf

LLM给出调用工具文本

{
    "action":"AskDocument,
    "params":{
        "file_name":"2023年供应商月销售额任务管理方案.pdf",
        "file_url":"/mnt/data/2023年供应商月销售额任务管理方案",
        "file_type":"pdf",
        "query":"查询供应商月度销售额的达标标准"
    }
}

agent执行AskDocument
AskDocument执行结果的文本

2023年供应商月销售额任务管理方案.pdf
2023年供应商9月分的销售额达标标准是多少？
2023年供应商9月份的销售额达标标准是3万元。
根据文件2023年各季度销售额任务分配的第三季度（7月-9月）规定：9月销售额任务明确为3万元。

step 2:

新提示词=原始提示词+上两轮提示词的结果，拼接在一起。
LLM给出的决策文本

{
    "action":"InspectExcel",
    "params":{
        "file_name":"各类电子产品销售数据.xlsx",
        "file_url":"/mnt/data/各类电子产品销售数据.xlsx"
    }
}

agent执行InspectExcel
返回文本结果
react agent不怕大模型犯错，

思维链 Chain of Thought

用提示词引导到模型给出推理文字，然后再做任务
大模型无法反思只能一次输出内容，而agent有loop可以不断拼接提示词每次都让大模型输出内容可以达到反思的能。

agent平台

多模态

视觉与语言的打通

一个模型同时看懂语言和视觉，模型可以输出文字、也可以输出图片和视频，好处视觉转译文字、融合推理（融合图片的推理和文字推理）、视觉编辑。

视觉识别与视觉推理

传统视觉识别模型：没有推理、精度高、需要提前定义类型

Yolo：目标识别，快
Unet：具体区域的分割，慢
- 输入：1024*768图片
- 输出：1024*768图片，每一个像素都被标注属于哪个对象
优势：模型小、部署和使用成本低、识别精度高
劣势：需要单独标注、训练模型
多模态模型：有推理过程、精度低
Gemini、GPT
优势：无需标注、无需训练、直接使用、有推理能力
劣势：部署成本高、精度低

视觉生成：人工智能生成内容（Artificial Intelligence Generated Content，简称AIGC）

模型能力不足时的综合方案。
能力不足：只写提示词给模型，生成的视频无法满足需求。
例如：

海报生成
漫剧：对象的一致性问题
电商视频
- 中长尾商品素材匮乏
- 爆款商品延展性差
- 内容需求量大，制作成本高
- 生产流程长，协同效率低
- 素材管理智能程度低
- 优质内容的筛选和复用难
- 效果反馈不及时
- 精细化内容营销难
  电商视频生成
视频片段组合
- 由哪些片段组合的
- 这些片段哪来的
如何得到视频片段：品牌视频切片、产品展示切片、模特展示切片、直播切片
- AI+人工：json格式化切片

{
    "start_time":"00:20",
    "end_time": "01:10",
    "visual_content": "场景切换，女士坐在灰色背景前，跳舞",
    "on_screen_text": ["撑起肌肤小弹簧"],
    "dialogue": "按压也会生成鱼尾纹"
}

通过代码或工具，将视频中的音频分离
从音频中提取文字
通过多模态模型对画面进行文字描述
人工补充修改文字描述
整理成结构化信息
- 切片后的视频还需要配置结构化文字描述
- 打标签，你要自定义有哪些标签，不能让LLM瞎打标签。
用普通LLM不用多模态模型（因为每个片段都有丰富的结构化文本描述）排列、拼接视频片段。
- 渐进式批露：当提供的视频片段的结构文字数量很多时，让LLM规划视频内容，有多少条视频描述产品痛点、多少条产品描述、多少条促销，根据LLM挑选的各条视频+文字结构，然后排列，最后我们来实现视频的最终拼接。
生成内容
1、文生视频
2、图生视频
3、分析商家有什么（衣服）、没有什么（模特）
4、将衣服穿到模特身上，例如flux、catVTON，但是衣服穿到模特身上总是会出问题，例如衣服变形，穿着不到位。
catVTON局部重绘：将涂抹掉的区域重新绘制

涂抹不到位问题：
1、手动涂抹
2、对一个模特的涂抹区域打标签，例如短裤区域涂抹、7分裤区域涂抹、全身裤区域涂抹，图片+结构化文本。

3、为模特添加背景：人工+LLM梳理提示词模版
套模版
模型能力不足时的综合方案的评价
1、水涨船高型
2、擎天柱型