跳到主要内容

6 篇博文 含有标签「LLM」

查看所有标签

MarkMap思维导图

😱 传统 MCP 的痛点是否让你焦虑?

🔴 复杂的 MCP 服务器搭建
• 需要搭建专用服务器
• 配置复杂的 MCP 协议
• 学习成本高,入门门槛高

🔴 高昂的维护成本
• 服务器租用费用 $50-200/月
• 系统维护和监控
• 故障排查和修复时间成本

🔴 可用性和性能问题
• 依赖自建服务器稳定性
• 响应速度受网络和硬件限制
• 扩展性受服务器资源约束

🎉 Markmap API - 一站式解决方案

🟢 零配置即时可用
• 一个 HTTP API 调用即可使用
• 30 秒内完成 Claude/GPT 集成
• 无需任何服务器搭建

🟢 完全免费使用
• 无服务器费用
• 无维护成本
• 无使用限制(合理范围内)

🟢 99.9% 高可用性
• Cloudflare Workers 全球 CDN
• 毫秒级响应速度
• 200+ 边缘节点加速

一个 HTTP 请求,搞定所有思维导图需求 - 让你的 ClaudeGPTGemini 等 AI 助手立即拥有专业级的可视化能力!

🚀 为什么选择 Markmap API 而非 MCP?

🎯 专为 LLM 工具调用而生

Markmap API 是一个零配置的思维导图生成服务,专门为 ClaudeGPTGemini 等 LLM 的工具调用功能设计。告别复杂的 MCP 服务器搭建,让 AI 助手瞬间获得可视化超能力!

💫 MCP vs Markmap API 对比

特性传统 MCP 方案Markmap API
搭建复杂度🔴 需要服务器搭建🟢 零配置,直接调用
维护成本🔴 需要持续维护🟢 云端托管,无需维护
可用性🟡 依赖自建服务器🟢 99.9% 高可用性
响应速度🟡 取决于服务器性能🟢 全球 CDN,毫秒级响应
LLM 兼容性🟡 需要协议适配🟢 支持所有主流 LLM
使用成本🔴 服务器 + 维护成本🟢 完全免费

🎨 核心优势

  • 🤖 LLM 专用设计 - 完美适配 Claude、GPT 等工具调用
  • ⚡ 即插即用 - 一个 API 调用,立即生成精美思维导图
  • 🔄 零维护 - 基于 Cloudflare Workers,99.9% 可用性
  • 🌍 全球加速 - 200+ 边缘节点,毫秒级响应
  • 🛡️ 企业级安全 - 内置安全防护,无需担心数据泄露
  • 📱 全端兼容 - 生成的思维导图支持所有设备和平台

🌐 LLM 工具调用专用端点

生产服务地址: https://markmap-api.jinpeng-ti.workers.dev

🤖 专为 LLM 优化的 API 端点

端点方法LLM 工具调用场景响应时间
/healthGET服务健康检查< 50ms
/api/renderPOST推荐 - 直接生成可视化 HTML< 500ms
/api/transformPOST获取结构化数据用于二次开发< 300ms
/api/batch/transformPOST批量处理多个文档< 1s

🎯 LLM 最佳实践端点

💡 推荐使用 /api/render - 这是专为 LLM 工具调用优化的端点,一次请求即可生成完整的交互式思维导图 HTML,用户可直接在浏览器中查看和交互。

🤖 LLM 工具调用快速开始

⚡ 30 秒集成指南 - Claude 示例

无需任何服务器搭建,Claude 可以直接调用我们的 API 生成思维导图:

{
"name": "create_mindmap",
"description": "将 Markdown 文本转换为交互式思维导图 HTML",
"input_schema": {
"type": "object",
"properties": {
"markdown": {
"type": "string",
"description": "要转换的 Markdown 内容"
},
"title": {
"type": "string",
"description": "思维导图的标题",
"default": "思维导图"
},
"theme": {
"type": "string",
"enum": ["light", "dark", "auto"],
"description": "主题样式",
"default": "light"
}
},
"required": ["markdown"]
}
}

🎯 一行命令生成思维导图

最简单的使用方式 - 直接生成完整的交互式思维导图:

# LLM 工具调用最佳实践
curl -X POST https://markmap-api.jinpeng-ti.workers.dev/api/render \
-H "Content-Type: application/json" \
-d '{
"markdown": "# 我的学习计划\n## 前端开发\n### HTML/CSS\n### JavaScript\n### React\n## 后端开发\n### Node.js\n### 数据库",
"title": "学习计划思维导图",
"theme": "light"
}' \
-o mindmap.html && open mindmap.html

🎉 就这么简单! 生成的 HTML 文件可以直接在任何浏览器中打开,包含完整的交互式思维导图。

🔧 高级用法 - 获取结构化数据

如果你需要在自己的应用中使用思维导图数据(适合需要自定义渲染的场景):

curl -X POST https://markmap-api.jinpeng-ti.workers.dev/api/transform \
-H "Content-Type: application/json" \
-d '{
"markdown": "# 项目规划\n## 需求分析\n### 用户调研\n### 竞品分析\n## 设计开发\n### UI 设计\n### 编码实现",
"options": {
"colorFreezeLevel": 2,
"initialExpandLevel": -1,
"maxWidth": 800
}
}'

📦 批量处理 - 企业级应用

当你需要同时处理多个文档时(适合批量分析和处理场景):

curl -X POST https://markmap-api.jinpeng-ti.workers.dev/api/batch/transform \
-H "Content-Type: application/json" \
-d '{
"documents": [
{
"id": "project-a",
"markdown": "# 项目 A\n## 模块 1\n### 功能 X\n## 模块 2"
},
{
"id": "project-b",
"markdown": "# 项目 B\n## 阶段 1\n### 任务 Y\n## 阶段 2"
}
],
"options": {
"colorFreezeLevel": 3
}
}'

🤖 主流 LLM 工具调用配置

🌀 Claude (Anthropic) 集成

在 Claude Desktop 或 API 中配置工具:

{
"tools": [
{
"name": "create_mindmap",
"description": "将 Markdown 内容转换为交互式思维导图,适合用于知识结构化、项目规划、学习路径等场景",
"input_schema": {
"type": "object",
"properties": {
"markdown": {
"type": "string",
"description": "要转换的 Markdown 内容,使用标题级别来表示层次结构"
},
"title": {
"type": "string",
"description": "思维导图的标题",
"default": "思维导图"
},
"theme": {
"type": "string",
"enum": ["light", "dark", "auto"],
"description": "主题样式,light(浅色)适合白天,dark(深色)适合晚上,auto(自动)根据系统设置",
"default": "auto"
}
},
"required": ["markdown"]
}
}
]
}

实现函数:

import requests
import json

def create_mindmap(markdown: str, title: str = "思维导图", theme: str = "auto") -> str:
"""Claude 工具调用实现函数"""
try:
response = requests.post(
"https://markmap-api.jinpeng-ti.workers.dev/api/render",
headers={"Content-Type": "application/json"},
json={
"markdown": markdown,
"title": title,
"theme": theme
},
timeout=30
)

if response.status_code == 200:
# 保存 HTML 文件
filename = f"{title.replace(' ', '_')}_mindmap.html"
with open(filename, 'w', encoding='utf-8') as f:
f.write(response.text)

return f"✅ 思维导图已生成并保存为 {filename},可在浏览器中打开查看交互式思维导图。"
else:
error_info = response.json() if response.text else {"error": "Unknown error"}
return f"❌ 生成失败: {error_info.get('error', 'Unknown error')}"

except requests.exceptions.Timeout:
return "❌ 请求超时,请稍后重试"
except Exception as e:
return f"❌ 发生错误: {str(e)}"

🤖 GPT (OpenAI) 集成

在 GPT Actions 或 Function Calling 中配置:

{
"openapi": "3.0.0",
"info": {
"title": "Mindmap Generator API",
"version": "1.0.0"
},
"servers": [
{
"url": "https://markmap-api.jinpeng-ti.workers.dev"
}
],
"paths": {
"/api/render": {
"post": {
"operationId": "createMindmap",
"summary": "生成交互式思维导图",
"description": "将 Markdown 文本转换为精美的交互式思维导图 HTML,适用于知识整理、项目规划、学习路径等",
"requestBody": {
"required": true,
"content": {
"application/json": {
"schema": {
"type": "object",
"properties": {
"markdown": {
"type": "string",
"description": "Markdown 内容,使用 # ## ### 等标题级别表示层次结构"
},
"title": {
"type": "string",
"description": "思维导图标题",
"default": "思维导图"
},
"theme": {
"type": "string",
"enum": ["light", "dark", "auto"],
"description": "主题风格",
"default": "light"
}
},
"required": ["markdown"]
}
}
}
},
"responses": {
"200": {
"description": "成功生成思维导图 HTML",
"content": {
"text/html": {
"schema": {
"type": "string"
}
}
}
}
}
}
}
}
}

✨ Gemini (Google) 集成

在 Gemini Function Calling 中使用:

import google.generativeai as genai

# 定义工具函数
generate_mindmap = genai.protos.FunctionDeclaration(
name="generate_mindmap",
description="将 Markdown 文本转换为交互式思维导图,帮助用户更好地理解和组织信息",
parameters=genai.protos.Schema(
type=genai.protos.Type.OBJECT,
properties={
"markdown": genai.protos.Schema(
type=genai.protos.Type.STRING,
description="要转换的 Markdown 文本内容"
),
"title": genai.protos.Schema(
type=genai.protos.Type.STRING,
description="思维导图的标题"
),
"theme": genai.protos.Schema(
type=genai.protos.Type.STRING,
enum=["light", "dark", "auto"],
description="主题风格"
)
},
required=["markdown"]
)
)

# 工具集
mindmap_tool = genai.protos.Tool(
function_declarations=[generate_mindmap]
)

# 使用示例
model = genai.GenerativeModel(
model_name='gemini-pro',
tools=[mindmap_tool]
)

🅰️ 使用示例 - 与 LLM 对话

用户: “帮我创建一个关于机器学习的学习路径思维导图”

LLM 回复: “我来为您创建一个机器学习学习路径的思维导图,包含从基础入门到高级应用的完整路径。”

# 机器学习学习路径
## 数学基础 (2-3个月)
### 线性代数
#### 向量和矩阵
#### 特征值和特征向量
### 概率统计
#### 概率分布
#### 贝叶斯理论
### 微积分
#### 偏导数
#### 梯度下降
## 编程基础 (1-2个月)
### Python 语言
#### NumPy 数值计算
#### Pandas 数据处理
#### Matplotlib 数据可视化
### 数据结构与算法
#### 排序算法
#### 搜索算法
## 机器学习理论 (3-4个月)
### 监督学习
#### 回归算法
##### 线性回归
##### 多项式回归
#### 分类算法
##### 逻辑回归
##### 决策树
##### 随机森林
##### SVM
### 无监督学习
#### 聚类算法
##### K-Means
##### 层次聚类
#### 降维算法
##### PCA
##### t-SNE
### 模型评估
#### 交叉验证
#### 过拟合与欠拟合
#### 正则化
## 深度学习 (4-6个月)
### 神经网络基础
#### 前向传播
#### 反向传播
#### 激活函数
### 深度学习框架
#### TensorFlow
#### PyTorch
#### Keras
### 常用网络架构
#### CNN (卷积神经网络)
#### RNN (循环神经网络)
#### LSTM/GRU
#### Transformer
## 实战项目 (2-3个月)
### 数据科学项目
#### 房价预测
#### 客户流失分析
### 计算机视觉项目
#### 图像分类
#### 物体检测
### 自然语言处理项目
#### 情感分析
#### 文本生成
## 进阶发展
### MLOps
#### 模型部署
#### 模型监控
#### CI/CD for ML
### 前沿技术
#### 强化学习
#### 生成对抗网络
#### 图神经网络

然后 LLM 会调用 create_mindmap 工具,生成一个精美的交互式思维导图!

💻 传统编程集成示例

JavaScript/Node.js 集成

class MarkdownToMindmap {
constructor(apiBase = 'https://markmap-api.jinpeng-ti.workers.dev') {
this.apiBase = apiBase;
}

// 转换为数据结构
async transform(markdown, options = {}) {
const response = await fetch(`${this.apiBase}/api/transform`, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({ markdown, options })
});

if (!response.ok) {
throw new Error(`API 请求失败: ${response.status}`);
}

return await response.json();
}

// 渲染为 HTML
async render(markdown, title = '思维导图', theme = 'light') {
const response = await fetch(`${this.apiBase}/api/render`, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({ markdown, title, theme })
});

if (!response.ok) {
throw new Error(`渲染失败: ${response.status}`);
}

return await response.text();
}

// 批量处理
async batchTransform(documents, options = {}) {
const response = await fetch(`${this.apiBase}/api/batch/transform`, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({ documents, options })
});

return await response.json();
}
}

// 使用示例
const mindmapAPI = new MarkdownToMindmap();

const markdown = `
# 技术栈选型
## 前端框架
### React
#### 组件化开发
#### 虚拟 DOM
### Vue.js
#### 响应式数据
#### 模板语法
## 后端技术
### Node.js
#### Express
#### Koa
### Python
#### Django
#### Flask
`;

try {
// 生成思维导图 HTML
const html = await mindmapAPI.render(markdown, '技术栈选型', 'dark');
console.log('生成成功,HTML 长度:', html.length);

// 获取结构化数据
const data = await mindmapAPI.transform(markdown, {
colorFreezeLevel: 2,
initialExpandLevel: 2
});
console.log('转换结果:', data.data.root);
} catch (error) {
console.error('处理失败:', error);
}

Python 集成

import requests
import json
from typing import Dict, List, Optional

class MarkdownToMindmap:
def __init__(self, api_base: str = "https://markmap-api.jinpeng-ti.workers.dev"):
self.api_base = api_base
self.session = requests.Session()
self.session.headers.update({'Content-Type': 'application/json'})

def transform(self, markdown: str, options: Optional[Dict] = None) -> Dict:
"""将 Markdown 转换为思维导图数据"""
payload = {"markdown": markdown}
if options:
payload["options"] = options

response = self.session.post(f"{self.api_base}/api/transform", json=payload)
response.raise_for_status()
return response.json()

def render(self, markdown: str, title: str = "思维导图", theme: str = "light") -> str:
"""将 Markdown 渲染为 HTML 页面"""
payload = {
"markdown": markdown,
"title": title,
"theme": theme
}

response = self.session.post(f"{self.api_base}/api/render", json=payload)
response.raise_for_status()
return response.text

def batch_transform(self, documents: List[Dict], options: Optional[Dict] = None) -> Dict:
"""批量转换多个文档"""
payload = {"documents": documents}
if options:
payload["options"] = options

response = self.session.post(f"{self.api_base}/api/batch/transform", json=payload)
response.raise_for_status()
return response.json()

# 使用示例
def main():
api = MarkdownToMindmap()

markdown_content = """
# 数据科学流程
## 数据收集
### 网络爬虫
#### BeautifulSoup
#### Scrapy
### API 接口
#### REST API
#### GraphQL
## 数据清洗
### 缺失值处理
### 异常值检测
## 数据分析
### 描述性统计
### 机器学习
#### 监督学习
#### 无监督学习
## 结果展示
### 可视化图表
### 报告生成
"""

try:
# 转换为数据结构
result = api.transform(markdown_content, {
"colorFreezeLevel": 3,
"initialExpandLevel": 2,
"maxWidth": 600
})
print(f"转换成功: {result['success']}")

# 生成 HTML 文件
html_content = api.render(
markdown_content,
title="数据科学流程图",
theme="dark"
)

# 保存到文件
with open("data_science_mindmap.html", "w", encoding="utf-8") as f:
f.write(html_content)
print("HTML 文件已生成: data_science_mindmap.html")

# 批量处理示例
documents = [
{
"id": "frontend",
"markdown": "# 前端技术\n## HTML/CSS\n## JavaScript\n## 框架\n### React\n### Vue"
},
{
"id": "backend",
"markdown": "# 后端技术\n## 服务器\n## 数据库\n## API\n### REST\n### GraphQL"
}
]

batch_result = api.batch_transform(documents, {"colorFreezeLevel": 2})
print(f"批量处理完成,处理了 {len(batch_result['results'])} 个文档")

except requests.RequestException as e:
print(f"API 请求失败: {e}")
except Exception as e:
print(f"处理出错: {e}")

if __name__ == "__main__":
main()

React 组件集成

import React, { useState, useCallback } from 'react';
import { Card, CardHeader, CardContent } from '@/components/ui/card';
import { Button } from '@/components/ui/button';
import { Textarea } from '@/components/ui/textarea';
import { Select, SelectContent, SelectItem, SelectTrigger, SelectValue } from '@/components/ui/select';
import { Loader2, Download, Eye } from 'lucide-react';

const MarkdownToMindmap = () => {
const [markdown, setMarkdown] = useState(`# 我的项目
## 前端开发
### React 组件
### 状态管理
### 路由配置
## 后端开发
### API 设计
### 数据库
### 部署运维`);

const [title, setTitle] = useState('思维导图');
const [theme, setTheme] = useState('light');
const [loading, setLoading] = useState(false);
const [htmlContent, setHtmlContent] = useState('');
const [error, setError] = useState('');

const generateMindmap = useCallback(async () => {
if (!markdown.trim()) {
setError('请输入 Markdown 内容');
return;
}

setLoading(true);
setError('');

try {
const response = await fetch('https://markmap-api.jinpeng-ti.workers.dev/api/render', {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
markdown: markdown.trim(),
title,
theme
})
});

if (!response.ok) {
const errorData = await response.json();
throw new Error(errorData.error || `请求失败: ${response.status}`);
}

const html = await response.text();
setHtmlContent(html);
} catch (err) {
setError(err.message || '生成思维导图失败');
console.error('Generation error:', err);
} finally {
setLoading(false);
}
}, [markdown, title, theme]);

const downloadHtml = useCallback(() => {
if (!htmlContent) return;

const blob = new Blob([htmlContent], { type: 'text/html;charset=utf-8' });
const url = URL.createObjectURL(blob);
const a = document.createElement('a');
a.href = url;
a.download = `${title || 'mindmap'}.html`;
document.body.appendChild(a);
a.click();
document.body.removeChild(a);
URL.revokeObjectURL(url);
}, [htmlContent, title]);

return (
<div className="max-w-7xl mx-auto p-6 space-y-6">
<div className="text-center space-y-2">
<h1 className="text-3xl font-bold text-gray-900">
Markdown 转思维导图工具
</h1>
<p className="text-gray-600">
基于 Markmap API,将你的 Markdown 文档转换为交互式思维导图
</p>
</div>

<div className="grid lg:grid-cols-2 gap-6">
{/* 输入区域 */}
<Card>
<CardHeader>
<h2 className="text-xl font-semibold">输入 Markdown</h2>
</CardHeader>
<CardContent className="space-y-4">
<Textarea
value={markdown}
onChange={(e) => setMarkdown(e.target.value)}
placeholder="# 标题&#10;## 子标题&#10;### 内容"
className="min-h-[400px] font-mono text-sm"
/>

<div className="flex gap-4">
<div className="flex-1">
<label className="block text-sm font-medium mb-2">标题</label>
<input
type="text"
value={title}
onChange={(e) => setTitle(e.target.value)}
className="w-full px-3 py-2 border border-gray-300 rounded-md"
placeholder="思维导图标题"
/>
</div>

<div className="flex-1">
<label className="block text-sm font-medium mb-2">主题</label>
<Select value={theme} onValueChange={setTheme}>
<SelectTrigger>
<SelectValue />
</SelectTrigger>
<SelectContent>
<SelectItem value="light">浅色主题</SelectItem>
<SelectItem value="dark">深色主题</SelectItem>
<SelectItem value="auto">自动</SelectItem>
</SelectContent>
</Select>
</div>
</div>

<Button
onClick={generateMindmap}
disabled={loading || !markdown.trim()}
className="w-full"
size="lg"
>
{loading ? (
<>
<Loader2 className="mr-2 h-4 w-4 animate-spin" />
生成中...
</>
) : (
<>
<Eye className="mr-2 h-4 w-4" />
生成思维导图
</>
)}
</Button>

{error && (
<div className="p-3 bg-red-50 border border-red-200 rounded-md">
<p className="text-red-600 text-sm">{error}</p>
</div>
)}
</CardContent>
</Card>

{/* 预览区域 */}
<Card>
<CardHeader className="flex flex-row items-center justify-between">
<h2 className="text-xl font-semibold">思维导图预览</h2>
{htmlContent && (
<Button
onClick={downloadHtml}
variant="outline"
size="sm"
>
<Download className="mr-2 h-4 w-4" />
下载 HTML
</Button>
)}
</CardHeader>
<CardContent>
{htmlContent ? (
<iframe
srcDoc={htmlContent}
className="w-full h-[500px] border rounded-md"
title="思维导图预览"
/>
) : (
<div className="h-[500px] border-2 border-dashed border-gray-300 rounded-md flex items-center justify-center">
<div className="text-center text-gray-500">
<Eye className="mx-auto h-12 w-12 mb-4 text-gray-400" />
<p>点击"生成思维导图"查看效果</p>
</div>
</div>
)}
</CardContent>
</Card>
</div>

{/* 使用说明 */}
<Card>
<CardHeader>
<h3 className="text-lg font-semibold">使用说明</h3>
</CardHeader>
<CardContent>
<div className="grid md:grid-cols-2 gap-6 text-sm">
<div>
<h4 className="font-medium mb-2">支持的 Markdown 语法:</h4>
<ul className="space-y-1 text-gray-600">
<li>• 标题:# ## ### #### ##### ######</li>
<li>• 嵌套结构自动识别</li>
<li>• 中英文混合内容</li>
<li>• 特殊字符和符号</li>
</ul>
</div>
<div>
<h4 className="font-medium mb-2">功能特性:</h4>
<ul className="space-y-1 text-gray-600">
<li>• 交互式缩放和拖拽</li>
<li>• 响应式设计,支持移动端</li>
<li>• 多种主题选择</li>
<li>• 一键下载 HTML 文件</li>
</ul>
</div>
</div>
</CardContent>
</Card>
</div>
);
};

export default MarkdownToMindmap;

🔧 高级配置选项

思维导图配置参数

const advancedOptions = {
// 颜色冻结层级 (0-10)
// 数值越高,深层节点保持相同颜色的层级越多
colorFreezeLevel: 2,

// 初始展开层级 (-1 表示全部展开,0 只显示根节点)
initialExpandLevel: -1,

// 节点最大宽度 (像素,0 表示无限制)
maxWidth: 800,

// 自定义样式
color: '#3F51B5',
duration: 500,
spacingVertical: 10,
spacingHorizontal: 80,
autoFit: true,
fitRatio: 0.95
};

主题样式定制

支持三种内置主题,也可以通过 CSS 变量进行自定义:

:root {
/* 浅色主题 */
--markmap-node-color: #3f51b5;
--markmap-link-color: #90a4ae;
--markmap-background: #ffffff;
--markmap-text-color: #212121;
}

[data-theme="dark"] {
/* 深色主题 */
--markmap-node-color: #64b5f6;
--markmap-link-color: #78909c;
--markmap-background: #121212;
--markmap-text-color: #e0e0e0;
}

🛡️ 安全性和限制

使用限制

项目限制
速率限制每 IP 15 分钟内最多 100 次请求
文件大小单个 Markdown 文件最大 1MB
批量处理最多同时处理 10 个文档
请求超时30 秒处理时间限制

安全特性

  • CORS 跨域支持 - 支持所有域名访问
  • XSS 防护 - 自动过滤和转义危险内容
  • 内容安全策略 - 防止恶意脚本注入
  • 速率限制 - 防止滥用和 DDoS 攻击
  • 输入验证 - 严格验证所有输入参数

🌍 实际应用场景

1. 技术文档可视化

将 API 文档、技术规范等转换为思维导图:

# REST API 设计规范
## 请求方法
### GET - 获取资源
### POST - 创建资源
### PUT - 更新资源
### DELETE - 删除资源
## 状态码
### 2xx 成功
#### 200 OK
#### 201 Created
#### 204 No Content
### 4xx 客户端错误
#### 400 Bad Request
#### 401 Unauthorized
#### 404 Not Found
### 5xx 服务器错误
#### 500 Internal Server Error
#### 503 Service Unavailable
## 响应格式
### JSON 格式
### 错误处理
### 分页机制

2. 项目规划管理

将项目计划转换为可视化的思维导图:

# 电商平台开发项目
## 第一阶段:基础架构 (Month 1-2)
### 技术选型
#### 前端:React + TypeScript
#### 后端:Node.js + Express
#### 数据库:PostgreSQL + Redis
### 环境搭建
#### 开发环境
#### 测试环境
#### 生产环境
## 第二阶段:核心功能 (Month 3-4)
### 用户系统
#### 注册登录
#### 用户信息管理
#### 权限控制
### 商品系统
#### 商品管理
#### 分类管理
#### 库存管理
### 订单系统
#### 购物车
#### 订单处理
#### 支付集成
## 第三阶段:高级功能 (Month 5-6)
### 推荐系统
#### 协同过滤
#### 内容推荐
### 数据分析
#### 用户行为分析
#### 销售数据统计
### 运营工具
#### 促销活动
#### 优惠券系统

3. 学习路径规划

为学习计划创建清晰的路径图:

# 全栈开发学习路径
## 前端基础 (3 个月)
### HTML/CSS
#### HTML5 语义化
#### CSS3 新特性
#### 响应式设计
#### CSS 预处理器
##### Sass
##### Less
### JavaScript
#### ES6+ 语法
#### 异步编程
##### Promise
##### async/await
#### DOM 操作
#### 事件处理
## 前端框架 (2 个月)
### React
#### 组件化开发
#### 状态管理
##### useState
##### useReducer
##### Context API
#### 路由管理
##### React Router
### 构建工具
#### Webpack
#### Vite
## 后端开发 (3 个月)
### Node.js
#### Express 框架
#### Koa 框架
#### 中间件开发
### 数据库
#### SQL 数据库
##### PostgreSQL
##### MySQL
#### NoSQL 数据库
##### MongoDB
##### Redis
### API 开发
#### RESTful API
#### GraphQL
#### API 文档
##### Swagger
##### Postman
## 部署运维 (1 个月)
### 云服务
#### AWS
#### 阿里云
#### 腾讯云
### 容器化
#### Docker
#### Docker Compose
### CI/CD
#### GitHub Actions
#### Jenkins

🔍 性能优化建议

1. Markdown 结构优化

  • 合理的层级深度 - 建议不超过 6 级标题
  • 清晰的节点命名 - 使用简洁明了的标题
  • 适当的内容长度 - 避免单个节点内容过长

2. API 调用优化

// 使用防抖避免频繁调用
import { debounce } from 'lodash';

const debouncedGenerate = debounce(async (markdown, options) => {
try {
const result = await markdownToMindmap.transform(markdown, options);
return result;
} catch (error) {
console.error('生成失败:', error);
}
}, 500);

// 批量处理大量文档
const processBatch = async (documents, batchSize = 10) => {
const results = [];
for (let i = 0; i < documents.length; i += batchSize) {
const batch = documents.slice(i, i + batchSize);
const batchResult = await markdownToMindmap.batchTransform(batch);
results.push(...batchResult.results);
}
return results;
};

3. 缓存策略

class CachedMarkdownAPI {
constructor() {
this.cache = new Map();
this.maxCacheSize = 100;
}

getCacheKey(markdown, options) {
return btoa(JSON.stringify({ markdown, options }));
}

async transform(markdown, options = {}) {
const cacheKey = this.getCacheKey(markdown, options);

// 检查缓存
if (this.cache.has(cacheKey)) {
return this.cache.get(cacheKey);
}

// 调用 API
const result = await markdownToMindmap.transform(markdown, options);

// 存入缓存
if (this.cache.size >= this.maxCacheSize) {
const firstKey = this.cache.keys().next().value;
this.cache.delete(firstKey);
}
this.cache.set(cacheKey, result);

return result;
}
}

📱 移动端适配

生成的思维导图完美支持移动端设备:

  • 触摸手势 - 支持双指缩放、单指拖拽
  • 响应式布局 - 自动适应屏幕尺寸
  • 性能优化 - 针对移动设备优化渲染性能

移动端使用技巧

// 检测设备类型并调整配置
const isMobile = window.innerWidth <= 768;

const mobileOptions = {
colorFreezeLevel: 2,
initialExpandLevel: isMobile ? 1 : -1, // 移动端默认收起
maxWidth: isMobile ? 300 : 0,
spacingHorizontal: isMobile ? 40 : 80,
spacingVertical: isMobile ? 5 : 10
};

🎯 最佳实践

1. Markdown 编写建议

# 主题要简洁明了
## 二级标题控制在 3-5 个字
### 三级标题可以稍长一些,但不要超过 10 个字
#### 四级标题用于详细说明
##### 五级标题谨慎使用
###### 六级标题尽量避免

# 使用数字或符号增强可读性
## 1. 第一个要点
## 2. 第二个要点
## 3. 第三个要点

# 或者使用符号
## 📊 数据分析
## 🔧 工具配置
## 🚀 部署上线

2. 主题选择指南

  • 浅色主题 - 适合文档查看、打印输出
  • 深色主题 - 适合演示展示、护眼阅读
  • 自动主题 - 根据系统设置自动切换

3. 集成到现有项目

// 在文档系统中集成
class DocumentationSystem {
constructor() {
this.mindmapAPI = new MarkdownToMindmap();
}

async generateMindmapView(docId) {
const markdown = await this.getDocumentMarkdown(docId);
const html = await this.mindmapAPI.render(markdown, {
title: `${docId} 思维导图`,
theme: 'light'
});

return this.wrapInTemplate(html);
}

wrapInTemplate(mindmapHtml) {
return `
<div class="documentation-mindmap">
<div class="mindmap-toolbar">
<button onclick="toggleFullscreen()">全屏</button>
<button onclick="downloadPDF()">导出 PDF</button>
</div>
<div class="mindmap-container">
${mindmapHtml}
</div>
</div>
`;
}
}

🛟 常见问题解决

Q1: API 调用失败怎么办?

// 添加重试机制
const apiCallWithRetry = async (apiCall, maxRetries = 3) => {
for (let i = 0; i < maxRetries; i++) {
try {
return await apiCall();
} catch (error) {
if (i === maxRetries - 1) throw error;

// 指数退避
await new Promise(resolve => setTimeout(resolve, Math.pow(2, i) * 1000));
}
}
};

// 使用示例
try {
const result = await apiCallWithRetry(() =>
markdownToMindmap.transform(markdown, options)
);
} catch (error) {
console.error('多次重试后仍然失败:', error);
}

Q2: 生成的思维导图节点重叠怎么办?

调整间距配置参数:

const spacingOptions = {
spacingHorizontal: 120, // 增加水平间距
spacingVertical: 15, // 增加垂直间距
maxWidth: 200 // 限制节点最大宽度
};

Q3: 如何处理大型文档?

// 分割大型文档
const splitLargeMarkdown = (markdown, maxSize = 800000) => {
if (markdown.length <= maxSize) return [markdown];

const sections = markdown.split(/^# /gm);
const chunks = [];
let currentChunk = '';

for (const section of sections) {
if ((currentChunk + section).length > maxSize) {
if (currentChunk) chunks.push(currentChunk);
currentChunk = '# ' + section;
} else {
currentChunk += (currentChunk ? '\n# ' : '# ') + section;
}
}

if (currentChunk) chunks.push(currentChunk);
return chunks;
};

🎉 LLM 工具调用的未来

🚀 为什么选择 Markmap API?

在 LLM 时代,Markmap API 不仅仅是一个思维导图生成工具,更是你的 AI 助手超能力加速器

  • 🤖 LLM 原生支持 - 专为 Claude、GPT、Gemini 等优化设计
  • 零配置部署 - 告别复杂 MCP 服务器搭建,30 秒即可集成
  • 🌍 全球高可用 - 99.9% 可用性,毫秒级响应,200+ CDN 节点
  • 💰 完全免费 - 无需服务器、无需维护、无需任何成本
  • 🔒 企业级安全 - 内置多层安全防护,无数据泄露风险

🅮 与传统 MCP 方案的最终对比

项目MCP 方案Markmap API优务程度
集成时间2-5 天搭建5 分钟配置🟢 快 500x
维护成本每月 $50-200$0🟢 节省 100%
系统可用性95-98%99.9%+🟢 高 2-5%
响应速度1-5 秒0.2-0.5 秒🟢 快 10x
扩展性限制于服务器无限扩展🟢 无限
学习成本高(需学 MCP)低(HTTP 调用)🟢 简单 90%

🔮 在 AI 原生时代的价值

🤖 LLM 工具调用是未来 - 随着 Claude、GPT 等 LLM 能力不断增强,工具调用成为构建智能应用的标准方式。Markmap API 的设计理念就是:

“让每一个 LLM 都能够轻松拥有强大的可视化能力,而不需要任何复杂的基础设施”

🎆 立即开始你的 AI 可视化之旅

🔥 不再等待! 现在就可以让你的 LLM 助手拥有强大的思维导图生成能力:

  1. 🌀 Claude 用户 - 复制上面的工具配置,5 分钟内完成集成
  2. 🤖 GPT 用户 - 使用 Actions 功能,导入 OpenAPI 规范
  3. ✨ Gemini 用户 - Function Calling 配置,无缝集成
  4. 💻 开发者 - 直接调用 API,灵活定制

无论你是 AI 产品经理开发者教育工作者 还是 内容创作者,这个服务都能让你的 LLM 助手变得更加智能和实用。


🔗 资源链接

Github Repo: https://github.com/yuxuetr/markmap-api

🚀 立即开始: https://markmap-api.jinpeng-ti.workers.dev
📋 API 文档: 详细的接口说明和更多示例
🤖 LLM 集成指南: 上方配置示例,复制即用
💬 技术交流: 如有问题欢迎反馈和讨论

🏷️ 关键词标签

LLM 相关: #LLM工具调用 #Claude工具 #GPT工具 #Gemini工具 #AI助手 #人工智能
技术相关: #思维导图API #MCP替代 #CloudflareWorkers #免费API #高可用性
应用场景: #知识管理 #项目规划 #文档可视化 #学习路径 #信息整理

鱼雪

大模型'手脚'延伸:深入解析AI工具调用与智能体进化之路

鱼雪的AI博客-来自NotebookLM

0:00
0:00

目录

  1. 引言
  2. 大模型工具调用基础原理
  3. 工具调用流程详解
  4. Rust 实现案例分析
  5. 代码架构设计
  6. 最佳实践与优化
  7. 总结

引言

随着大语言模型(LLM)技术的快速发展,单纯的文本生成已经无法满足复杂应用场景的需求。**工具调用(Tool Calling)**作为一种重要的扩展机制,让大模型能够与外部系统交互,获取实时数据,执行特定任务,从而构建更加智能和实用的 AI 应用。

本文将深入探讨大模型工具调用的核心原理,并通过一个完整的 Rust 项目案例,详细讲解如何实现一个支持天气查询和网络搜索的智能助手,使用原生的HTTP调用方式,不使用任何第三方LLM服务的客户端,比如Python的openai库,这样便于对原理有更清晰的理解,也便于根据任何编程语言开发自己工具,而不局限于特定库。

大模型工具调用算是LLM中一种动态获取,或说实时获取与用户提问相关数据的一种方式,为用户的问题提供可靠的上下文。另外一种方式基于RAG的方式,这种是基于知识库,更像是一种静态知识。之后会用别的文章再来讨论,敬请期待。

关键词

  • 大语言模型 (Large Language Model, LLM)
  • 工具调用 (Tool Calling)
  • Function Calling
  • AI Agent
  • Rust 异步编程
  • DeepSeek API

大模型工具调用基础原理

什么是工具调用?

LLM 工具调用是指大语言模型在生成回答时,能够识别用户需求并主动调用预定义的外部函数或 API 来获取信息或执行操作的能力。这种机制让 LLM 从纯文本生成器转变为能够与现实世界交互的智能代理。

核心优势

  1. 实时性:获取最新的数据和信息
  2. 准确性:避免模型幻觉,提供可靠的事实信息
  3. 扩展性:通过工具扩展模型能力边界
  4. 可控性:明确的函数调用过程,便于调试和监控

工具调用流程详解

完整流程图

---
id: f662e516-56f0-46a1-a622-1438ab60949c
---
sequenceDiagram
participant User as 用户
participant App as 应用程序
participant LLM as 大语言模型
participant Tool as 外部工具/API

User->>App: 发送查询请求
App->>LLM: 用户请求 + 工具函数描述(JSON对象)
LLM->>App: 选择的工具函数 + 工具调用参数
App->>Tool: 匹配实际工具函数填充参数并调用
Tool->>App: 获取实际工具函数执行结果
App->>LLM: 用户请求 + 工具函数执行结果
LLM->>App: 生成最终回答
App->>User: 返回完整回答

大模型工具调用基础原理

详细步骤分析

1. 初始请求阶段

用户向系统发送查询请求,应用程序将请求连同预定义的函数工具描述一起发送给大模型。

{
"model": "deepseek-chat",
"messages": [
{
"role": "system",
"content": "你是一个专业的助手,可以提供天气信息和搜索功能"
},
{
"role": "user",
"content": "今天上海的天气怎么样?"
}
],
"tools": [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取指定城市的天气预报信息",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "城市名称"
}
},
"required": ["location"]
}
}
}
],
"tool_choice": "auto"
}

2. 模型决策阶段

大模型分析用户请求,识别(根据工具的描述文档,然后自行决定调用需要调用哪些工具)出需要调用天气查询工具,并返回结构化的工具调用指令(函数名 + 与之匹配的参数):

{
"choices": [
{
"message": {
"role": "assistant",
"content": null,
"tool_calls": [
{
"id": "call_123",
"type": "function",
"function": {
"name": "get_weather",
"arguments": "{\"location\": \"上海\"}"
}
}
]
}
}
]
}

3. 工具执行阶段

应用程序解析工具调用指令,执行实际的 API 调用:

// 解析工具调用参数
let args: Value = serde_json::from_str(
call["function"]["arguments"].as_str().unwrap()
)?;
let location = args["location"].as_str().unwrap();

// 调用实际的天气 API
let weather_info = amap::get_weather(location, &amap_key).await?;

4. 结果整合阶段

将工具执行结果反馈给大模型,生成最终的用户友好回答:

{
"model": "deepseek-chat",
"messages": [
{
"role": "system",
"content": "你是一个专业的天气顾问,请根据天气数据给出详细建议"
},
{
"role": "assistant",
"content": null,
"tool_calls": [...]
},
{
"role": "tool",
"content": "天气数据JSON",
"tool_call_id": "call_123"
}
]
}

Rust 实现案例分析

项目架构概览

我们的项目采用模块化设计,主要包含以下组件:

src/
├── main.rs # 主程序入口和聊天逻辑
├── tools/ # 工具模块
│ ├── mod.rs # 工具注册和统一接口
│ ├── amap.rs # 高德天气 API 工具
│ └── serper.rs # Google 搜索 API 工具

核心代码实现

1. 主聊天逻辑

async fn chat(user_query: &str) -> Result<(), Box<dyn std::error::Error>> {
let api_key = env::var("DEEPSEEK_API_KEY").unwrap();
let endpoint = env::var("DEEPSEEK_API_URL").unwrap();

// 构建包含工具定义的请求
let body = json!({
"model": env::var("MODEL_NAME").unwrap(),
"messages": [
{
"role": "system",
"content": "你是一个专业的助手,可以提供天气信息和搜索功能"
},
{"role": "user", "content": user_query}
],
"tools": get_tools_definition(),
"tool_choice": "auto", // 使用`auto`让大模型自行决定使用哪些工具
});

// 发送初始请求
let response = reqwest::Client::new()
.post(&endpoint)
.header("Authorization", format!("Bearer {}", api_key))
.json(&body)
.send()
.await?
.json::<Value>()
.await?;

// 处理工具调用
if let Some(tool_calls) = response["choices"][0]["message"]["tool_calls"].as_array() {
for call in tool_calls {
let tool_result = handle_tool_call(call).await?;

// 将结果反馈给模型生成最终回答
let final_response = generate_final_response(&api_key, &endpoint, call, &tool_result).await?;

info!("最终回答: {}", final_response["choices"][0]["message"]["content"]);
}
}

Ok(())
}

2. 工具注册系统

为了实现高内聚、低耦合的设计,我们创建了一个统一的工具注册系统:

// 工具处理结果结构
pub struct ToolResult {
pub content: String,
pub system_prompt: String,
}

// 工具处理函数类型
type ToolHandler = Box<dyn Fn(&Value) -> Pin<Box<dyn Future<Output = Result<ToolResult, Box<dyn std::error::Error>>> + Send + Sync>> + Send + Sync>;

// 工具注册表
struct ToolRegistry {
tools: HashMap<String, ToolHandler>,
}

impl ToolRegistry {
fn new() -> Self {
let mut tools = HashMap::new();

// 注册天气查询工具
let weather_handler: ToolHandler = Box::new(|call: &Value| {
let call = call.clone();
Box::pin(async move {
let args: Value = serde_json::from_str(call["function"]["arguments"].as_str().unwrap())?;
let location = args["location"].as_str().unwrap();

let amap_key = env::var("AMAP_API_KEY").unwrap();
let weather_info = amap::get_weather(location, &amap_key).await?;

Ok(ToolResult {
content: serde_json::to_string(&weather_info)?,
system_prompt: "你是一个专业的天气顾问,请根据获取到的天气数据给出详细的穿衣建议".to_string(),
})
})
});
tools.insert("get_weather".to_string(), weather_handler);

// 注册搜索工具
let search_handler: ToolHandler = Box::new(|call: &Value| {
let call = call.clone();
Box::pin(async move {
let args: Value = serde_json::from_str(call["function"]["arguments"].as_str().unwrap())?;
let query = args["query"].as_str().unwrap();

let search_results = serper::search(query).await?;
let formatted_results = serper::format_results(&search_results, 3);

Ok(ToolResult {
content: formatted_results,
system_prompt: "你是一个专业的信息分析师,请根据搜索结果给出准确、简洁的回答".to_string(),
})
})
});
tools.insert("search".to_string(), search_handler);

Self { tools }
}
}

// 统一的工具调用处理函数
pub async fn handle_tool_call(call: &Value) -> Result<ToolResult, Box<dyn std::error::Error>> {
let tool_name = call["function"]["name"].as_str().ok_or("无效的工具名称")?;
let registry = get_registry();

match registry.get_handler(tool_name) {
Some(handler) => handler(call).await,
None => Err(format!("未知的工具调用: {}", tool_name).into()),
}
}

3. 天气查询工具实现

pub async fn get_weather(location: &str, api_key: &str) -> Result<WeatherResponse, reqwest::Error> {
// 第一步:获取城市行政编码
let district_url = format!(
"https://restapi.amap.com/v3/config/district?key={}&keywords={}&subdistrict=0&extensions=all",
api_key, location
);

let district_resp: DistrictResponse = reqwest::get(&district_url).await?.json().await?;

if district_resp.status != "1" || district_resp.districts.is_empty() {
return Err(reqwest::get("http://error").await.unwrap_err());
}

let adcode = &district_resp.districts[0].adcode;

// 第二步:获取天气数据
let weather_url = format!(
"https://restapi.amap.com/v3/weather/weatherInfo?key={}&city={}&extensions=all&output=json",
api_key, adcode
);

let weather_resp: WeatherResponse = reqwest::get(&weather_url).await?.json().await?;

if weather_resp.status != "1" {
return Err(reqwest::get("http://error").await.unwrap_err());
}

Ok(weather_resp)
}

4. 搜索工具实现

pub async fn search(query: &str) -> Result<Vec<SearchResult>, reqwest::Error> {
let api_key = env::var("SERPER_API_KEY").expect("SERPER_API_KEY must be set");
let client = reqwest::Client::new();

let response = client
.post("https://google.serper.dev/search")
.header("X-API-KEY", api_key)
.header("Content-Type", "application/json")
.json(&serde_json::json!({
"q": query,
"type": "search"
}))
.send()
.await?
.json::<SearchResponse>()
.await?;

let results = response
.organic
.into_iter()
.map(|result| SearchResult {
title: result.title,
link: result.link,
snippet: result.snippet,
})
.collect();

Ok(results)
}

pub fn format_results(results: &[SearchResult], max_results: usize) -> String {
let results = results
.iter()
.take(max_results)
.enumerate()
.map(|(i, result)| {
format!(
"{}. {}\n 链接: {}\n 摘要: {}\n",
i + 1,
result.title,
result.link,
result.snippet
)
})
.collect::<Vec<_>>()
.join("\n");

if results.is_empty() {
"没有找到相关结果。".to_string()
} else {
results
}
}

代码架构设计

设计原则

我们的实现遵循以下软件设计原则:

  1. 高内聚:相关功能集中在同一模块中
  2. 低耦合:模块间依赖关系最小化
  3. 模块化:清晰的模块边界和职责分离
  4. 可扩展性:易于添加新的工具和功能

模块职责划分

  • main.rs:负责主程序逻辑和 LLM 交互
  • tools/mod.rs:工具注册表和统一接口
  • tools/amap.rs:天气查询功能实现
  • tools/serper.rs:搜索功能实现

异步编程模式

项目大量使用 Rust 的异步编程特性:

// 使用 tokio 运行时
#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
// 异步函数调用
chat(user_query).await?;
Ok(())
}

// 异步工具处理函数
type ToolHandler = Box<dyn Fn(&Value) -> Pin<Box<dyn Future<Output = Result<ToolResult, Box<dyn std::error::Error>>> + Send + Sync>> + Send + Sync>;

最佳实践与优化

1. 错误处理

使用 Rust 的 Result 类型进行优雅的错误处理:

pub async fn handle_tool_call(call: &Value) -> Result<ToolResult, Box<dyn std::error::Error>> {
let tool_name = call["function"]["name"].as_str().ok_or("无效的工具名称")?;
// ... 其他逻辑
}

2. 环境变量管理

使用 dotenv 管理敏感配置:

use dotenv::dotenv;

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
dotenv().ok();
let api_key = env::var("DEEPSEEK_API_KEY").unwrap();
// ...
}

3. 日志记录

使用 tracing 进行结构化日志记录:

use tracing::{Level, info};

info!("用户查询: {}", user_query);
info!("工具调用参数: {}", serde_json::to_string_pretty(&args).unwrap());

4. 性能优化

  • 使用连接池复用 HTTP 连接
  • 实现请求缓存机制
  • 并发处理多个工具调用

5. 安全考虑

  • API 密钥安全存储
  • 输入参数验证
  • 请求频率限制

扩展功能建议

1. 添加更多工具

// 数据库查询工具
let db_handler: ToolHandler = Box::new(|call: &Value| {
// 数据库查询逻辑
});

// 文件操作工具
let file_handler: ToolHandler = Box::new(|call: &Value| {
// 文件操作逻辑
});

2. 实现工具链

支持多个工具的串联调用,实现复杂的业务流程。

3. 添加缓存机制

use std::collections::HashMap;
use std::sync::Arc;
use tokio::sync::Mutex;

struct CacheManager {
cache: Arc<Mutex<HashMap<String, String>>>,
}

4. 监控和指标

添加工具调用的性能监控和成功率统计。

总结

大模型工具调用是构建智能 AI 应用的关键技术。通过本文的详细分析,我们了解了:

  1. 工具调用的基本原理:从用户请求到最终回答的完整流程
  2. 实现架构设计:模块化、可扩展的代码组织方式
  3. 具体代码实现:使用 Rust 构建高性能的工具调用系统
  4. 最佳实践:错误处理、日志记录、性能优化等方面的建议

这种架构不仅提供了良好的代码组织结构,还为后续功能扩展奠定了坚实基础。随着大模型技术的不断发展,工具调用将成为构建复杂 AI 应用的标准模式。

相关资源


本文展示了如何使用 Rust 构建支持工具调用的大模型应用。如果您对实现细节有疑问,欢迎查看完整的项目源码或提出 Issue 讨论。

鱼雪

引言

在人工智能快速发展的今天,如何让 AI 系统提供更准确、更全面的回答成为一个关键挑战。 本文将深入介绍一种创新的技术方案 - RAG-Fusion,这是对传统检索增强生成(RAG)技术的全新突破。

RAG-Fusion 是什么?

RAG-Fusion 是一种结合了检索增强生成(RAG)和倒数排名融合(RRF)的创新技术。它通过以下方式工作:

  1. 接收用户的原始查询
  2. 利用大语言模型生成多个相关的搜索查询
  3. 对每个查询进行向量搜索获取相关文档
  4. 使用 RRF 算法对文档进行重新排序和融合
  5. 将重排序后的文档连同查询一起送入语言模型生成最终答案

与传统 RAG 的对比

传统的 RAG 系统工作流程相对简单:

  1. 将产品文档转换为文本并创建向量嵌入
  2. 收到查询后直接进行向量搜索
  3. 将检索到的文档和查询一起送入语言模型生成答案

相比之下,RAG-Fusion 通过生成多个查询视角和文档重排序,能够提供更全面和准确的答案。

实际应用效果

在英飞凌(Infineon)的实践中,RAG-Fusion 在以下三个场景都展现出了优秀的表现:

1. 工程师技术支持

对于工程师的技术问题,系统不仅能提供准确答案,还能补充相关的技术背景和使用建议。例如在回答产品 IP 防护等级问题时,除了给出具体数值,还会解释其含义和应用场景。

2. 销售团队支持

系统能够结合产品知识和市场洞察,为销售人员提供完整的销售策略建议,包括:

  • 产品优势分析
  • 目标客户定位
  • 竞争力对比
  • 销售要点提炼

3. 客户咨询服务

在处理客户咨询时,系统可以:

  • 准确理解客户需求
  • 提供产品适用性分析
  • 给出专业的应用建议
  • 解答常见问题

技术优势与挑战

优势:

  1. 答案全面性: 通过多角度查询提供更完整的信息
  2. 准确性提升: 文档重排序确保最相关信息优先使用
  3. 知识整合: 可以结合预训练知识和专业文档

挑战:

  1. 响应时间: 比传统 RAG 慢约 1.77 倍
  2. 查询相关性: 需要确保生成的查询与原始意图相符
  3. 评估方法: 缺乏有效的自动化评估框架

未来展望

RAG-Fusion 技术还有很大的发展空间:

  1. 多语言支持: 扩展到日语、中文等多语种服务
  2. 性能优化: 改进实时响应速度
  3. 质量保证: 开发自动化质量评估体系
  4. 场景拓展: 探索更多垂直领域应用

结论

RAG-Fusion 代表了 AI 问答系统的一个重要进步。 虽然在响应速度等方面还有待优化,但其在准确性和全面性上的优势使其成为构建下一代智能问答系统的重要选择。

参考资料

鱼雪

近年来,检索增强生成(RAG)作为一种利用外部知识增强大型语言模型(LLM)的方法变得越来越流行。

原始RAG及其工作过程

RAG使得LLM可以在以前未见过的数据上使用,而无需进行微调。 此外,通过利用外部语料库的独立检索组件,自然语言形式的知识可以完全卸载LLM的参数化内存。

RAG 工作过程:

  • 查询编码器:将用户查询编码成适合搜索文本段落或文档数据库的数值表示。
  • 检索器:使用查询编码器生成的向量搜索索引文档的外部数据库。检索单据中基于所选搜索算法的前 K 个最相关文档。
  • 生成器:大型语言模型根据检索器选择的文档和输入查询生成输出。

LongRAG背后的直觉

在《LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs》一文中, 滑铁卢大学的研究人员通过对检索过程进行修改提出了以下建议:

  • 将每个文档的标记大小从原始RAG中的100个标记扩展到LongRAG中的4,000个标记。
  • 将焦点从在原始RAG中准确定位与用户查询相关的精确信息转移到在LongRAG中选择包含相关但未必精确信息的文档。

传统RAG与LongRAG

这样做的原因是从检索精确、小片段信息过渡到选择更大、上下文更丰富且语义完整的片段。 这种调整减轻了检索员的负担,并更均匀地分配了检索员和生成器之间的任务。 因此,LongRAG充分利用了最新LLM的扩展上下文能力,它们作为生成器, 从最近对处理长上下文的显著增强中受益。

LongRAG如何运作:架构

LongRAG 对原始 RAG 进行了三项架构更新:

  • 长检索单元LongRAG 使用了检索单元,其范围包括整个文档或一组文档, 而不是从大型文档中截取 100 个标记,这遵循了论文中提出的Group Documents Algorithm。 此次单元大小增加到 4K,将维基百科语料库从 22M 减少到 600K 的检索单元。
  • 长检索器:为进一步处理识别长检索单元。
  • 长读者(生成器):从长检索单元中提取答案。这是一个以用户查询及长检索单元为提示的 LLM。

LongRAG示例

这是 LongRAG 逐步运作的方式

  1. Retrieval(在原始论文中命名为Long Retriever):

    • 编码: 两个编码器将输入问题和检索单元分别映射到一个d维向量。
    • 形成长的检索单元: 分组文档算法涉及创建相关文档的组。每个文档基于连接性与相关文档分组,不超过指定的最大组大小。这种分组能够更有效地检索相关信息,因为相关文档一起处理。
    • 相似性搜索: 编码步骤中的向量用于计算问题和检索单元之间的相似性,当选择相关的长检索单元时。
    • 结果汇总: 最相关的顶部组被汇总,形成对查询的全面响应,根据其大小调整包括的组数量。
  2. 生成(原始论文中称为 Long Reader):LLM(长期记忆模型)使用用户查询和来自检索步骤的聚合结果生成最终输出。 长文阅读器中使用的LLM应能处理长文本,并且不展现出过度的位置偏见。

LongRAG的优势

LongRAG 通过将维基百科处理成 4,000 个令牌单位来优化检索,将数量从 2,200 万减少到 60 万。 单位大小的增加意味着减少了许多单位的召回需求,避免了截断,并保留了更多上下文。 更长的单位有助于通过整合全面信息直接回答复杂问题。

LongRAG 框架实现了令人印象深刻的提取分数,并且与最先进模型具有可比的结果, 无需额外训练,展示了将 RAG 与长上下文 LLMs 结合的效率和潜力。

以下是对LongRAG实施的一些关键结果:

  • Recall@1:在自然问题(NQ)数据集上提高至71%,而之前为52%
  • Recall@2:在HotpotQA数据集(完全维基)上提高至72%,而之前为47%
  • Exact Match(EM):在NQ上取得62.7%的EM得分,在HotpotQA(完全维基)上为64.3%, 表现与最先进模型不相上下。

资源

鱼雪

我们讨论RAG的局限性,并探讨图RAG方法的优势,同时澄清术语并提供资源列表。

当AI悲观主义者谈论末日和AI接管时,他们常常忽略即使是最先进的语言模型也难以基于复杂的连接进行推理和得出结论。 另一个问题是训练或微调(适应您的数据)大型语言模型(LLMs)的成本极高。

图RAG检索增强生成)方法解决了这两个问题,并且是我们之前讨论的原始RAG技术的升级版。让我们来探索这些图表!

在今天的讨论中,我们将涵盖:

  1. 回顾原始RAG的基础知识
  2. 原始RAG的局限性
  3. 图RAG方法登场
  4. 图RAG特别擅长什么?
  5. 术语澄清:“图RAG”与“知识图谱RAG”
  6. 额外资源

回顾原始RAG

让我们简要回顾一下RAG背后的关键概念。

此方法允许在不需要微调的情况下使用LLM处理之前未见过的数据

在RAG设置中,数据以向量形式存储在外部数据库中

使用RAG,LLM从中检索必要的信息,并根据检索到的事实回答用户查询

来源于RAG原始论文

RAG通过避免数据更新时的持续微调节省资源,同时也使外部数据库的动态数据控制变得容易

原始RAG的局限性

原始RAG方法使用向量相似性作为搜索技术

这被认为是一项强大的技术,改变了我们访问信息的方式,并且是传统搜索引擎的宝贵更新。

然而,它也有局限性,尤其是在理解向量相似性的本质时

Pinecone的向量嵌入

您可能还记得我们之前探讨过变压器时提到的向量或词嵌入。

这些嵌入是单词的密集向量表示,捕捉了语义和句法关系

它们使语言模型能够通过将单词表示为向量空间中的点来量化语义相似性,从而学习单词之间的关系

向量相似性是一种用于衡量关系的指标,计算方法包括欧几里得距离、余弦相似性和点积相似性,每种方法都有其优缺点。

然而,向量相似性仅根据其与用户查询的相似性找到答案。

在需要结合各种信息或答案不明确存在于单个文档中的情况下, 这种方法在更复杂的系统中表现出局限性,导致原始RAG模型的限制。

图RAG方法的作者写道: “RAG在针对整个文本语料库的全局问题(如‘数据集的主要主题是什么?’)上失败, 因为这本质上是一个面向查询的摘要任务,而不是明确的检索任务。”

同时,先前的QFS方法无法扩展到典型RAG系统索引的大量文本。

图RAG方法有效解决了更复杂的查询问题。

图RAG方法登场

图RAG方法由微软研究人员于2024年4月提出。

原始RAG不同,此方法将数据组织成图结构,表示文本数据及其相互关系

图RAG演示图片

图RAG的工作原理如下:

  1. 源文档 → 文本块:首先将外部数据库中的原始文本分割成较小的、可管理的块。
  2. 文本块 → 元素实例:使用LLM和针对数据库领域量身定制的提示,图RAG从每个文本块中识别并提取实体(如人、地点、组织)及其关系。
  3. 元素实例 → 元素摘要:使用另一组LLM提示生成每个实体和关系的简短描述,以总结初始原始文本数据。
  4. 元素摘要 → 图社区:使用总结的实体和关系构建知识图谱,其中节点表示实体,边表示关系。然后对该图应用社区检测算法(如Leiden算法),以识别紧密相关节点的社区。
  5. 图社区 → 社区摘要:然后独立总结每个检测到的社区,生成其代表的主题和信息的综合概述。
  6. 社区摘要 → 社区答案 → 全局答案当用户提交查询时
  • 首先根据内容和与查询的关系识别相关的社区摘要。
  • 使用LLM为每个相关社区摘要独立生成中间答案。
  • 然后汇编这些中间答案,评估其相关性和帮助性(有时由LLM评分),并综合成最终的全局答案返回给用户。

通过基于图的索引和社区聚焦的摘要,图RAG是RAG系统中处理面向查询的摘要的宝贵补充

图RAG特别擅长什么?

使用图RAG的主要优势包括:

  1. 增强的相关性图RAG通过将数据结构化为知识图谱,识别与用户查询最相关的信息簇。
  2. 高效性:图RAG根据图结构搜索相关数据部分,相比于每次查询都处理整个数据集,减少了计算工作量
  3. 全面的响应系统可以综合来自多个文档的信息,创建比单一文档响应更全面且上下文丰富的答案。
  4. 可扩展性:通过利用基于图的结构,图RAG能够高效处理大规模数据集,使其在大信息库中既可扩展又有效。
  5. 动态学习:随着更多数据添加或更新到图中,图RAG可以适应和改进其响应,适用于动态和不断演变的数据集

术语澄清:“图RAG”与“知识图谱RAG”

“图RAG”和“知识图谱RAG”这两个术语经常互换使用,

因为它们都指利用知识图谱增强AI响应准确性和相关性的检索增强生成(RAG)方法。

实际上,大多数利用图结构进行检索的RAG系统本质上都在使用某种形式的知识图谱,即使它没有明确标示为知识图谱

关键区别在于所使用的图表示的复杂性和正式程度

额外资源

原始资源

图RAG于2024年4月发布,并承诺很快将在官方网站和GitHub上作为开源项目发布。

实现

虽然原始实现尚未可用,但有一些关于如何使用知识图谱与LLM结合的教程:

要点总结

1. 原始RAG方法

  • 定义: RAG(检索增强生成)方法允许在不进行微调的情况下使用LLM处理新数据。数据以向量形式存储在外部数据库中,LLM根据检索到的信息回答用户查询。
  • 优点: 避免持续微调,便于动态数据控制。

2. 原始RAG的局限性

  • 向量相似性: 使用向量相似性进行搜索,但只能根据与用户查询的相似性找到答案,难以处理需要综合多种信息的复杂系统。
  • 全局问题: 无法处理针对整个文本语料库的全局问题,例如数据集的主要主题。

3. 图RAG方法

  • 提出者: 微软研究人员,2024年4月。
  • 工作原理:
    1. 文本分块: 将原始文本分割为较小的块。
    2. 元素实例: 识别并提取每个文本块中的实体及其关系。
    3. 元素摘要: 生成实体和关系的简短描述。
    4. 图社区: 构建知识图谱,应用社区检测算法识别社区。
    5. 社区摘要: 独立总结每个社区,生成综合概述。
    6. 查询响应: 根据用户查询识别相关社区摘要,生成中间答案并综合成全局答案。

4. 图RAG的优势

  • 增强的相关性: 通过知识图谱识别与用户查询最相关的信息簇。
  • 高效性: 根据图结构搜索相关数据部分,减少计算工作量。
  • 全面的响应: 综合来自多个文档的信息,创建全面且上下文丰富的答案。
  • 可扩展性: 处理大规模数据集,适用于大型信息库。
  • 动态学习: 适应和改进响应,适用于动态和不断演变的数据集。

5. 术语澄清

  • 图RAG与知识图谱RAG: 这两个术语常常互换使用,都指利用知识图谱增强AI响应准确性和相关性的RAG方法。关键区别在于所使用的图表示的复杂性和正式程度。

图RAG方法通过基于图的索引和社区聚焦的摘要,

解决了原始RAG方法的局限性,为处理面向查询的复杂摘要提供了高效、可扩展和动态的解决方案。

图RAG总结脑图

鱼雪

来自常见信息来源的有趣新闻和每周最佳研究论文列表

一场新的工业革命正在展开,由AI工厂的兴起所驱动。 这些设施正在改变各个层级的计算,从庞大的数据中心到日常使用的笔记本电脑,很可能很快就会转变为AI笔记本电脑。 在2024年Computex大会上,Jensen Huang强调了这种转变, 指出需要整个行业的合作:硬件供应商、软件开发商和企业需要共同努力,从数据中心转型为AI工厂。 Jensen Huang表示,这种转变不仅仅是技术上的,还涉及到重塑整个计算领域。他通常对自己的言论非常自信。

Nvidia的预先简报会上,高管们强调了AI PC的重大关注点,这项技术是Nvidia在六年前(2018年)引入的。 这个创新在游戏、内容创作和软件开发等领域引发了革命性变化。

AI PC在过去六年间并未广泛讨论,但现在——得益于微软和Nvidia——它们正在变得无处不在,并与关于新工业革命的对话一起进行。 尽管我们仍处在起步阶段,但确实需要回顾历史。 2018年和2019年初,另一重大事件震撼了机器学习社区。 这一事件促成了突破性的里程碑:ChatGPT。让我们一起回顾这一时间线:

  • 2018年,生成预训练变换模型(GPT)的创建引发了—>
  • 2019年2月,GPT-2——一个拥有15亿参数的大型语言模型。 由于担心滥用,GPT-2未完全公开,仅提供了一个小得多的模型供研究人员实验,并附有一篇技术论文,随后引发了—>
  • 2020年,GPT-3和论文《语言模型是少量样本学习者》,进而演变为—>
  • 2022年,GPT-3.5和其微调版本InstructGPT,并附有研究论文《通过人类反馈训练语言模型遵循指令》。
  • 2022年11月,ChatGPT。其训练方式与InstructGPT非常相似, 其背后的魔力基于研究论文《基于人类偏好的深度强化学习》,这种技术称为基于人类反馈的强化学习(RLHF)。

现为Anthropic联合创始人、前OpenAI政策主管的Jack Clark今天反思了GPT-2的发布,他形容这是“时光旅行的一个例子”。 2019年,OpenAI因担心滥用而决定不完全公开GPT-2,这一决定在AI社区引发了热烈辩论。这场辩论的核心在于平衡创新与伦理责任。 批评者认为,保留模型可能会减缓科学进步,而支持者赞扬OpenAI的谨慎态度。

Jack认为,偏离常规可能引发反作用。 通过逐步发布GPT-2OpenAI无意中激发了开发开源GPT-2级系统的兴趣,因为其他人希望填补这一空白。 如果GPT-2一开始就完全发布,可能会有更少的复制,因为更少的人会感到有必要证明OpenAI的错误。

在Clark对那段动荡时期的回忆中,有许多有趣的问题。虽然值得全文阅读,但以下是一些值得注意的引言:

  • “即使你能想象某事在技术上是可能的,你也不太可能正确预测它到来的时间或其严重性。”

  • “我逐渐相信在政策上‘一点点就能产生巨大影响’——比起对特定未来设计的想法进行自信的押注, 提倡那些在所有未来中你认为是稳健的好想法要好得多。”

  • “我们应该害怕这些监管思想所编码的权力结构,并且我们应该将它们视为本身具有危险性的东西。 我担心,与长期AI安全和AGI愿景一致的AI政策社区因为赋予未来AGI毁灭人类极高的概率, 就认为这可以证明当前的任何行动是正当的。”

  • “五年后,因为像GPT-2这样的事情,我们正处于AI部门的大规模工业化之中,以响应这些想法的规模化。 现在,有一种强烈的似曾相识感——人们(包括我)正在关注像Claude 3GPT-4这样的模型, 并对这些系统的技术含义以及进一步扩展它们的含义发表自信的言论,有些人正在利用这些含义来证明在当前实施越来越严格的政策制度的必要性。 我们是否在重复五年前犯下的错误?”

我们没有答案,但可以对这场由扩展定律推动、现在由AI工厂推动的新工业革命发表一些自信的言论。 像Jensen Huang这样的人认为,我们正处于重新定义技术可能性的时刻。 你怎么看?要看到未来的大局,我们——一如既往——鼓励你了解过去。

附加阅读: 甚至像Andrej Karpathy那样与过去玩耍:他刚刚发布了一种快速且成本效益高的方法来训练GPT-2模型。 使用8xA100 GPU训练一个小型GPT-2(124M参数)需要90分钟和20美元。 350M版本需要14小时和200美元,而完整的1.6B模型需要一周和2500美元。 该方法使用Karpathy的llm.c库,它利用纯C/CUDA进行高效LLM训练,无需大型框架。

来自常见信息来源的新闻

2024年初的AI现状

  • 根据麦肯锡的说法,生成式AI的采用正在激增,开始产生可观的价值。

OpenAI的:威胁行为者、安全委员会和回归机器人学

  • OpenAI发布了一份详细报告,强调其AI模型在俄罗斯、中国、伊朗和以色列威胁行为者的隐蔽影响行动中被使用。 这些行动旨在操纵公众舆论和政治结果,但尽管内容生成增加,但在吸引真实受众方面效果不佳。 作为回应,OpenAI实施了诸如禁止账户、分享威胁指标和加强安全协议等措施。 值得注意的活动包括“Bad Grammar”(俄罗斯)、“Doppelganger”(俄罗斯)、“Spamouflage”(中国)、“IUVM”(伊朗)和“Zero Zeno”(以色列)。 这强调了AI在进行和防御隐蔽信息操作中的双重角色,突显了全面防御策略的必要性。

  • 他们还成立了一个安全和安保委员会,以解决关键的安全问题。 该委员会由Bret Taylor、Adam D’Angelo、Nicole Seligman和Sam Altman领导, 负责在90天内提出安全建议,并咨询网络安全专家。 这些建议将公开分享,以确保OpenAI项目的强健安全和安保措施。

  • 其他新闻中,OpenAI重新启动了其机器人团队,并正在招聘。 回顾过去(也是2018年):学习灵巧的手部操作。 当时,他们开发了一个名为Dactyl的系统,该系统完全在模拟中训练, 但已被证明能够解决不依赖物理精确建模的现实任务。

Claude 3增强工具集成

  • Claude 3模型系列现在支持工具使用, 能够与Anthropic Messages API、Amazon Bedrock和Google Cloud的Vertex AI上的外部工具和API进行交互。

NVIDIA的新AI芯片:Vera Rubin

  • 在Computex大会上,NVIDIA CEO Jensen Huang在主题演讲中宣布了名为Vera Rubin的AI芯片(以发现暗物质的美国天文学家命名),计划于2026年推出。 该新芯片将配备为AI应用设计的最先进的GPU和CPU。 NVIDIA计划每年升级其AI加速器,从2025年的Blackwell Ultra开始,重点在于成本和能源效率。

  • 他们还推出了地球气候数字双胞胎,能够不仅预测而且了解我们的星球及其气候的现状。

Mistral AI推出Codestral

  • Mistral AI的研究人员推出了Codestral,一个22B开源权重的生成式AI模型,专为代码生成而设计。 支持超过80种编程语言,Codestral在代码补全和测试编写等任务中表现优异,在长距离代码库级别代码补全方面优于其他模型。 通过HuggingFace提供用于研究和测试的访问,Codestral还与VSCode和JetBrains等流行工具集成,提升开发者生产力。

最新的研究论文,按类别分类以便查阅

我们的前三名

法国人了解他们的醒酒 → Hugging Face推出🍷 FineWeb

在博文“🍷 FineWeb:醒酒网络以获取最优质的文本数据规模”中, 研究人员介绍了一个从CommonCrawl快照中提取的15万亿标记的大型数据集。 FineWeb专为LLM预训练设计,通过细致的去重和过滤,强调高质量数据。 他们还开发了FineWeb-Edu,一个优化教育内容的子集,在教育基准

上表现优于现有数据集。他们还使这篇博文成为病毒式传播! 一如既往,向Hugging Face致敬,感谢他们对开放、透明方法的关心, 创建大规模高质量数据集用于LLM训练,以及对葡萄酒的热爱(但这只是一个假设)。

Mamba-2来了!变压器是SSM**:通过结构化状态空间对偶性实现通用模型和高效算法**

来自普林斯顿大学和卡内基梅隆大学的研究人员揭示了变压器和状态空间模型(SSM)之间的深层理论联系。 他们引入了一个名为结构化状态空间对偶性(SSD)的框架,表明SSM可以像变压器一样高效。 他们设计了Mamba-2,一个精细的SSM架构,其速度是前身Mamba的2-8倍(了解Mamba)。 Mamba-2在语言建模任务中仍与变压器竞争,同时优化了内存和计算效率。

视觉语言模型(VLMs)简介

来自Meta、Mila、MIT等知名机构的研究人员介绍了VLMs,解释了它们的功能、训练和评估。 他们强调了在对齐视觉和语言方面的挑战,例如理解空间关系和属性。 论文将VLMs分类为不同的家族,基于对比、掩蔽和生成技术等训练方法。 它还讨论了使用预训练的骨干来增强模型性能,并探索了将VLMs扩展到视频数据以改善时间理解。

AI模型增强

  • 变压器可以通过正确的嵌入进行算术 - 使用新颖的嵌入技术提高变压器的算术能力 →阅读论文

  • Trans-LoRA:数据无关的可迁移参数高效微调 - 提高参数高效模型的可迁移性,无需原始数据 →阅读论文

  • LOGAH:使用图超网络以1/100参数预测774百万参数变压器 - 利用图网络高效预测大型模型参数 →阅读论文

  • 2BP:两阶段反向传播 - 提出一个两阶段的反向传播过程,以提高计算效率 →阅读论文

  • LLAMA-NAS:用于大型语言模型的高效神经架构搜索 - 使用神经架构搜索找到高效的模型配置 →阅读论文

  • VeLoRA:使用秩-1子标记投影进行内存高效训练 - 通过创新的数据投影技术减少训练期间的内存需求 →阅读论文

  • Zipper:融合模态的多塔解码器架构 - 使用多塔架构在生成任务中高效集成不同模态 →阅读论文

  • NV-Embed:用于通用嵌入模型训练的改进技术 - 提高嵌入训练的质量,以增强检索和分类任务 →阅读论文

  • JINA CLIP:你的CLIP模型也是你的文本检索器 - 使用对比训练提高CLIP模型在文本-图像和文本-文本检索任务中的表现 →阅读论文

AI在多模态和专门任务中的应用

  • Matryoshka多模态模型 - 通过嵌套视觉标记提高多模态模型的效率 →阅读论文

  • Zamba:一个紧凑的7B SSM混合模型 - 结合状态空间和变压器模型,创建一个紧凑高效的混合模型 →阅读论文

  • 相似性不是全部:赋予检索增强生成系统多层次思维 - 在检索增强生成系统中整合更深的上下文理解 →阅读论文

AI伦理、隐私和对齐

  • 离线正则化强化学习用于LLM对齐 - 通过强化学习对齐AI行为与人类意图 →阅读论文

  • 价值激励偏好优化:统一的在线和离线RLHF方法 - 提出一种适用于在线和离线环境的人类反馈学习新方法 →阅读论文

  • 鹦鹉:使用语义变量高效提供LLM应用服务 - 利用应用级信息优化语言模型应用服务 →阅读论文

  • 创新与隐私的交叉点:生成式AI的私有合成数据 - 探索在AI训练中维护隐私的技术 →阅读论文

AI的认知能力

  • LLMs在高级心理理论任务中达到成人水平 - 评估大型语言模型执行复杂认知任务的能力,比较其与人类的表现 →阅读论文
鱼雪