你好,我是廖维明
专注于 AI Agent 工程、推理优化和 Data+AI 技术实践。 在这里分享我的项目、技术博客和思考。
技术方向
AI Agent
ReAct 模式、NL2SQL、工具调用与多步推理的工程实践
推理优化
vLLM 部署、GPTQ 量化、推理引擎调优与性能监控
Data + AI
湖仓一体、Spark/Flink 批流一体、OLAP 查询优化
最新项目
查看全部 →统一的 AI 模型网关服务,提供多模型路由、负载均衡、请求限流和使用量统计等功能。支持 OpenAI、Anthropic 等多种模型 API 的统一接入,简化了企业内部 AI 服务的管理和调度。
基于 AI Agent 的对话式 BI 分析工具概念验证。通过自然语言与数据交互,支持 NL2SQL 查询生成、数据可视化和智能分析报告。采用 ReAct 模式驱动 Agent 进行多步推理,实现从自然语言到数据洞察的端到端流程。
大语言模型 GPTQ 量化工具库,支持将 LLM 模型量化为 4-bit/8-bit 以降低推理显存占用和提升推理速度。基于 GPTQ 算法实现,提供简洁的 Python API,兼容 vLLM、Transformers 等主流推理框架,广泛应用于模型部署场景。
最新文章
查看全部 →vLLM 与 NVIDIA 加速库:从 CUTLASS 到全栈 Kernel 选择的深度剖析
深入剖析 vLLM 如何使用 NVIDIA 加速库全栈:CUTLASS 量化 GEMM(FP8/INT8/W4A8)、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel,以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。
vLLM fused_moe Kernel 深度剖析:Know Why & Know How
从 MoE 架构本质出发,深入 vLLM fused_moe Triton kernel 的实现细节:门控融合动机、token routing 与 block 对齐、分块 GEMM 的内存布局、FP8 量化路径、Expert Parallel 通信,以及 DeepSeek V3/Mixtral 等模型的实际受益分析。
OpenClaw 深度解析:第一性原理看 2026 年个人 AI 助理的开端
从第一性原理出发,剖析为什么 2026 年是个人 AI 助理真正可用的元年。深入 OpenClaw 的 Gateway 架构、多渠道接入、技能系统、记忆系统与节点控制,探讨开源个人助理的独特定位与未来方向。