GitHub 今日 AI Trending 测开分析(2026-04-13)
· 阅读需 6 分钟
AI 架构与趋势
今日结构分布(粗分类)
- AI Agent / 编排框架: 5 个
- RAG / 知识库: 1 个
热门项目速览
1. NousResearch/hermes-agent
- 链接:https://github.com/NousResearch/hermes-agent
- 归类:AI Agent / 编排框架
- Stars:66154
- Topics:ai, openai, hermes, codex, ai-agents, claude, ai-agent, llm, chatgpt, anthropic, claude-code, clawdbot
- 项目特色(基于 description/README 片段的轻量提炼):
- The agent that grows with you. Contribute to NousResearch/hermes-agent development by creating an account on GitHub.
2. forrestchang/andrej-karpathy-skills
- 链接:https://github.com/forrestchang/andrej-karpathy-skills
- 归类:RAG / 知识库
- Stars:16684
- 项目特色(基于 description/README 片段的轻量提炼):
- A single CLAUDE.md file to improve Claude Code behavior, derived from Andrej Karpathy's observations on LLM coding pitfalls.
- State assumptions explicitly — If uncertain, ask rather than guess
- Present multiple interpretations — Don't pick silently when ambiguity exists
- Push back when warranted — If a simpler approach exists, say so
- Stop when confused — Name what's unclear and ask for clarification
- No features beyond what was asked
3. microsoft/markitdown
- 链接:https://github.com/microsoft/markitdown
- 归类:AI Agent / 编排框架
- Stars:104579
- 主要语言:Python
- Topics:autogen, autogen-extension, langchain, markdown, microsoft-office, openai, pdf
- 项目特色(基于 description/README 片段的轻量提炼):
- Python tool for converting files and office documents to Markdown.
- PowerPoint
- Images (EXIF metadata and OCR)
- Audio (EXIF metadata and speech transcription)
4. multica-ai/multica
- 链接:https://github.com/multica-ai/multica
- 归类:AI Agent / 编排框架
- Stars:9343
- 主要语言:TypeScript
- 项目特色(基于 description/README 片段的轻量提炼):
- The open-source managed agents platform. Turn coding agents into real teammates — assign tasks, track progress, compound skills.
5. coleam00/Archon
- 链接:https://github.com/coleam00/Archon
- 归类:AI Agent / 编排框架
- Stars:17029
- Topics:cli, yaml, automation, typescript, ai, workflow-engine, developer-tools, bun, claude, coding-assistant
- 项目特色(基于 description/README 片段的轻量提炼):
- The first open-source harness builder for AI coding. Make AI coding deterministic and repeatable. - coleam00/Archon
6. shanraisshan/claude-code-best-practice
- 链接:https://github.com/shanraisshan/claude-code-best-practice
- 归类:AI Agent / 编排框架
- Stars:38948
- Topics:best-practices, claude, boris, anthropic, claude-ai, vibe-coding, claude-code, agentic-engineering, claude-code-commands, claude-code-agents, claude-code-skills, claude-code-best-practices
- 项目特色(基于 description/README 片段的轻量提炼):
- practice made claude perfect. Contribute to shanraisshan/claude-code-best-practice development by creating an account on GitHub.
对日常 QA 工作的工程化启发(如何测试此类架构)
1) 面向 AI Agent 产品质量的通用原则
- 把 LLM 当作不可控依赖:测试要尽可能确定性(Mock/回放/固定评测集),线上靠观测性兜底。
- 优先把输出结构化:JSON Schema / 受控枚举 / error code,让断言从‘主观’变成‘可自动化判定’。
- 关键路径必须可回放:对话、工具调用、检索命中、模型版本,都要可复现。
2) 按架构类型给测试策略(可直接套用)
AI Agent / 编排框架
- 将“正确性”拆成:接口契约正确 + 业务规则正确 + 模型/提示词行为可控 + 观测性可追溯。
- 默认把 LLM 视为“不确定的外部依赖”,用 Mock/录制回放/固定种子/评测集来把测试变成确定性。
- 把可测性当作架构能力:强制结构化输出(JSON Schema)、明确错误码、全链路 trace_id。
- 重点测:工具调用(tool/function calling)分支覆盖、状态机/工作流回滚、长链路超时与重试策略。
- 用 Golang Ginkgo 做后端校验:对每个工具 API 做 contract test + 幂等性测试 + 权限边界测试。
- 把关键对话流固化成“场景回放测试”:同一输入在固定依赖下输出必须稳定(snapshot / golden)。
RAG / 知识库
- 将“正确性”拆成:接口契约正确 + 业务规则正确 + 模型/提示词行为可控 + 观测性可追溯。
- 默认把 LLM 视为“不确定的外部依赖”,用 Mock/录制回放/固定种子/评测集来把测试变成确定性。
- 把可测性当作架构能力:强制结构化输出(JSON Schema)、明确错误码、全链路 trace_id。
- 重点测:检索召回(Recall)与排序(Rank)——为每条问题准备‘期望命中文档集合’,做离线评测回归。
- 把向量库当数据库测:索引构建一致性、增量写入正确性、冷热数据切换、延迟与容量压测。
- 端到端测试要覆盖:空知识、知识过期、同义词、长文本截断、引用来源(citation)准确性。
3) Golang Ginkgo 后端校验:最小可用模板
以下片段用于说明思路(按你们的框架/路由替换即可):
package api_test
import (
"net/http"
"github.com/onsi/ginkgo/v2"
"github.com/onsi/gomega"
)
var _ = ginkgo.Describe("Tool API Contract", func() {
ginkgo.It("should return stable JSON schema for success", func() {
resp, err := http.Get("http://localhost:8080/api/tool/foo?x=1")
gomega.Expect(err).ToNot(gomega.HaveOccurred())
gomega.Expect(resp.StatusCode).To(gomega.Equal(http.StatusOK))
// TODO: 读取 body 做 JSON Schema 校验 / 字段断言
})
})
4) Playwright 端到端自动化:关键路径回放模板
import { test, expect } from '@playwright/test';
test('chat streaming should be stable', async ({ page }) => {
await page.goto('https://your-console.example.com');
// TODO: 登录
await page.getByRole('textbox', { name: '输入' }).fill('解释一下这个项目的核心能力');
await page.getByRole('button', { name: '发送' }).click();
// 关键:对流式输出做“最终一致性”断言
await expect(page.getByTestId('assistant-message').last()).toContainText('核心');
});
可落地的行动指南(如何在现有自动化框架中应用)
- 在现有自动化仓库中新建
ai_agent_quality/目录,沉淀:评测集、对话回放用例、golden snapshots。 - 为后端(Golang)增加 Ginkgo 套件:
- Contract tests(OpenAPI/JSON Schema)
- 工具 API 幂等性 + 权限边界
- 关键业务规则的 table-driven tests
- 为前端/控制台增加 Playwright 套件:
- 关键路径回放(含流式输出断言)
- 断网/慢网/重试场景
- 可访问性(a11y)与错误提示一致性
- 把 LLM 依赖抽象为 Provider 接口:测试环境默认 Mock(录制回放),必要时才走真实模型。
- 建立‘变更影响面’机制:prompt/模型/检索策略/工具列表任一变化,都要触发评测回归 + 差分报告。
附:生成数据说明
- 数据源:GitHub Trending +(优先)GitHub REST API;API 受限时自动降级为抓取 GitHub Repo HTML 页面
- 说明:AI 过滤与分类为规则驱动,可按团队需求持续迭代;如需更智能的总结,可在此报告基础上再做人工/LLM 精炼。