跳到主要内容

GitHub 今日 AI Trending 测开分析(2026-04-13)

· 阅读需 6 分钟

AI 架构与趋势

今日结构分布(粗分类)

  • AI Agent / 编排框架: 5 个
  • RAG / 知识库: 1 个

热门项目速览

1. NousResearch/hermes-agent

  • 链接:https://github.com/NousResearch/hermes-agent
  • 归类:AI Agent / 编排框架
  • Stars:66154
  • Topics:ai, openai, hermes, codex, ai-agents, claude, ai-agent, llm, chatgpt, anthropic, claude-code, clawdbot
  • 项目特色(基于 description/README 片段的轻量提炼):
    • The agent that grows with you. Contribute to NousResearch/hermes-agent development by creating an account on GitHub.

2. forrestchang/andrej-karpathy-skills

  • 链接:https://github.com/forrestchang/andrej-karpathy-skills
  • 归类:RAG / 知识库
  • Stars:16684
  • 项目特色(基于 description/README 片段的轻量提炼):
    • A single CLAUDE.md file to improve Claude Code behavior, derived from Andrej Karpathy's observations on LLM coding pitfalls.
    • State assumptions explicitly — If uncertain, ask rather than guess
    • Present multiple interpretations — Don't pick silently when ambiguity exists
    • Push back when warranted — If a simpler approach exists, say so
    • Stop when confused — Name what's unclear and ask for clarification
    • No features beyond what was asked

3. microsoft/markitdown

  • 链接:https://github.com/microsoft/markitdown
  • 归类:AI Agent / 编排框架
  • Stars:104579
  • 主要语言:Python
  • Topics:autogen, autogen-extension, langchain, markdown, microsoft-office, openai, pdf
  • 项目特色(基于 description/README 片段的轻量提炼):
    • Python tool for converting files and office documents to Markdown.
    • PowerPoint
    • Images (EXIF metadata and OCR)
    • Audio (EXIF metadata and speech transcription)

4. multica-ai/multica

  • 链接:https://github.com/multica-ai/multica
  • 归类:AI Agent / 编排框架
  • Stars:9343
  • 主要语言:TypeScript
  • 项目特色(基于 description/README 片段的轻量提炼):
    • The open-source managed agents platform. Turn coding agents into real teammates — assign tasks, track progress, compound skills.

5. coleam00/Archon

  • 链接:https://github.com/coleam00/Archon
  • 归类:AI Agent / 编排框架
  • Stars:17029
  • Topics:cli, yaml, automation, typescript, ai, workflow-engine, developer-tools, bun, claude, coding-assistant
  • 项目特色(基于 description/README 片段的轻量提炼):
    • The first open-source harness builder for AI coding. Make AI coding deterministic and repeatable. - coleam00/Archon

6. shanraisshan/claude-code-best-practice

  • 链接:https://github.com/shanraisshan/claude-code-best-practice
  • 归类:AI Agent / 编排框架
  • Stars:38948
  • Topics:best-practices, claude, boris, anthropic, claude-ai, vibe-coding, claude-code, agentic-engineering, claude-code-commands, claude-code-agents, claude-code-skills, claude-code-best-practices
  • 项目特色(基于 description/README 片段的轻量提炼):
    • practice made claude perfect. Contribute to shanraisshan/claude-code-best-practice development by creating an account on GitHub.

对日常 QA 工作的工程化启发(如何测试此类架构)

1) 面向 AI Agent 产品质量的通用原则

  • 把 LLM 当作不可控依赖:测试要尽可能确定性(Mock/回放/固定评测集),线上靠观测性兜底。
  • 优先把输出结构化:JSON Schema / 受控枚举 / error code,让断言从‘主观’变成‘可自动化判定’。
  • 关键路径必须可回放:对话、工具调用、检索命中、模型版本,都要可复现。

2) 按架构类型给测试策略(可直接套用)

AI Agent / 编排框架

  • 将“正确性”拆成:接口契约正确 + 业务规则正确 + 模型/提示词行为可控 + 观测性可追溯。
  • 默认把 LLM 视为“不确定的外部依赖”,用 Mock/录制回放/固定种子/评测集来把测试变成确定性。
  • 把可测性当作架构能力:强制结构化输出(JSON Schema)、明确错误码、全链路 trace_id。
  • 重点测:工具调用(tool/function calling)分支覆盖、状态机/工作流回滚、长链路超时与重试策略。
  • 用 Golang Ginkgo 做后端校验:对每个工具 API 做 contract test + 幂等性测试 + 权限边界测试。
  • 把关键对话流固化成“场景回放测试”:同一输入在固定依赖下输出必须稳定(snapshot / golden)。

RAG / 知识库

  • 将“正确性”拆成:接口契约正确 + 业务规则正确 + 模型/提示词行为可控 + 观测性可追溯。
  • 默认把 LLM 视为“不确定的外部依赖”,用 Mock/录制回放/固定种子/评测集来把测试变成确定性。
  • 把可测性当作架构能力:强制结构化输出(JSON Schema)、明确错误码、全链路 trace_id。
  • 重点测:检索召回(Recall)与排序(Rank)——为每条问题准备‘期望命中文档集合’,做离线评测回归。
  • 把向量库当数据库测:索引构建一致性、增量写入正确性、冷热数据切换、延迟与容量压测。
  • 端到端测试要覆盖:空知识、知识过期、同义词、长文本截断、引用来源(citation)准确性。

3) Golang Ginkgo 后端校验:最小可用模板

以下片段用于说明思路(按你们的框架/路由替换即可):

package api_test

import (
"net/http"
"github.com/onsi/ginkgo/v2"
"github.com/onsi/gomega"
)

var _ = ginkgo.Describe("Tool API Contract", func() {
ginkgo.It("should return stable JSON schema for success", func() {
resp, err := http.Get("http://localhost:8080/api/tool/foo?x=1")
gomega.Expect(err).ToNot(gomega.HaveOccurred())
gomega.Expect(resp.StatusCode).To(gomega.Equal(http.StatusOK))
// TODO: 读取 body 做 JSON Schema 校验 / 字段断言
})
})

4) Playwright 端到端自动化:关键路径回放模板

import { test, expect } from '@playwright/test';

test('chat streaming should be stable', async ({ page }) => {
await page.goto('https://your-console.example.com');
// TODO: 登录

await page.getByRole('textbox', { name: '输入' }).fill('解释一下这个项目的核心能力');
await page.getByRole('button', { name: '发送' }).click();

// 关键:对流式输出做“最终一致性”断言
await expect(page.getByTestId('assistant-message').last()).toContainText('核心');
});

可落地的行动指南(如何在现有自动化框架中应用)

  1. 在现有自动化仓库中新建 ai_agent_quality/ 目录,沉淀:评测集、对话回放用例、golden snapshots。
  2. 为后端(Golang)增加 Ginkgo 套件:
  • Contract tests(OpenAPI/JSON Schema)
  • 工具 API 幂等性 + 权限边界
  • 关键业务规则的 table-driven tests
  1. 为前端/控制台增加 Playwright 套件:
  • 关键路径回放(含流式输出断言)
  • 断网/慢网/重试场景
  • 可访问性(a11y)与错误提示一致性
  1. 把 LLM 依赖抽象为 Provider 接口:测试环境默认 Mock(录制回放),必要时才走真实模型。
  2. 建立‘变更影响面’机制:prompt/模型/检索策略/工具列表任一变化,都要触发评测回归 + 差分报告。

附:生成数据说明

  • 数据源:GitHub Trending +(优先)GitHub REST API;API 受限时自动降级为抓取 GitHub Repo HTML 页面
  • 说明:AI 过滤与分类为规则驱动,可按团队需求持续迭代;如需更智能的总结,可在此报告基础上再做人工/LLM 精炼。