GPU_GUARD_MONOREPO/docs/superpowers/specs/2026-05-03-geo-master-roadmap.md
2026-05-20 21:39:12 +08:00

351 lines
20 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Geo 模块整体路线图S1S4
> 本文是 Geo 模块的**主索引文档**。所有子项目S1/S2/S3/S4的 spec、plan、实施记录都从这里导航。
> 阅读顺序:路线图(本文)→ 当前正在做的子项目 spec → 子项目 plan → 任务清单。
>
> **目标读者**:未来接手 Geo 模块的任何 Agent 或开发者。读完本文不应再需要重新上网搜索 GEO 概念。
| 元数据 | 值 |
|---|---|
| 创建日期 | 2026-05-03 |
| 当前阶段 | S1 设计中 |
| 业务负责 | (待补) |
| 依赖项目 | NetaClaw 模块Agent 引擎、Skill Runtime、加密工具 |
---
## 1. Geo 模块是什么
**一句话**Geo 是 Neta 平台的 **GEO生成式引擎优化执行系统**,通过社媒账号矩阵自动化生产并分发内容,最终目的是让品牌内容被 AI 引擎DeepSeek/豆包/Kimi/文心/通义/腾讯元宝/ChatGPT/Perplexity 等)优先引用。
**关键认知(避免再被问一次)**
- **GEO ≠ 地理定位**。在本项目里 GEO 永远指 **Generative Engine Optimization生成式引擎优化**
- GEO 是 SEO 的 AI 时代继任者。SEO 关心"网页排名"GEO 关心"AI 答案中是否被引用、引用是否权威、是否有正面情感"。
- 美团、知乎、东风本田、广汽、天翼云、东阿阿胶、海信、立白等头部企业 2026 年都启动了 GEO 年框供应商招标。本项目对齐这一行业标准。
- 美团等招标的核心 KPI详见 §6AI 平台覆盖率 ≥ 80%、排名波动 ≤ 20%、引用率提升 ≥ 200%、合规通过率 100%。
**业务闭环**
```
关键词词库 + 知识图谱
AI 生产 E-E-A-T 内容(含 Schema.org/JSON-LD 注入)
账号矩阵分发(独立 IP + 指纹浏览器,强绑定 1:1:1
社媒互动数据回流(点赞/评论/曝光) + AI 引用监测8 大引擎)
归因分析 → 高引用内容反向加权生产 → 异常告警 → 周期报告
```
---
## 2. 子项目分解4 个 spec
| 子项目 | 范围 | 数据表 | 估期 | 状态 |
|---|---|---|---|---|
| **S1 基础设施层** | 账号矩阵 / 天启 HTTP IP 池 / BitBrowser 指纹浏览器 / 菜单注入 | 3 | ~9 天 | 设计完成(本文同目录 spec |
| **S2 关键词与知识图谱** | 词库分级 / 实体三元组 / Schema.org 生成器 / 内容模板 / E-E-A-T 评分 | 4 | ~6 天 | 待 brainstorm |
| **S3 平台适配与发布** | 人设 / 执行策略 / 调度 / 小红书 + 抖音适配器 / 浏览痕迹 / 发布物 / 评论回访 / 社媒指标 / 合规审核 | 10 | ~14 天 | 待 brainstorm |
| **S4 AI 引用监测与分析** | 探测 Query / AI 平台 / 引用记录(情感+幻觉+竞品+引用源)/ 归因 / 报告 / 异常告警 | 7 | ~12 天 | 待 brainstorm |
**为什么这样拆**:每个子项目对应一个能独立交付的能力域;前一个不完成不影响后一个的设计;每个子项目走完整 brainstorm → spec → plan → 实施 → 验收循环。
---
## 3. 各子项目核心交付
### S1 基础设施层(已设计,本目录 spec
**核心能力**
- 账号矩阵 CRUD平台维度小红书/抖音/微博/知乎/微信等)
- IP 池:抽象 ProxyProvider + 内置 LocalProvider + 占位 TianqiProvider天启 HTTP
- 指纹浏览器(两层正交):① 浏览器进程层 `IBrowserProvider`S1 主实现 `PlainChromiumProvider`playwright-cli + Chromium+ 占位 BitBrowser/AntBrowser/AdsPower。② 自动化层 `BrowserAutomationService`:统一用 playwright-cli 做 cookie/state/click与底层浏览器解耦。等 ant-browser 源码到位后新增 AntBrowserProvider自动化层无需改动
- **强绑定**account ↔ proxy_ip ↔ browser_profile **严格 1:1:1**
- 启动浏览器 + 用户自己登录 + Cookie 自动抱回
- 菜单注入base_sys_menu 增加 🌍 GEO 一级菜单
**关键设计决策**
- 与 Neta 现有架构契合:复用 BaseEntity、@CoolController 自动 CRUD、TypeORM synchronize
- 加密:自建 `GeoEncryptService`(复用 AES-256-GCM 算法和 `SKILL_SECRET_KEY`/`APP_SECRET` 密钥派生逻辑,接口适配字符串场景。不直接调用 `SkillSecretService`——后者签名和语义不匹配)
- 数据库:不写 SQL 文件TypeORM synchronize 自动建表 + MCP mysql 工具直接 INSERT 菜单
- S1 不引入 gateway/skill/runtime属过度设计
**详见**`2026-05-03-geo-s1-infrastructure-design.md`
### S2 关键词与知识图谱(待设计)
**核心能力**
- **关键词词库**:分级(核心/意向/长尾/LBS、权重、宣传词库"推荐""排行""TOP10"
- **知识图谱实体**:实体-属性-关系三元组(如 `[品牌X|拥有产品|产品Y]`),是 Schema.org 的数据源
- **Schema.org / JSON-LD 生成器**:把发布物自动包装为机器可读的结构化数据。**这是 GEO 区别于 SEO 的灵魂**——AI 引擎优先抓取结构化数据
- **E-E-A-T 评分器**:内容自动按 Experience、Expertise、Authoritativeness、Trustworthiness 四维打分
- **内容模板**问答模块化FAQPage Schema、爆款拆解结构、E-E-A-T 框架
- **数据表**`geo_target_keyword` `geo_keyword_group` `geo_knowledge_entity` `geo_content_template`
**关键设计要点(避免再搜)**
- Schema.org 类型组合Product + FAQPage + LocalBusiness本地生活专属+ Organization + Review
- JSON-LD 嵌入位置:① 平台正文尾部 ② 自有官网/独立站 ③ 持久化到 `geo_post_schema`S3 范畴)做事后审计
- E-E-A-T 红线禁伪原创堆砌、批量垃圾外链、AI 幻觉式批量生成
- 长尾词覆盖目标:每 300 字至少 1 数据 / 1 案例 / 1 对比
### S3 平台适配与发布(待设计)
**核心能力**
- **人设牌**systemPrompt 注入到 NetaClaw Agent让生成内容带人设
- **执行策略 (geo_agent_config)**browseConfig / publishConfig / interactConfig / schedule
- **调度器**:复用 Neta `task` 模块 cronschedule.json 定义 cron + 动作清单
- **平台适配器接口** `IPlatformAdapter``login` / `browse` / `publish` / `listComments` / `replyComment` / `getPostMetrics`
- **首发**:小红书 + 抖音;预留知乎、微博、视频号、本地生活
- 4 大业务动作(用户原始需求):
1. **browse**:定时用独立 IP + 指纹浏览器刷特定内容(关键词/标签/账号)
2. **publish**:生成软广 → 合规审核 → 发布到平台
3. **interact**评论回访AI 草拟 + 一键发送 / 自动回复)
4. **metrics**:周期采集点赞/评论/曝光/收藏/分享
- **合规审核**:敏感词扫描 + NetaClaw Agent 语义审核(医疗/金融/品牌冲突)+ minimaxMCP 检查相似已发
- **Skill 包装**`packages/backend/skills/geo-platform/` 把发布、评论、指标暴露给 NetaClaw AgentAgent 在对话中也能驱动账号
**关键设计要点(避免再搜)**
- 行业风控共识:**一账号一独立固定 IP**(小红书 100 个号要 100 个不同 IP强绑定已在 S1 落实
- 平台特定登录策略QR 轮询、账密表单、短信验证码 → S3 才完整实现S1 仅做 cookie 注入)
- 发布频率参考:单账号每天 ≤ 3 条,避免被风控
- 评论回访AI 生成回复需经 compliance_auditor 二次审核才发出
- 内容生成调用链scheduler → contentGenerator → chatOrchestrator(NetaClaw) + persona.systemPrompt + targetKeywords → 草稿 → 审核 → 发布
### S4 AI 引用监测与分析(待设计)
**核心能力GEO 系统的最终 KPI 来源)**
- **探测 Query 库 (geo_ai_query)**:模拟"普通用户提问",如 "上海工业传感器品牌有哪些"
- **AI 平台清单 (geo_ai_platform)**DeepSeek、豆包、文心一言、腾讯元宝、通义千问、Kimi、ChatGPT、Perplexity、Claude、Gemini
- **AI 引用记录 (geo_ai_mention)** 增强 4 维:
- `sentiment` 情感(正面/中性/负面)
- `citedSources` AI 引用了哪些原始 URL/媒体
- `competitorsCo` 同时出现的竞品
- `hallucinationFlag` 是否出现 AI 幻觉(虚假参数/伪造案例/捏造负评)
- **两种探针**
- 官方 APIOpenAI/通义/文心 有 API → 直接调用
- 网页自动化DeepSeek/豆包/元宝 网页版) → 复用 S1 的 playwright-cli skill
- **归因引擎 (attribution.ts)**:把"优化动作publish/edit/schema 更新)"和"AI 引用率变化曲线"按时间轴对齐,输出哪条发布物带来引用率提升、哪类内容被高频引用、哪些关键词长期未覆盖
- **覆盖率分析 (coverage_analyzer.ts)**:已覆盖词 / 总目标词 + 未覆盖词清单 + 覆盖率热力图
- **AI 报告生成器 (report_generator.ts)**:日/周/月 PDF 报告,复用 minimax-pdf Skill + notification 模块(飞书)
- **异常告警 (geo_alert)**:排名暴跌 / AI 幻觉命中 / 账号风控
**关键设计要点(避免再搜)**
- 业内行情:监测精度需 ≥ 行业均值30 天波动 ≤ 20%,算法调整恢复 ≤ 5 天
- AI 幻觉是 GEO 第一红线 — 大模型可能编造虚假产品参数、伪造合作案例、捏造负面评价;必须主动识别 + 矫正
- 幻觉检测策略:把答案与 `geo_knowledge_entity` 三元组比对,不一致即标记
- 情感分析复用 NetaClaw Agent 而非外部 API统一 LLM 渠道)
- 报告口径需对齐美团等招标维度(覆盖率 / 引用率 / 曝光数 / 趋势 / TOP 关键词 / TOP 引用内容 / 竞品动态 / 风险事件 / 优化建议)
---
## 4. 数据模型总览24 张表)
| 子项目 | 表 |
|---|---|
| **S13** | `geo_account` `geo_proxy_ip` `geo_browser_profile` |
| **S24** | `geo_target_keyword` `geo_keyword_group` `geo_knowledge_entity` `geo_content_template` |
| **S310** | `geo_persona` `geo_agent_config` `geo_account_group` `geo_browse_task` `geo_publish_post` `geo_post_schema` `geo_post_comment` `geo_post_metric` `geo_compliance_rule` `geo_content_audit` |
| **S47** | `geo_ai_query` `geo_ai_platform` `geo_ai_mention` `geo_competitor` `geo_attribution_event` `geo_report` `geo_alert` |
> 实际数 24 张是 v3 修正后估算S1:3 + S2:4 + S3:10 + S4:7实施时若有合并/拆分以子项目 spec 为准。
---
## 5. 服务清单总览v323 个)
```
基础设施 (S1)account, proxy_ip, browser_profile
策略层 (S3)persona, agent_config, account_group
关键词 (S2)keyword, knowledge_graph
内容生产 (S2/S3)content_generator, content_template, schema_generator,
multimodal_studio*, viral_decoder*
合规 (S3)compliance_auditor, eeat_evaluator
发布与互动 (S3)publish, comment_interactor
调度 (S3)scheduler
数据回流 (S3/S4)metrics_collector, ai_mention_collector,
sentiment_analyzer, hallucination_detector, competitor_tracker
分析与报告 (S4)attribution, coverage_analyzer, report_generator
告警 (S4)alert
看板 (各)geo_dashboard
```
> `*` 标注的多模态/爆款拆解可后置为 S5不在前 4 子项目内)。
---
## 6. 行业 KPI 标准(招标对标)
> 来源:美团 2026 GEO 年框供应商招标、知乎 GEO 年框200 万预算不承诺保底)、东风本田 GEO 中标、广汽 GEO 项目等公开信息综合。
| 维度 | 行业标准 | Geo 模块对应能力 |
|---|---|---|
| AI 平台覆盖 | 主流 8+ 家命中率 ≥ 80% | S4 AI 引用监测 |
| 排名稳定性 | 30 天波动 ≤ 20% | S4 时序快照 + 趋势看板 |
| 算法调整恢复 | ≤ 5 天 | S4 异常告警 + 快速复跑 |
| 多元展示位 | 知识卡片/本地生活模块 ≥ 2 种 | S2 Schema 多类型组合 |
| 高转化意向词占比 | ≥ 30% | S2 关键词分级intent |
| 地域精准度 | 核心地域 ≥ 70% | S2 LBS 词 + LocalBusiness Schema |
| 引用率提升 | ≥ 200% | S4 归因引擎 + 基线对比 |
| 合规通过率 | 100% | S3 compliance + S2 E-E-A-T 评分 |
| 响应时效 | 24h 技术响应 | S4 异常告警 + 任务重试 |
---
## 7. GEO 领域知识沉淀(避免再搜)
### 7.1 GEO 八大行业必备功能(调研沉淀)
1. 关键词与词库(多级 + 宣传词 + 行业词)
2. AI 内容生产关键词驱动、爆款拆解、E-E-A-T、问答模块化、AI 绘画、视频/数字人)
3. 结构化数据/知识图谱Schema.org / JSON-LD / 实体-属性-关系三元组 / LocalBusiness Schema
4. 账号矩阵管理多账号、IP 隔离、分组、定时发布、跨平台分发)
5. AI 引擎引用监测8+ 平台、品牌可见度、引用率、AI 对话原文、引用源、情感、竞品对比、AI 幻觉、异常预警)
6. 效果归因分析(动作-效果对应、基线对比、未覆盖词、高引用反向加权)
7. 合规与风控敏感词、医疗金融禁词、品牌冲突、AI 幻觉矫正、E-E-A-T 红线)
8. 报告与看板(日/周/月报、可视化大盘、KPI 仪表盘)
### 7.2 主流 GEO 系统对标
| 厂商/产品 | 突出能力 | 借鉴点 |
|---|---|---|
| 纳基 AI-GEO | 1 小时千篇内容、智能分发、品牌专属内容标准库 | 内容批量化 + 标准库化 |
| GEO 领航系统 | 多账户多线程、宣传词库、多平台适配 | 调度模型 + 词库分级 |
| 蓝鲸 AI | 数字人 + 矩阵管理 | 后置 S5 多模态 |
| 焱坤矩阵 | 1 天 300 条短视频、200 账号同后台 | 大规模账号管理 |
| RiaFlow 睿晰 | 品牌 GEO 实时查询 + 周期监测 + 可视化报告 | S4 监测设计参考 |
| 透镜 GEO | 免费 GEO 排名查询、覆盖国内主流大模型 | S4 探针实现参考 |
| 搜极星 | 国产 GEO 监测工具,排名/引用/情感 | S4 字段设计参考 |
| aibase 工具 | AI 对话原文展示、品牌 vs 竞品共现 | S4 引用记录字段 |
| 全息美 AISEO | Schema 注入、50+ 媒体平台一键发布 | S2 Schema + S3 发布 |
| 盈达科技 | 品牌认知免疫、Schema 给内容装 GPS | S2 Schema 价值理解 |
### 7.3 容易被忽略的"细规则"
- **Schema.org 优先级**FAQ 页、产品详情页、技术指南、解决方案案例 — 这 4 类页面 AI 引用概率最高,要重点部署
- **图片/视频内容**:纯视觉无法被 AI 解析,必须配 alt 文本和文字摘要
- **更新频率影响引用**:长期未更新的页面会被 AI 视为过时;需要为产品/技术文档设审核机制
- **黑帽红线**AI 幻觉式批量生成、伪原创堆砌、批量垃圾外链 → 直接被算法判罚
- **本地生活 GEO 特殊规则**:必须用 LocalBusiness Schema + 经纬度坐标 + areaServed + 本地域名后缀;流量逻辑从"商家主动曝光"变为"AI 被动筛选"
- **效果验证**:在 DeepSeek、豆包、通义、Kimi 等输入典型问题,看回答是否准确提及品牌;这是 S4 探针的设计原型
### 7.4 与 SEO 的对比(一图记住)
| 维度 | SEO | GEO |
|---|---|---|
| 优化目标 | 网页排名 | AI 答案中被引用 |
| 内容形态 | 长文 + 关键词堆砌 | 模块化问答 + 数据 + 案例 |
| 优化指标 | 关键词排名、点击率 | 引用率、情感、竞品共现、幻觉率 |
| 数据载体 | HTML + meta | Schema.org / JSON-LD / 知识图谱 |
| 技术核心 | 反向链接、SEO 文案 | 结构化数据 + E-E-A-T + 知识图谱嵌入 |
| 流量入口 | 搜索引擎 SERP | AI 对话答案直接呈现 |
---
## 8. 关键技术依赖
| 依赖 | 用途 | 状态 |
|---|---|---|
| **NetaClaw 模块** | Agent 生成内容、Skill 暴露能力、加密工具 | ✅ 已存在 |
| **task 模块** | cron 定时调度 | ✅ 已存在 |
| **base 模块** | 菜单、权限、用户 | ✅ 已存在 |
| **notification 模块** | 飞书报告推送 | ✅ 已存在S4 用) |
| **minimax-pdf Skill** | 报告 PDF 生成 | ✅ 已存在S4 用) |
| **BitBrowser 客户端** | 指纹浏览器S1 不依赖,降为 stub | 外部依赖(等 ant-browser |
| **playwright-cli** | 浏览器自动化S1 主实现Neta 已有 skill | ✅ 已存在 |
| **天启 HTTP** | 第三方 IP 池 | 等用户提供文档 |
| **Playwright** | playwright-cli skill 已封装 | ✅ 已存在 |
| **AI 平台 API** | OpenAI/通义/文心/Claude/Gemini | 需配置密钥 |
| **AI 平台网页版** | DeepSeek/豆包/元宝(无 API | 需 BitBrowser 自动化 |
---
## 9. 风险与红线
### 9.1 项目级风险
| 风险 | 缓解 |
|---|---|
| 范围过大一次实施失败 | 已拆 4 个子项目独立交付 |
| 平台风控(小红书/抖音封号) | 强绑定 1:1:1 + 单账号低频 + 合规审核 |
| AI 幻觉传播虚假品牌信息 | S4 必须做幻觉检测 + 主动矫正 |
| 第三方依赖(天启/BitBrowser不稳 | Provider 抽象,可换 |
| 合规违规 | 多层审核 + E-E-A-T 红线S2/S3 |
| 内容审核漏掉医疗金融敏感 | S3 compliance_auditor 调 NetaClaw Agent 二次审核 |
### 9.2 不在范围内(明确否决)
- ❌ 不做 SEO旧时代产物
- ❌ 不做谷歌竞价/百度推广(不属于 GEO
- ❌ 不做用户裂变营销(外延)
- ❌ 不做 CRM/客户管理(出范围)
- ❌ 不做电商交易闭环(出范围)
---
## 10. 工作流约定
### 10.1 单子项目 SOP
```
1. brainstorming - 澄清需求、提出方案、分段呈现设计
2. spec doc - 写到 docs/superpowers/specs/YYYY-MM-DD-geo-{sX}-{topic}-design.md
3. user 复核 spec
4. writing-plans - 写到 docs/superpowers/plans/YYYY-MM-DD-geo-{sX}-{topic}-plan.md
5. user 复核 plan
6. executing-plans / TDD 实施
7. verification - 验收清单逐条核对
8. requesting-code-review
9. finishing-a-development-branch
10. 更新本路线图:当前阶段、状态
```
### 10.2 数据库工作约定
- **不写 SQL 文件**:用户明确要求
- 表创建Entity 文件 + TypeORM `synchronize: true` 自动同步
- 数据 seed菜单等`mcp__mysql__execute` INSERT
- 表结构查询:`mcp__mysql__list_tables` / `describe_table`
- 数据校验:`mcp__mysql__query`
- 测试环境:默认连 `tycm_service/src/main/resources/application-test.yml`(按 CLAUDE.md
### 10.3 Neta 模块开发红线
- 文件名下划线、Entity 字段驼峰
- Controller 用 `@CoolController`
- Service 写业务,不下沉到 Controller
- 响应 `this.ok()` / `this.fail()`
- Entity 放在 `modules/{name}/entity/` 下,`entities.ts``cool entity` 命令自动生成(不手动修改)
- 前端模块必有 `config.ts`
- 菜单走 `base_sys_menu`,不在前端硬编码
---
## 11. 索引
### 子项目设计文档
- ✅ S1`2026-05-03-geo-s1-infrastructure-design.md`(本目录)
- 🟡 S2待写
- 🟡 S3待写
- 🟡 S4待写
### 子项目实施计划
- 🟡 S1 plan写完 spec 后由 writing-plans 生成到 `docs/superpowers/plans/`
### 上游参考
- Neta 项目入口:`Neta-monorepo/CLAUDE.md`
- Neta wiki`Neta-monorepo/docs/code-wiki/index.md`
- 关键 wiki 页面:[[project-overview]] [[netaclaw-module]] [[base-module]] [[cool-admin-framework]] [[development-conventions]]
---
## 12. 变更日志
| 日期 | 变更 | 备注 |
|---|---|---|
| 2026-05-03 | 初稿 | brainstorming 后产出,含 v3 设计 + 行业调研沉淀 |
| 2026-05-03 | 架构审查修复 | S3 表数 7→10总表数 21→24entities.ts 自动生成说明;加密方案修正;定时任务注册方式修正 |
| 2026-05-03 | 浏览器层重构 | 发现 Neta 已有 playwright-cli skillS1 主实现改为 PlaywrightCliProviderBitBrowser 降为 stub等 ant-browser 源码到位后新增 AntBrowserProvider |
| 2026-05-03 | 浏览器层二次重构 | 澄清"自动化"与"浏览器"是正交两层。新增 `BrowserAutomationService` 统一 playwright-cli 包装。`IBrowserProvider` 仅管进程生命周期。S1 主 provider 改为 `PlainChromiumProvider`。换浏览器只增 provider 不改自动化层 |