GPU_GUARD_MONOREPO/docs/superpowers/specs/2026-05-03-geo-master-roadmap.md

# Geo 模块整体路线图（S1–S4）

> 本文是 Geo 模块的**主索引文档**。所有子项目（S1/S2/S3/S4）的 spec、plan、实施记录都从这里导航。
> 阅读顺序：路线图（本文）→ 当前正在做的子项目 spec → 子项目 plan → 任务清单。
>
> **目标读者**：未来接手 Geo 模块的任何 Agent 或开发者。读完本文不应再需要重新上网搜索 GEO 概念。

| 元数据 | 值 |
|---|---|
| 创建日期 | 2026-05-03 |
| 当前阶段 | S1 设计中 |
| 业务负责 | （待补） |
| 依赖项目 | NetaClaw 模块（Agent 引擎、Skill Runtime、加密工具） |

---

## 1. Geo 模块是什么

**一句话**：Geo 是 Neta 平台的 **GEO（生成式引擎优化）执行系统**，通过社媒账号矩阵自动化生产并分发内容，最终目的是让品牌内容被 AI 引擎（DeepSeek/豆包/Kimi/文心/通义/腾讯元宝/ChatGPT/Perplexity 等）优先引用。

**关键认知（避免再被问一次）**：

- **GEO ≠ 地理定位**。在本项目里 GEO 永远指 **Generative Engine Optimization（生成式引擎优化）**。
- GEO 是 SEO 的 AI 时代继任者。SEO 关心"网页排名"，GEO 关心"AI 答案中是否被引用、引用是否权威、是否有正面情感"。
- 美团、知乎、东风本田、广汽、天翼云、东阿阿胶、海信、立白等头部企业 2026 年都启动了 GEO 年框供应商招标。本项目对齐这一行业标准。
- 美团等招标的核心 KPI（详见 §6）：AI 平台覆盖率 ≥ 80%、排名波动 ≤ 20%、引用率提升 ≥ 200%、合规通过率 100%。

**业务闭环**：

```
关键词词库 + 知识图谱
   ↓
AI 生产 E-E-A-T 内容（含 Schema.org/JSON-LD 注入）
   ↓
账号矩阵分发（独立 IP + 指纹浏览器，强绑定 1:1:1）
   ↓
社媒互动数据回流（点赞/评论/曝光） + AI 引用监测（8 大引擎）
   ↓
归因分析 → 高引用内容反向加权生产 → 异常告警 → 周期报告
```

---

## 2. 子项目分解（4 个 spec）

| 子项目 | 范围 | 数据表 | 估期 | 状态 |
|---|---|---|---|---|
| **S1 基础设施层** | 账号矩阵 / 天启 HTTP IP 池 / BitBrowser 指纹浏览器 / 菜单注入 | 3 | ~9 天 | 设计完成（本文同目录 spec） |
| **S2 关键词与知识图谱** | 词库分级 / 实体三元组 / Schema.org 生成器 / 内容模板 / E-E-A-T 评分 | 4 | ~6 天 | 待 brainstorm |
| **S3 平台适配与发布** | 人设 / 执行策略 / 调度 / 小红书 + 抖音适配器 / 浏览痕迹 / 发布物 / 评论回访 / 社媒指标 / 合规审核 | 10 | ~14 天 | 待 brainstorm |
| **S4 AI 引用监测与分析** | 探测 Query / AI 平台 / 引用记录（情感+幻觉+竞品+引用源）/ 归因 / 报告 / 异常告警 | 7 | ~12 天 | 待 brainstorm |

**为什么这样拆**：每个子项目对应一个能独立交付的能力域；前一个不完成不影响后一个的设计；每个子项目走完整 brainstorm → spec → plan → 实施 → 验收循环。

---

## 3. 各子项目核心交付

### S1 基础设施层（已设计，本目录 spec）

**核心能力**：
- 账号矩阵 CRUD，平台维度（小红书/抖音/微博/知乎/微信等）
- IP 池：抽象 ProxyProvider + 内置 LocalProvider + 占位 TianqiProvider（天启 HTTP）
- 指纹浏览器（两层正交）：① 浏览器进程层 `IBrowserProvider`：S1 主实现 `PlainChromiumProvider`（playwright-cli + Chromium）+ 占位 BitBrowser/AntBrowser/AdsPower。② 自动化层 `BrowserAutomationService`：统一用 playwright-cli 做 cookie/state/click，与底层浏览器解耦。等 ant-browser 源码到位后新增 AntBrowserProvider，自动化层无需改动
- **强绑定**：account ↔ proxy_ip ↔ browser_profile **严格 1:1:1**
- 启动浏览器 + 用户自己登录 + Cookie 自动抱回
- 菜单注入：base_sys_menu 增加 🌍 GEO 一级菜单

**关键设计决策**：
- 与 Neta 现有架构契合：复用 BaseEntity、@CoolController 自动 CRUD、TypeORM synchronize
- 加密：自建 `GeoEncryptService`（复用 AES-256-GCM 算法和 `SKILL_SECRET_KEY`/`APP_SECRET` 密钥派生逻辑，接口适配字符串场景。不直接调用 `SkillSecretService`——后者签名和语义不匹配）
- 数据库：不写 SQL 文件，TypeORM synchronize 自动建表 + MCP mysql 工具直接 INSERT 菜单
- S1 不引入 gateway/skill/runtime（属过度设计）

**详见**：`2026-05-03-geo-s1-infrastructure-design.md`

### S2 关键词与知识图谱（待设计）

**核心能力**：
- **关键词词库**：分级（核心/意向/长尾/LBS）、权重、宣传词库（"推荐""排行""TOP10"）
- **知识图谱实体**：实体-属性-关系三元组（如 `[品牌X|拥有产品|产品Y]`），是 Schema.org 的数据源
- **Schema.org / JSON-LD 生成器**：把发布物自动包装为机器可读的结构化数据。**这是 GEO 区别于 SEO 的灵魂**——AI 引擎优先抓取结构化数据
- **E-E-A-T 评分器**：内容自动按 Experience、Expertise、Authoritativeness、Trustworthiness 四维打分
- **内容模板**：问答模块化（FAQPage Schema）、爆款拆解结构、E-E-A-T 框架
- **数据表**：`geo_target_keyword` `geo_keyword_group` `geo_knowledge_entity` `geo_content_template`

**关键设计要点（避免再搜）**：
- Schema.org 类型组合：Product + FAQPage + LocalBusiness（本地生活专属）+ Organization + Review
- JSON-LD 嵌入位置：① 平台正文尾部 ② 自有官网/独立站 ③ 持久化到 `geo_post_schema` 表（S3 范畴）做事后审计
- E-E-A-T 红线：禁伪原创堆砌、批量垃圾外链、AI 幻觉式批量生成
- 长尾词覆盖目标：每 300 字至少 1 数据 / 1 案例 / 1 对比

### S3 平台适配与发布（待设计）

**核心能力**：
- **人设牌**：systemPrompt 注入到 NetaClaw Agent，让生成内容带人设
- **执行策略 (geo_agent_config)**：browseConfig / publishConfig / interactConfig / schedule
- **调度器**：复用 Neta `task` 模块 cron，schedule.json 定义 cron + 动作清单
- **平台适配器接口** `IPlatformAdapter`：`login` / `browse` / `publish` / `listComments` / `replyComment` / `getPostMetrics`
- **首发**：小红书 + 抖音；预留知乎、微博、视频号、本地生活
- 4 大业务动作（用户原始需求）：
  1. **browse**：定时用独立 IP + 指纹浏览器刷特定内容（关键词/标签/账号）
  2. **publish**：生成软广 → 合规审核 → 发布到平台
  3. **interact**：评论回访（AI 草拟 + 一键发送 / 自动回复）
  4. **metrics**：周期采集点赞/评论/曝光/收藏/分享
- **合规审核**：敏感词扫描 + NetaClaw Agent 语义审核（医疗/金融/品牌冲突）+ minimaxMCP 检查相似已发
- **Skill 包装**：`packages/backend/skills/geo-platform/` 把发布、评论、指标暴露给 NetaClaw Agent，Agent 在对话中也能驱动账号

**关键设计要点（避免再搜）**：
- 行业风控共识：**一账号一独立固定 IP**（小红书 100 个号要 100 个不同 IP），强绑定已在 S1 落实
- 平台特定登录策略：QR 轮询、账密表单、短信验证码 → S3 才完整实现（S1 仅做 cookie 注入）
- 发布频率参考：单账号每天 ≤ 3 条，避免被风控
- 评论回访：AI 生成回复需经 compliance_auditor 二次审核才发出
- 内容生成调用链：scheduler → contentGenerator → chatOrchestrator(NetaClaw) + persona.systemPrompt + targetKeywords → 草稿 → 审核 → 发布

### S4 AI 引用监测与分析（待设计）

**核心能力（GEO 系统的最终 KPI 来源）**：
- **探测 Query 库 (geo_ai_query)**：模拟"普通用户提问"，如 "上海工业传感器品牌有哪些"
- **AI 平台清单 (geo_ai_platform)**：DeepSeek、豆包、文心一言、腾讯元宝、通义千问、Kimi、ChatGPT、Perplexity、Claude、Gemini
- **AI 引用记录 (geo_ai_mention)** 增强 4 维：
  - `sentiment` 情感（正面/中性/负面）
  - `citedSources` AI 引用了哪些原始 URL/媒体
  - `competitorsCo` 同时出现的竞品
  - `hallucinationFlag` 是否出现 AI 幻觉（虚假参数/伪造案例/捏造负评）
- **两种探针**：
  - 官方 API（OpenAI/通义/文心 有 API） → 直接调用
  - 网页自动化（DeepSeek/豆包/元宝 网页版） → 复用 S1 的 playwright-cli skill
- **归因引擎 (attribution.ts)**：把"优化动作（publish/edit/schema 更新）"和"AI 引用率变化曲线"按时间轴对齐，输出哪条发布物带来引用率提升、哪类内容被高频引用、哪些关键词长期未覆盖
- **覆盖率分析 (coverage_analyzer.ts)**：已覆盖词 / 总目标词 + 未覆盖词清单 + 覆盖率热力图
- **AI 报告生成器 (report_generator.ts)**：日/周/月 PDF 报告，复用 minimax-pdf Skill + notification 模块（飞书）
- **异常告警 (geo_alert)**：排名暴跌 / AI 幻觉命中 / 账号风控

**关键设计要点（避免再搜）**：
- 业内行情：监测精度需 ≥ 行业均值，30 天波动 ≤ 20%，算法调整恢复 ≤ 5 天
- AI 幻觉是 GEO 第一红线 — 大模型可能编造虚假产品参数、伪造合作案例、捏造负面评价；必须主动识别 + 矫正
- 幻觉检测策略：把答案与 `geo_knowledge_entity` 三元组比对，不一致即标记
- 情感分析复用 NetaClaw Agent 而非外部 API（统一 LLM 渠道）
- 报告口径需对齐美团等招标维度（覆盖率 / 引用率 / 曝光数 / 趋势 / TOP 关键词 / TOP 引用内容 / 竞品动态 / 风险事件 / 优化建议）

---

## 4. 数据模型总览（24 张表）

| 子项目 | 表 |
|---|---|
| **S1（3）** | `geo_account` `geo_proxy_ip` `geo_browser_profile` |
| **S2（4）** | `geo_target_keyword` `geo_keyword_group` `geo_knowledge_entity` `geo_content_template` |
| **S3（10）** | `geo_persona` `geo_agent_config` `geo_account_group` `geo_browse_task` `geo_publish_post` `geo_post_schema` `geo_post_comment` `geo_post_metric` `geo_compliance_rule` `geo_content_audit` |
| **S4（7）** | `geo_ai_query` `geo_ai_platform` `geo_ai_mention` `geo_competitor` `geo_attribution_event` `geo_report` `geo_alert` |

> 实际数 24 张是 v3 修正后估算（S1:3 + S2:4 + S3:10 + S4:7）；实施时若有合并/拆分以子项目 spec 为准。

---

## 5. 服务清单总览（v3，23 个）

```
基础设施 (S1)：account, proxy_ip, browser_profile
策略层 (S3)：persona, agent_config, account_group
关键词 (S2)：keyword, knowledge_graph
内容生产 (S2/S3)：content_generator, content_template, schema_generator,
                 multimodal_studio*, viral_decoder*
合规 (S3)：compliance_auditor, eeat_evaluator
发布与互动 (S3)：publish, comment_interactor
调度 (S3)：scheduler
数据回流 (S3/S4)：metrics_collector, ai_mention_collector,
                 sentiment_analyzer, hallucination_detector, competitor_tracker
分析与报告 (S4)：attribution, coverage_analyzer, report_generator
告警 (S4)：alert
看板 (各)：geo_dashboard
```

> `*` 标注的多模态/爆款拆解可后置为 S5（不在前 4 子项目内）。

---

## 6. 行业 KPI 标准（招标对标）

> 来源：美团 2026 GEO 年框供应商招标、知乎 GEO 年框（200 万预算不承诺保底）、东风本田 GEO 中标、广汽 GEO 项目等公开信息综合。

| 维度 | 行业标准 | Geo 模块对应能力 |
|---|---|---|
| AI 平台覆盖 | 主流 8+ 家命中率 ≥ 80% | S4 AI 引用监测 |
| 排名稳定性 | 30 天波动 ≤ 20% | S4 时序快照 + 趋势看板 |
| 算法调整恢复 | ≤ 5 天 | S4 异常告警 + 快速复跑 |
| 多元展示位 | 知识卡片/本地生活模块 ≥ 2 种 | S2 Schema 多类型组合 |
| 高转化意向词占比 | ≥ 30% | S2 关键词分级（intent） |
| 地域精准度 | 核心地域 ≥ 70% | S2 LBS 词 + LocalBusiness Schema |
| 引用率提升 | ≥ 200% | S4 归因引擎 + 基线对比 |
| 合规通过率 | 100% | S3 compliance + S2 E-E-A-T 评分 |
| 响应时效 | 24h 技术响应 | S4 异常告警 + 任务重试 |

---

## 7. GEO 领域知识沉淀（避免再搜）

### 7.1 GEO 八大行业必备功能（调研沉淀）

1. 关键词与词库（多级 + 宣传词 + 行业词）
2. AI 内容生产（关键词驱动、爆款拆解、E-E-A-T、问答模块化、AI 绘画、视频/数字人）
3. 结构化数据/知识图谱（Schema.org / JSON-LD / 实体-属性-关系三元组 / LocalBusiness Schema）
4. 账号矩阵管理（多账号、IP 隔离、分组、定时发布、跨平台分发）
5. AI 引擎引用监测（8+ 平台、品牌可见度、引用率、AI 对话原文、引用源、情感、竞品对比、AI 幻觉、异常预警）
6. 效果归因分析（动作-效果对应、基线对比、未覆盖词、高引用反向加权）
7. 合规与风控（敏感词、医疗金融禁词、品牌冲突、AI 幻觉矫正、E-E-A-T 红线）
8. 报告与看板（日/周/月报、可视化大盘、KPI 仪表盘）

### 7.2 主流 GEO 系统对标

| 厂商/产品 | 突出能力 | 借鉴点 |
|---|---|---|
| 纳基 AI-GEO | 1 小时千篇内容、智能分发、品牌专属内容标准库 | 内容批量化 + 标准库化 |
| GEO 领航系统 | 多账户多线程、宣传词库、多平台适配 | 调度模型 + 词库分级 |
| 蓝鲸 AI | 数字人 + 矩阵管理 | 后置 S5 多模态 |
| 焱坤矩阵 | 1 天 300 条短视频、200 账号同后台 | 大规模账号管理 |
| RiaFlow 睿晰 | 品牌 GEO 实时查询 + 周期监测 + 可视化报告 | S4 监测设计参考 |
| 透镜 GEO | 免费 GEO 排名查询、覆盖国内主流大模型 | S4 探针实现参考 |
| 搜极星 | 国产 GEO 监测工具，排名/引用/情感 | S4 字段设计参考 |
| aibase 工具 | AI 对话原文展示、品牌 vs 竞品共现 | S4 引用记录字段 |
| 全息美 AISEO | Schema 注入、50+ 媒体平台一键发布 | S2 Schema + S3 发布 |
| 盈达科技 | 品牌认知免疫、Schema 给内容装 GPS | S2 Schema 价值理解 |

### 7.3 容易被忽略的"细规则"

- **Schema.org 优先级**：FAQ 页、产品详情页、技术指南、解决方案案例 — 这 4 类页面 AI 引用概率最高，要重点部署
- **图片/视频内容**：纯视觉无法被 AI 解析，必须配 alt 文本和文字摘要
- **更新频率影响引用**：长期未更新的页面会被 AI 视为过时；需要为产品/技术文档设审核机制
- **黑帽红线**：AI 幻觉式批量生成、伪原创堆砌、批量垃圾外链 → 直接被算法判罚
- **本地生活 GEO 特殊规则**：必须用 LocalBusiness Schema + 经纬度坐标 + areaServed + 本地域名后缀；流量逻辑从"商家主动曝光"变为"AI 被动筛选"
- **效果验证**：在 DeepSeek、豆包、通义、Kimi 等输入典型问题，看回答是否准确提及品牌；这是 S4 探针的设计原型

### 7.4 与 SEO 的对比（一图记住）

| 维度 | SEO（旧） | GEO（新） |
|---|---|---|
| 优化目标 | 网页排名 | AI 答案中被引用 |
| 内容形态 | 长文 + 关键词堆砌 | 模块化问答 + 数据 + 案例 |
| 优化指标 | 关键词排名、点击率 | 引用率、情感、竞品共现、幻觉率 |
| 数据载体 | HTML + meta | Schema.org / JSON-LD / 知识图谱 |
| 技术核心 | 反向链接、SEO 文案 | 结构化数据 + E-E-A-T + 知识图谱嵌入 |
| 流量入口 | 搜索引擎 SERP | AI 对话答案直接呈现 |

---

## 8. 关键技术依赖

| 依赖 | 用途 | 状态 |
|---|---|---|
| **NetaClaw 模块** | Agent 生成内容、Skill 暴露能力、加密工具 | ✅ 已存在 |
| **task 模块** | cron 定时调度 | ✅ 已存在 |
| **base 模块** | 菜单、权限、用户 | ✅ 已存在 |
| **notification 模块** | 飞书报告推送 | ✅ 已存在（S4 用） |
| **minimax-pdf Skill** | 报告 PDF 生成 | ✅ 已存在（S4 用） |
| **BitBrowser 客户端** | 指纹浏览器（S1 不依赖，降为 stub） | 外部依赖（等 ant-browser） |
| **playwright-cli** | 浏览器自动化（S1 主实现，Neta 已有 skill） | ✅ 已存在 |
| **天启 HTTP** | 第三方 IP 池 | 等用户提供文档 |
| **Playwright** | playwright-cli skill 已封装 | ✅ 已存在 |
| **AI 平台 API** | OpenAI/通义/文心/Claude/Gemini | 需配置密钥 |
| **AI 平台网页版** | DeepSeek/豆包/元宝（无 API） | 需 BitBrowser 自动化 |

---

## 9. 风险与红线

### 9.1 项目级风险

| 风险 | 缓解 |
|---|---|
| 范围过大一次实施失败 | 已拆 4 个子项目独立交付 |
| 平台风控（小红书/抖音封号） | 强绑定 1:1:1 + 单账号低频 + 合规审核 |
| AI 幻觉传播虚假品牌信息 | S4 必须做幻觉检测 + 主动矫正 |
| 第三方依赖（天启/BitBrowser）不稳 | Provider 抽象，可换 |
| 合规违规 | 多层审核 + E-E-A-T 红线（S2/S3） |
| 内容审核漏掉医疗金融敏感 | S3 compliance_auditor 调 NetaClaw Agent 二次审核 |

### 9.2 不在范围内（明确否决）

- ❌ 不做 SEO（旧时代产物）
- ❌ 不做谷歌竞价/百度推广（不属于 GEO）
- ❌ 不做用户裂变营销（外延）
- ❌ 不做 CRM/客户管理（出范围）
- ❌ 不做电商交易闭环（出范围）

---

## 10. 工作流约定

### 10.1 单子项目 SOP

```
1. brainstorming   - 澄清需求、提出方案、分段呈现设计
2. spec doc        - 写到 docs/superpowers/specs/YYYY-MM-DD-geo-{sX}-{topic}-design.md
3. user 复核 spec
4. writing-plans   - 写到 docs/superpowers/plans/YYYY-MM-DD-geo-{sX}-{topic}-plan.md
5. user 复核 plan
6. executing-plans / TDD 实施
7. verification    - 验收清单逐条核对
8. requesting-code-review
9. finishing-a-development-branch
10. 更新本路线图：当前阶段、状态
```

### 10.2 数据库工作约定

- **不写 SQL 文件**：用户明确要求
- 表创建：Entity 文件 + TypeORM `synchronize: true` 自动同步
- 数据 seed（菜单等）：用 `mcp__mysql__execute` INSERT
- 表结构查询：`mcp__mysql__list_tables` / `describe_table`
- 数据校验：`mcp__mysql__query`
- 测试环境：默认连 `tycm_service/src/main/resources/application-test.yml`（按 CLAUDE.md）

### 10.3 Neta 模块开发红线

- 文件名下划线、Entity 字段驼峰
- Controller 用 `@CoolController`
- Service 写业务，不下沉到 Controller
- 响应 `this.ok()` / `this.fail()`
- Entity 放在 `modules/{name}/entity/` 下，`entities.ts` 由 `cool entity` 命令自动生成（不手动修改）
- 前端模块必有 `config.ts`
- 菜单走 `base_sys_menu`，不在前端硬编码

---

## 11. 索引

### 子项目设计文档
- ✅ S1：`2026-05-03-geo-s1-infrastructure-design.md`（本目录）
- 🟡 S2：（待写）
- 🟡 S3：（待写）
- 🟡 S4：（待写）

### 子项目实施计划
- 🟡 S1 plan：（写完 spec 后由 writing-plans 生成到 `docs/superpowers/plans/`）

### 上游参考
- Neta 项目入口：`Neta-monorepo/CLAUDE.md`
- Neta wiki：`Neta-monorepo/docs/code-wiki/index.md`
- 关键 wiki 页面：[[project-overview]] [[netaclaw-module]] [[base-module]] [[cool-admin-framework]] [[development-conventions]]

---

## 12. 变更日志

| 日期 | 变更 | 备注 |
|---|---|---|
| 2026-05-03 | 初稿 | brainstorming 后产出，含 v3 设计 + 行业调研沉淀 |
| 2026-05-03 | 架构审查修复 | S3 表数 7→10，总表数 21→24；entities.ts 自动生成说明；加密方案修正；定时任务注册方式修正 |
| 2026-05-03 | 浏览器层重构 | 发现 Neta 已有 playwright-cli skill，S1 主实现改为 PlaywrightCliProvider，BitBrowser 降为 stub，等 ant-browser 源码到位后新增 AntBrowserProvider |
| 2026-05-03 | 浏览器层二次重构 | 澄清"自动化"与"浏览器"是正交两层。新增 `BrowserAutomationService` 统一 playwright-cli 包装。`IBrowserProvider` 仅管进程生命周期。S1 主 provider 改为 `PlainChromiumProvider`。换浏览器只增 provider 不改自动化层 |