高级数据仓库工程师(电商Agent方向)
嬉皮狗职位描述
## 关于我们 我们是一家年发货量 2000万单 的头部宠物电商公司,覆盖天猫、京东、抖音、拼多多、快手、小红书等全主流电商平台。我们正在用 AI 重构整个电商经营体系——内部 AI 平台 hipiAI 已深度集成到运营、客服、采购、财务等核心业务链路。 我们的数据体量真实、业务场景复杂:10+电商平台、2000万单/年的交易数据、覆盖选品/采购/运营/营销/仓储/财务全链路。 现在,我们需要一位能让 AI Agent 真正'看懂'数据 的工程师——把散落在各平台、各系统里的数据,变成 Agent 可以直接开口调用的智能数据服务。 --- ## 岗位职责 ### ① 数据仓库建设(30%) - 设计并维护面向电商全链路的数据仓库分层体系(ODS → DWD → DWS → ADS) - 对接聚水潭 ERP、各电商平台(天猫/京东/抖音/拼多多等)、财务系统的数据采集与清洗 - 基于 PolarDB PostgreSQL(PG17 + pgvector) 设计高性能数据模型,支撑 Agent 实时查询 - 建立数据质量监控体系,确保核心指标数据准确性与时效性(关键指标异常自动告警) - 定义并维护统一指标字典(GMV/ROI/毛利率/退货率等),解决跨平台口径不一致问题 ### ② 平台数据采集(30%) - 负责各电商平台指数化/市场数据的采集方案设计与落地: - 天猫:生意参谋(搜索词热度、类目趋势、竞品分析、市场行情) - 抖音:罗盘数据、达人带货数据(飞瓜/蝉妈妈等第三方平台) - 京东:商智数据、竞品价格监控 - 拼多多:类目数据大屏、竞品 SKU 监控 - 其他平台:快手、小红书、1688 等平台数据按需接入 - 基于 AdsPower + Stagehand(AI驱动浏览器自动化) 实现网页自动化采集,处理平台反爬、登录态维持、风控规避等工程问题 - 设计采集任务的调度、容错、补采机制,保障数据时效性(日级/小时级) - 将采集数据清洗标准化后入仓,与 ERP 内部数据打通,形成内外数据联动的完整视图 ### ③ MCP 数据服务开发(25%) - 基于 FastMCP(Python) 将数据仓库能力封装为标准 MCP Tool,供各业务 Agent 调用 - 设计 Agent-Friendly 的数据接口:语义化命名、自描述 Schema、合理的参数粒度与返回结构 - 接入统一 MCP 权限引擎,实现字段级访问控制(成本价、利润率等敏感字段按角色精细管控) - 持续优化 Tool 的查询性能与返回结构,降低 Agent 推理错误率 - 与业务 Agent 开发者协作,迭代数据服务接口,支撑运营/采购/财务等场景的 AI 落地 ### ④ 数据治理与产品化(15%) - 推动数据资产化:每张表、每个指标都有明确的 Owner、更新频率、质量 SLA - 建立数据血缘体系,支持影响分析(某字段变更影响哪些下游 Agent) - 与运营、财务、采购等业务团队协作,理解数据需求,快速迭代数据服务 - 参与 AI 数据应用的 Prompt 优化,提升 Agent 调用数据的准确性与稳定性 --- ## 任职要求 ### 硬性门槛(必须具备) - 3年以上数据仓库开发经验,独立主导过完整分层建模(ODS/DWD/DWS/ADS) - 精通 SQL,有复杂查询优化经验(窗口函数、CTE、执行计划分析、索引调优) - 熟练使用 Python,能独立开发数据处理脚本和 API 服务 - 有电商数据开发经验,理解 GMV、ROI、转化率、客单价、退货率等核心指标体系 - 有网页数据采集经验,了解 Playwright/Selenium 等自动化工具,理解动态渲染页面的数据提取方式 ### 加分项(有则优先) - 有聚水潭 ERP 数据接入经验(直接加分,与我们业务高度重合) - 有生意参谋、抖音罗盘、京东商智等平台后台数据采集实战经验 - 有 MCP Server / LangChain Tool / Function Calling 等 AI Agent 数据接口开发经验 - 熟悉 PostgreSQL,了解 pgvector 向量检索 - 用过 AdsPower / 多登 / 指纹浏览器 等多账号管理工具 - 了解 RAG 数据管道(文档切片、Embedding 入库、向量检索优化) - 熟悉 Docker 容器化部署,有阿里云使用经验 - 有宠物、快消、服装等电商行业数据开发背景 ### 软性要求 - 能用业务语言与运营、财务团队沟通,而不只是'给数据' - 有强烈的数据质量意识,对口径不一致、数据漂移零容忍 - 适应快节奏、小团队、高自驱的工作方式 - 对 AI/Agent 方向有真实兴趣,愿意在新技术方向持续投入 --- ## 你将使用的技术栈 | 层次 | 技术 | |------|------| | 核心数据库 | PolarDB PostgreSQL 17 + pgvector(主从读写分离) | | 数据开发 | Python / SQL / FastMCP | | 数据采集 | 聚水潭 OpenAPI / 万邦 API / AdsPower + Stagehand 网页自动化 | | AI 平台 | hipiAI(LobeHub)/ MCP 协议 / New API 网关 | | 模型服务 | Claude / GPT-4o / Qwen3(自有 GPU)/ 百炼 / 火山引擎 | | 部署运维 | 阿里云 ECS + Docker / 云效 CI/CD 流水线 | | 开发工具 | Claude Code(AI 辅助编程)/ 阿里云 Codeup | --- ## 你将加入的环境 数据体量真实 > 2000万单/年的真实业务数据,覆盖10+电商平台,数据够复杂也够有价值。你做的每一张表、每一个 MCP Tool,都在真实支撑业务决策。 AI 基础设施完备 > MCP 服务体系、权限引擎、Agent 框架已成型。你不是从0搭建,而是在一个跑起来的系统上做深度建设,少走弯路,快速出成果。 开发效率极高 > Claude Code 辅助开发,AI 辅助效率是传统开发的3-5倍。标准化模块(ETL脚本、MCP接口、数据清洗)你可以专注在架构设计和业务理解上,而不是重复造轮子。 价值可见 > 你做的 MCP Tool,运营 Agent 第二天就在用。你建的采集管道,选品 Agent 实时在消费。数据工程师的价值在这里不是藏在后台,而是直接体现在业务决策里。 --- ## 常见问题 Q:我没有MCP开发经验,可以投吗? > 可以。MCP是新技术,市场上几乎没有人有完整经验。我们更看重你的数仓工程能力和对Agent数据服务的理解深度。有Python API开发经验的工程师,FastMCP通常1-2周可以上手。 Q:我的采集经验主要是API对接,没有做过浏览器自动化,可以投吗? > 可以。我们有完整的AdsPower + Stagehand工具链,有工程底子的人通常2-4周可以上手。面试中我们会评估你的工程思维和学习潜力,而不只是现有经验。 Q:岗位对宠物行业背景有要求吗? > 没有硬性要求,但有电商行业数据开发经验是必须的。对宠物感兴趣或有养宠经历是加分项——因为你会更容易理解我们的业务场景和用户需求。 Q:团队规模和汇报关系是怎样的? > 数据团队目前处于建设阶段,这个岗位是核心成员。直接向技术负责人汇报,与AI平台开发、运营、财务等团队紧密协作。小团队意味着你的工作直接影响公司决策,没有大公司的层层汇报和螺丝钉困境。
对这个职位感兴趣吗?