业务方向：负责企业级数据大脑的基础设施建设，从 0 到 1 参与多源分布式数据采集与服务化平台的架构设计。岗位职责 1.多源多模态数据采集：负责设计与维护针对境内外多渠道的数据采集系统（包括但不限于主流招聘平台、国内外科技论坛、财经/股票数据、等），解决反爬、验证码、动态加载等技术瓶颈。 2.数据清洗与结构化：对采集到的非结构化文本、资讯及行业数据进行高质高效的清洗、去重与结构化处理，为后续数据分析及 AI 智能体（Agent）提供可靠的数据源。 3.Web 平台开发：使用 FastAPI 框架开发高并发、低延迟的数据 API 接口与后台管理系统，实现采集任务的动态调度、日志监控与服务化输出。 4.云原生部署与运维：负责数据系统在 Linux 环境下的基础部署，编写高效的 Dockerfile / Docker Compose，配合团队完成服务容器化、跨节点网络配置及基础数据库维护。任职要求 1. 核心技术栈（硬性条件）精通 Python 编程：具备 3 年以上 Python 实际开发经验，对异步编程（asyncio）有深入理解。 2.熟练掌握 Web 框架：熟练使用 FastAPI（或熟练使用 Flask/Django 并能快速迁移至 FastAPI），具备优秀的 RESTful API 设计能力及性能调优经验。 3.扎实的 Docker / Linux 功底：熟练编写 Dockerfile，掌握 Docker 容器化部署及基础网络配置；熟悉 Linux 常用命令，能独立完成服务日志排查、性能监控及基本的 Shell 脚本编写。 4.数据存储基础：熟练掌握至少一种关系型数据库（如 PostgreSQL/MySQL）和非关系型数据库（如 Redis/MongoDB），具备基础的 SQL 编写、索引优化与命令操作能力。数据采集经验 1.多场景采集能力：熟悉多线程、异步网络请求（如 httpx, aiohttp）及动态网页解析（如 Playwright, Selenium）。 2.策略防封：熟悉 IP 代理池、Cookie 持久化维护、Header 混淆等反爬对抗策略，能够针对不同网站特性设计合理的非实时/定时异步采集策略。 3.涉猎广泛：具有招聘平台、股票财经、国外 IT 社区（如 Stack Overflow, Reddit 等）其中一类或多类网站的数据采集与结构化清洗经验者优先。综合素质 1.架构思维：具有良好的代码规范（遵循 PEP8 规范），注重面向对象设计与代码的复用性。 2.自驱力：能够独立分析目标网站的请求逻辑，具备较强的排查、解决问题的能力。加分项： 1.熟悉 Docker Swarm 分布式集群部署或 Portainer 容器管理工具。 2.熟悉常见的任务调度框架（如 Celery, APScheduler）。 3.熟悉大语言模型（LLM）数据预处理流，或有 AI Agent 基础设施建设经验者优先

Python 开发工程师（数据采集与 Web 平台）

职位描述

相关

相关