Python 开发工程师(数据采集与 Web 平台)
河南东微电子材料有限公司职位描述
业务方向: 负责企业级数据大脑的基础设施建设,从 0 到 1 参与多源分布式数据采集与服务化平台的架构设计。 岗位职责 1.多源多模态数据采集: 负责设计与维护针对境内外多渠道的数据采集系统(包括但不限于主流招聘平台、国内外科技论坛、财经/股票数据、等),解决反爬、验证码、动态加载等技术瓶颈。 2.数据清洗与结构化: 对采集到的非结构化文本、资讯及行业数据进行高质高效的清洗、去重与结构化处理,为后续数据分析及 AI 智能体(Agent)提供可靠的数据源。 3.Web 平台开发: 使用 FastAPI 框架开发高并发、低延迟的数据 API 接口与后台管理系统,实现采集任务的动态调度、日志监控与服务化输出。 4.云原生部署与运维: 负责数据系统在 Linux 环境下的基础部署,编写高效的 Dockerfile / Docker Compose,配合团队完成服务容器化、跨节点网络配置及基础数据库维护。 任职要求 1. 核心技术栈(硬性条件) 精通 Python 编程: 具备 3 年以上 Python 实际开发经验,对异步编程(asyncio)有深入理解。 2.熟练掌握 Web 框架: 熟练使用 FastAPI(或熟练使用 Flask/Django 并能快速迁移至 FastAPI),具备优秀的 RESTful API 设计能力及性能调优经验。 3.扎实的 Docker / Linux 功底: 熟练编写 Dockerfile,掌握 Docker 容器化部署 及基础网络配置;熟悉 Linux 常用命令,能独立完成服务日志排查、性能监控及基本的 Shell 脚本编写。 4.数据存储基础: 熟练掌握至少一种关系型数据库(如 PostgreSQL/MySQL)和非关系型数据库(如 Redis/MongoDB),具备基础的 SQL 编写、索引优化与命令操作能力。 数据采集经验 1.多场景采集能力: 熟悉多线程、异步网络请求(如 httpx, aiohttp)及动态网页解析(如 Playwright, Selenium)。 2.策略防封: 熟悉 IP 代理池、Cookie 持久化维护、Header 混淆等反爬对抗策略,能够针对不同网站特性设计合理的非实时/定时异步采集策略。 3.涉猎广泛: 具有招聘平台、股票财经、国外 IT 社区(如 Stack Overflow, Reddit 等)其中一类或多类网站的数据采集与结构化清洗经验者优先。 综合素质 1.架构思维: 具有良好的代码规范(遵循 PEP8 规范),注重面向对象设计与代码的复用性。 2.自驱力: 能够独立分析目标网站的请求逻辑,具备较强的排查、解决问题的能力。 加分项: 1.熟悉 Docker Swarm 分布式集群部署或 Portainer 容器管理工具。 2.熟悉常见的任务调度框架(如 Celery, APScheduler)。 3.熟悉大语言模型(LLM)数据预处理流,或有 AI Agent 基础设施建设经验者优先
对这个职位感兴趣吗?