爬虫工程师
Technology
上海市, 中国¥15,000 - ¥25,000 /月2天前截至 2026/7/24
全职
职位描述
该职位来源于猎聘 工作职责: 1、下一代数据摄取系统搭建:设计维护分布式AI爬虫系统,实现全球数百万本地商业节点的发现与索引,基于多模态大模型/视觉模型开发智能解析器,将PDF/图片等非结构化数据转化为MCP就绪的JSON Schema结构化数据; 2、高可用与反爬策略落地:制定对抗Cloudflare、Akamai等反爬机制的稳健策略,保障实时查位数据的新鲜度; 确保商户站点/llms.txt、Schema.org元数据抓取&验证成功率达99.9% 3、搭建数据流水线,将本地商业“意图”(如求婚安静场所)嵌入Milvus/Qdrant向量数据库,为语义搜索功能提供底层技术支撑。 任职要求: 1、 3年以上Python/Go开发经验,精通Scrapy/Playwright/Puppeteer爬虫框架; 2、具备JS重度渲染站点、App协议逆向工程的实战经验; 3、LLM驱动的数据处理能力:有大模型做数据清洗、结构化的落地经验 ,掌握解决LLM数据解析中“幻觉”问题的方法; 4、熟练使用Kafka/RabbitMQ做任务调度,Redis做数据去重/缓存,懂分布式系统的设计与维护逻辑; 5、对数据质量有较高要求,重视数据准确性与规范性;
6、认可“AI时代数据是新TCP/IP”的核心理念。
Keywords
monthsOfExperience: 36AsciiDocSCHEMAPython
对这个职位感兴趣吗?