其他企业 信息传输、软件和信息技术服务业 50-200人 浙江省杭州市萧山区
面议 浙江省杭州市萧山区 全职 本科及以上 2人 2025-11-30
2025-10-11 10:05:38
【岗位描述】
负责设计和开发网络爬虫系统,进行多平台的信息抓取和分析
根据网页特性设计独特的爬虫策略和防屏蔽规则,不断优化提升数据抓取的效率和质量
完成并管理数据的清洗、结构化、入库、统计分析等全流程
具有分布式爬取经验,能够保证项目的正常运行,实时解决出现的问题,确保项目的平稳、高质量运行
【任职要求】
精通至少一个爬虫框架(如Scrapy)或有相关实现,熟悉多线程,分布式爬虫的设计和实现,能处理大规模数据获取和处理的技术挑战
熟练掌握基于正则表达式、XPath、CSS等网页信息抽取技术
熟悉了解HTML、CSS、JavaScript,熟练掌握JS逆向、断点调试、HOOK等技能
熟悉常见的反爬机制,验证码识别
掌握熟练至少一种SQL语言,了解数据库优化策略,设计过千万级的表结构为加分项
职位类别:计算机软、硬件/互联网/IT
专业要求:不限
请稍候...