80 分
幻主简历
从 web 端和移动端收集 818 购物节、国庆以及 2017 年期间聊天机器人器人与客户之间的数据,通过数据清洗(去重和正则化、去噪等方法),应用 PCA 和 Random Forrest 进行数据的降维和选择;
技能:熟练掌握python,有面向对象思想,熟悉Restful Api风格开发,有良好的代码书写规范;熟练使用urllib、requests库,scrapy框架、scrapy - redis分布式爬虫;熟练掌握多进程、多线程爬虫、定时爬虫、增量爬虫、可配置爬虫、掌握BloomFilter优化scrapy - redis去重、数据的清洗、入库;
熟练使用XPath、BeautifulSoup、Css选择器等网页抽取技术,熟练掌握selenium模拟技术;熟悉常见的反爬虫策略,如:UA检测,封ip,ajax动态加载,验证码,字体加密,自动化工具检测;
语言:CET - 4,掌握基本的听说读写能力;