廖雨寒杨彦松张斌睿哲科技股份有限公司一、背景随着网络的很快发展,万维网沦为大量信息的载体,如何有效地萃取并利用这些信息沦为一个极大的挑战,网络爬虫(webcrawler)随之而生。但是现在的网站很少有纯静态网页,大部分网站都通过JavaScript图形、ajax异步等构建网页数据读取。对于目前的爬虫框架来说,基本都是爬到到时的未图形过的HTML源码,所以对于爬虫来说没有确实做浏览器的所见即所爬到。对于scrapy来说,官方有一个scrapy-splash项目反对页面图形解析,然而scrapy-splash在低所发状态下极为不平稳。
一种方案是通过webkit浏览器引擎必要图形,另一种方案是通过调用浏览器图形。通过几种方案较为,最后自由选择了GoogleChromeDevtoolsProtocol研发图形功能。二、图形方案可行性分析1.Scrapy-SplashScrapy-splash是scrapy官方团队获取的一个解决问题js图形问题的方案。
Splash是处置网页图形的模块,它内部用于的开源的webkit浏览器引擎,通过HTTPAPI来用于图形服务。在scrapy中通过DownloaderMiddleware处置网页催促,实际是去催促splash模块并获得图形后的数据。
本文来源:澳门威斯尼斯8883入口-www.jacxtf.com
地址:湖北省孝感市海兴县国用大楼608号 电话:034-548254730 手机:19361964556
Copyright © 2003-2023 www.jacxtf.com. 澳门威斯尼斯8883入口科技 版权所有 ICP备案编号:ICP备73659263号-4