星期一

python利用字典爬取网页

 我们有一个包,叫做pycrawler,利用这个包可以放心地爬取网页数据,利用的是chome的内核,在启用此爬取器时,首先要生成一个map来设定爬取规则,爬取器会自动利用此爬取规则进行爬取网页数据,当网站是静态的get请求时你只需要一个规则就可以爬取指定数据,包还会自动帮你去除某些网站里的多余空格和<br/>。

包内还含有数据扁平化工具,如果你需要此包,请联系我。



cMap={
    'table,sokuho_tb1':{
        'tr':{
            'none':'none',
            'td':{
                'none 0':'none',
                'none 1':'none',
                'value':Ii('allmoney',lambda x:x.replace(',','').replace('元',''))
            }
        }
    }
}
如上所示这样一个map会自动寻找一个叫table且class为sokuho_tb1的元素,然后在第一个符合该条件的元素下寻找tr元素,并在第2个符合该条件的元素中寻找td元素,并获取第三个td下的值,此值将会经过一个自定义过滤器,去除文字中的逗号和‘元’字。

没有评论:

发表评论

 皆さんこんにちは、リュウタツと申します、中国から来ました、AIデザイン学科の一年生です。 私のテーマは「極東の地」です。 実に中国では日本といえば日中戦争を思い出すでしょう、日本に来る前は日本人ってまだ敵なのかな、仲良くできるかなっと思いました。ようやく、去年の4月にこの極東の...