,
,。。。,还有一些转义字符。在这里作下替换 content = content.replace("…", "…").replace("“", "“").replace("”", "”") content = content.replace(" ", "").replace("\t", "").replace(":", ":") content = content.replace("
", "").replace("
", "").replace("", "").replace(" ", "") content = content.replace("\u3000", "").replace("\r\n\r\n", "\r\n").replace("\r\n", "\n") content = content.strip() # 写入一个段子的内容 f.write(content) # 我是分割线 f.write("*" * 30) def run(self): """ 让爬虫开始工作 :return: """ # 循环处理我们需要爬取的页面 for page in range(self.start_page, self.end_page + 1): # 拼接当前页码page的url地址 url = "http://www.neihan8.com/article/list_5_{}.html".format(str(page)) print("正在下载第{}页".format(str(page))) # 下载url对应的全部内容 html = self.loadPage(url) # 筛选数据 item_list = self.screenPage(html) # 存储筛选后的数据 self.writePage(item_list) # 主函数 if __name__ == '__main__': # 让用户输入需爬取页面的起始页码 start_page = int(input("请输入您需要爬取的起始页:")) # 让用户输入需爬取页面的终止页码 end_page = int(input("请输入您需要爬取的终止页:")) # 实例化类对象 mySpider = Spider(start_page, end_page) # 让爬虫开始工作 mySpider.run()
最后,我们执行上面的代码,完成后查看当前路径下的duanzi.txt文件,里面已经有我们要的内涵段子。
以上便是一个非常精简的小爬虫程序,使用起来很方便,如果想要爬取其他网站的信息,只需要修改其中某些参数和一些细节就行了。
看完上述内容,你们对Python爬虫如何正则表达式有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注创新互联-成都网站建设公司行业资讯频道,感谢大家的支持。
网站标题:Python爬虫如何正则表达式-创新互联
标题路径:http://jxjierui.cn/article/dcospe.html