RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:8:30-17:00
你可能遇到了下面的问题
关闭右侧工具栏

新闻中心

这里有您想知道的互联网营销解决方案
', re.S)         item_list = pattern.findall(html)           return item_list       def writePage(self, list):         """         以追加的形式存储筛选后的内容         :param list: 筛选后的数据,列表形式         :return:         """         with open(self.file_name, "a", encoding = "utf-8") as f:             for content in list:                 # 段子内容:因为段子中有很多

。。。,还有一些转义字符。在这里作下替换                 content = content.replace("…", "…").replace("“", "“").replace("”", "”")                 content = content.replace(" ", "").replace("\t", "").replace(":", ":")                 content = content.replace("

", "").replace("

", "").replace("", "").replace(" ", "")                 content = content.replace("\u3000", "").replace("\r\n\r\n", "\r\n").replace("\r\n", "\n")                 content = content.strip()                   # 写入一个段子的内容                 f.write(content)                 # 我是分割线                 f.write("*" * 30)       def run(self):         """         让爬虫开始工作         :return:         """         # 循环处理我们需要爬取的页面         for page in range(self.start_page, self.end_page + 1):             # 拼接当前页码page的url地址             url = "http://www.neihan8.com/article/list_5_{}.html".format(str(page))             print("正在下载第{}页".format(str(page)))             # 下载url对应的全部内容             html = self.loadPage(url)             # 筛选数据             item_list = self.screenPage(html)             # 存储筛选后的数据             self.writePage(item_list)   # 主函数 if __name__ == '__main__':     # 让用户输入需爬取页面的起始页码     start_page = int(input("请输入您需要爬取的起始页:"))     # 让用户输入需爬取页面的终止页码     end_page   = int(input("请输入您需要爬取的终止页:"))     # 实例化类对象     mySpider = Spider(start_page, end_page)     # 让爬虫开始工作     mySpider.run()

最后,我们执行上面的代码,完成后查看当前路径下的duanzi.txt文件,里面已经有我们要的内涵段子。

以上便是一个非常精简的小爬虫程序,使用起来很方便,如果想要爬取其他网站的信息,只需要修改其中某些参数和一些细节就行了。

看完上述内容,你们对Python爬虫如何正则表达式有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注创新互联-成都网站建设公司行业资讯频道,感谢大家的支持。


网站标题:Python爬虫如何正则表达式-创新互联
标题路径:http://jxjierui.cn/article/dcospe.html
Top