天魔失坠!


0dc42fca


none.gif

50d4f473

马克

none.gif

TokyoEto

amzaing

none.gif

HighGrooce

B66F  2021-01-20 16:36
(。。。)
来学习技术

none.gif

岁月时代

marl

696622.png

国际娱乐机器

果然搞黄色才是第一生产力,我从大二就开始想自学编程,几年下来连入门都没学完。
几个月前下黄小说的时候觉得实在太麻烦了,于是开始学习写爬虫。
和大家分享下我用来爬黄网小说的爬虫。
复制代码
  1. import requests
  2. import re
  3. import os
  4. # 输入链接地址
  5. short_url = input('short_url: ')
  6. url = 'http://www.dierbanzhu1.com/%s' % short_url            # 链接地址
  7. response = requests.get(url)                                # 请求网页响应
  8. response.encoding = 'gbk'                                    # 重编码 charset
  9. html = response.text                                        # 保存网页响应
  10. dl = re.findall(r'<dl>.*?</dl>',html,re.S)[0]                # 获取章节数据
  11. chapter_info_list = re.findall(r'href="(.*?)">(.*?)<',dl)    # 获取章节列表
  12. novel_title = re.findall(r'<meta property="og:title" content="(.*?)"/>',html)[0]
  13. def mkdir(path):                    # 新建文件保存小说内容
  14.     folder = os.path.exists(path)
  15.     if not folder:                    # 判断是否存在文件夹如果不存在则创建为文件夹
  16.         os.makedirs(path)            # makedirs 创建文件时如果路径不存在会创建这个路径
  17.         print("新建文件夹……")
  18.         print("新建文件夹完成")
  19.     else:
  20.         print("已有文件夹")
  21.         
  22. file = novel_title
  23. mkdir(file)
  24. #获取每章节信息
  25. for chapter_info in chapter_info_list:
  26.     chapter_url = chapter_info[0]                                #章节链接地址
  27.     chapter_url = "http://www.dierbanzhu1.com%s" % chapter_url    #章节网页响应
  28.     chapter_response = requests.get(chapter_url)                #重编码
  29.     chapter_response.encoding = 'gbk'                           #保存响应
  30.     chapter_html = chapter_response.text                        #章节标题
  31.     chapter_title = re.findall(r'<h1>(.*?)</h1>',chapter_html)[0]                    #章节内容
  32.     chapter_content = re.findall(r'<div id="content".*?</div>',chapter_html,re.S)[0]#清洗文档
  33.     chapter_content = chapter_content.replace(' ',' ')
  34.     chapter_content = chapter_content.replace("<br />",' ')
  35.     chapter_content = chapter_content.replace('<div id="content">',' ')
  36.     chapter_content = chapter_content.replace('</div>',' ')        #保存文档
  37.     fb = open(novel_title + '/' + '%s.txt' % chapter_title, 'w', encoding='utf-8')
  38.     fb.write(chapter_title)
  39.     fb.write(chapter_content)                                    #完成提醒
  40. print('完成')

http://www.dierbanzhu1.com/ 打开小说后,将url最后一部分输入即可下载。

kur1su


空与白


4.gif

おまんこ

好东西mark

186804.jpg

Snake

来学习驾驶技术

none.gif

兰州拉面

先顶起,回家再研究

暴走大西瓜

B74F  2021-01-20 17:12
          

神秘的狗蛋


1330353.jpg

bluemoonsky

B76F  2021-01-20 17:51
(打工仔繁忙中,茶馆随机上线 (PД`q。)·。'゜)
我发现我前几天写给一个茶馆老哥的黄油下载管道分享被删了
我可以重写在这一贴里吗?

none.gif

adblock0

B77F  2021-01-20 17:54
(104836183)
引用
引用第77楼c7553675于2021-01-20 17:51发表的  :
我发现我前几天写给一个茶馆老哥的黄油下载管道分享被删了
我可以重写在这一贴里吗?


如果是被管理员删了,你最好还是先问问哪里违规了

f52ea63b


1330353.jpg

bluemoonsky

B79F  2021-01-20 17:57
(打工仔繁忙中,茶馆随机上线 (PД`q。)·。'゜)

回 78楼(adblock0) 的帖子

好我这就去问,我不知道是他的贴子被管理员认为是询问类删帖,或是我的内容违规

19990609


130139.jpg

566b862c

各位大佬开火车的技术是真的棒。。。

hana


05c850e9


828938.png

风间琉璃

厉害,我等等也整一个开车小技巧

556c83b3


瓜皮超人


树是山的苔藓


新月惹人思


none.gif

bd7e31ed

宝藏帖子,马克了     

none.gif

suzumi

牛逼      mark!

a15.gif

328f618b

马????

none.gif

涩涩发抖

B92F  2021-01-20 20:17
(我是一个路过的萌新。)
mark