none.gif

zhisan02

支持,辛苦大佬了

1194712.jpg

非典型废宅

B94F  2021-04-10 05:55
(从不畏惧,也从不后悔)

回 90楼(Shawn H.) 的帖子

正则引擎的差异还是有些影响的,不少功能实现起来会有差别。txtFormat的的地得修正就是纯正则完成的,但是这样性能不好容易卡,换成别的肯定不会这么实现。

比如我要整一个替换对话内人称,如果支持不定长逆序环视那一个式子就可以,但是不支持的话就得用replace的回调函数先用分组获取对话内内容,再对获取到的进行替换。

再比如我说的软件提供的ReplaceAll会默认把换行转换成对应的\r\n或者\r,而replace就得先全文统一一遍。但是ReplaceAll只能替换全文,不能处理其他,而replace可以处理所有字符串。

a9.gif

cdc96902

大佬你可真牛逼

3.gif

Shawn H.

刚翻到你那篇攻略教程,只能说一句牛逼!发动群众的力量,比一个人单打独斗要好多了。

因为前段时间遇到了我喜欢的一个零几年开创的小众网站改版,很多文章都丢失了,追悔莫及,迫使我转变了思路。
之前我都是从首发网站上扒下来马上校对,浪费了大量时间。但对于一些有潜在关站风险的小众网站来说,时间就是金钱,先扒下来再说,毕竟只要保存好首发版本什么时候校对都行,而且校对软件还有完善的空间也不急。
今天再登上去一看果然挂了。

所以后来我的思路变成了,保留一个包含文章名作者首发网站的列表,方便遇到别人推书时好查询,而像sis会所春满之类的,就先不急着扒,流传极广也不担心找不到。方向先放在性吧pixiv和小众网站这类随时可能转收费或者作者自删或者有潜在关站风险的网站。

然后我就经常遇到很多老文章,查询不到作者或者首发网站,大部分sis会所都有作者记录,但无首发网站;春满相对比较规范,不少转载有首发网站,不久前春满貌似改了规则,低级用户无法进入转载区,苦恼,暂时也没有升级的路子,倒和心海物恋差不多。

看你提到了王鹏,那我可不困了,那可是我最爱。上古网站关了也就算了,错失贴吧时代更为可惜,不仅看不到原版,而且有不少文章也遗失了,不知你是否有线索?
我当初也查了很久,发现春满的478030806大概率是shine假名字的马甲,下面分别是我收集到的写王鹏的原作和同人,不过全是催眠绿文哈哈!

【妈妈的「特殊任务」】★【1-2停更+续3停更】作者:shine(478030806@春满四合院)&nicon1@色中色
【我们家的鲜奶快递员-王鹏番外篇】作者:shine假名字@催眠book
【王鹏番外篇 李刚的母亲节礼物】作者:shine假名字@催眠book
【王鹏篇:被催眠的姑姑一家】作者:shine假名字@催眠book
【王鹏篇:被我同学催眠的一家人】作者:shine假名字@催眠book
【王鹏篇:表嫂的堕落婚礼】作者:shine假名字@催眠book
【李刚家的待客之道】★【1-2停更】作者:shine假名字@催眠book(478030806@春满四合院)

【王鹏番外之李刚复仇】★【1-2停更】同人:w916320814@第一会所
【王鹏篇之极品家丁】★【停更+续2】同人:xiaojunjua@第一会所&x2218139@色中色
【王鹏续篇】★★【1-2停更】同人:傻西(770880520xxx@伊莉@色中色)
【王鹏番外之李刚复仇】★【续2-5停更】同人:忘情(fm924312896@第一会所)
【被王鹏催眠的教师美母】【1-11完结】改编:仓鼠君
【催眠后视镜】★【1-10停更】作者:绿帽迷(derksen@春满四合院)
【催眠系列】★【1-2+3付费】作者:触手君@pixiv
【催眠眼镜之女刑警】★【1-4停更】作者:不同(wukai508@色中色)
【鲜奶快递员改编版】★【1-5停更】改编:最爱不过老婆尿@第一会所

以上是我收集文章的名称格式习惯,继承于sis,加入★表示来源首发,再加上首发网站,方便检索归档。搜索我用的也是FileLocatorPro,外加Listary和Everything。标签软件我一直没找到理想的,暂时用着FenrirFS,理想系统是e-hentai那种(遥不可及)。
本来看你搞的母系小说征集弄得我心痒痒,还有绿改纯这个大工程,可惜我来者通吃、口味要重的多,也不知道你对其他类型的文章感不感兴趣,有没有一些上古文章的线索。
总之一句话,速与我击剑,同好多交流。

a1.gif

你知道我

支持

1194712.jpg

非典型废宅

B98F  2021-04-10 21:30
(从不畏惧,也从不后悔)

回 96楼(Shawn H.) 的帖子

上古文章的线索我也没多少,除了元元图书馆算是比较完整的保留下来之外其余的均是零落的一点点,倒是SIS、001几个站点有几个关于色文历史的记录帖子,诸如熊猫史官录之类的记载,虽然对找书源没有太大帮助,但也可以了解到相关信息。

如果是以先收录后排版的思路的话,建议还是整爬虫,不急着来可以慢点,或者做一个插件每次看见更新点一下自动扒下来,不是很难,虽然我还没做。

至于标签管理,因为我只收集母系纯爱的,所以标签基本起不到相应的作用,主要是我时常翻出来更新整理,有时还移动位置。

归类的话比较简单,作者名为文件夹,下面放每部作品。仅有一个作品的直接放目录下。有多个来源的以作品最全的为主。发布的具体信息在文件头部,包含发布网址和时间以及ID,如果章节分开发布的话都保存。

1194712.jpg

非典型废宅

B99F  2021-04-10 21:41
(从不畏惧,也从不后悔)

回 96楼(Shawn H.) 的帖子

另外绿改纯其实不咋火,但就是觉得好玩,挺有趣的,正好顺便学习开发脚本,另外有些绿文肉戏是真的顶。而且绿母文本身有隐藏的NTR属性,所以稍微没那么违和。主要还是换人这个操作,其他的技术性操作没太高要求。

倒是还需要个用来修改细节的词库功能方便细节处定位修改,这就是水磨功夫了,得慢慢来,比如常见的拍照录像胁迫的特征都挺明显的,可以直接搜索,但词库包含的范围又需要一定的取舍,太大准确度降低,太小容易漏。

比如我现在暂时是这个:
(拍[照摄下的]|[自开实合偷抓]拍|[合艳裸]照|照[相像]|[相照图]片|光[盘碟]|录[音像影制下了]|[摄烧记纪刻]录|[视音]频|[影摄]像|影[音片]|胶[卷片]|数码|底片|监控|镜头|播放|内存|存储|MP3|MP4|[U优]盘|发来|微信|信息|笔记|[贴帖][文子]|日记)

单纯的词库还行,更进一步的用EverEdit的脚本来做就有些力不从心了,现在还在想用什么搞。有些地方还是需要用到NLP相关的,我技术又差些,只能慢慢来了。

3.gif

Shawn H.

回 99楼(非典型废宅) 的帖子

也只能从UZI那几篇来了解历史了,像羔羊、无极、海岸线、恶魔岛之类上古站的我也没查到什么合集,按理说主动关站前肯定会备份出来的,我想春满论坛管理肯定有,毕竟算是一脉继承下来的,但文海拾貝转载区目前是进不去了,烦~

绿改纯先不说替换修改效果如何,在大多数人看来都算是异想天开,母系虽然不算我的最爱,但还是十分佩服。
要想达到理想效果,我光想想都能猜工作量得有多大,一发而动全身,为了不违和肯定越改越多,而且得纯人工修改,感觉是个死胡同,只能靠爱发电。
另一个方向就是像许仙一样重写,虽然效率低,但效果完美。还是投奔我大牛头人的怀抱吧哈哈~

爬虫我也一直有意尝试,不过还没搞清楚最终效果能达到多好?
如果要直接扒成txt的话感觉内容还需要大量人工整理删除,毕竟有很多连章节都不写。
感觉只能扒成离线网页,提前做个备份,最后还是靠手工。
这让我突然想到很久之前的疑问,Everedit能做到替换累加吗?替换成第1章、第2章……

刚好昨天遇见个问题请教一下:正则匹配多行。
A[\s\S\n]*B,这样写只能匹配两行。
A[\s\S\n]*[\s\S\n]*[\s\S\n]*B,匹配四行,[\s\S\n]*多了Everedit也会卡死。
如何才能匹配若干行?

感觉这两个问题解决了,爬虫就方便多了。

a15.gif

robber_10

支持

1194712.jpg

非典型废宅

B102F  2021-04-12 12:36
(从不畏惧,也从不后悔)

回 100楼(Shawn H.) 的帖子

所以说啊小伙子你思想还没转变过来。

都用爬虫了,为什么还纠结于EverEdit本身呢?它本来就不是用来干批量处理的,而且它那个很有点迷的正则引擎也是怪的一批。

你打开排版助手写的就会发现他都没用过EverEdit自带的正则提供的ReplaceAll,全都是JavaScript的replace和各种函数组合实现功能的。

回到你的这个问题,换行那是EverEdit本身引擎的问题或者说特性,所以我用JavaScript的replace。
保存到Everedit\macro\test.ejs,直接一句:
ActiveDoc.Text = ActiveDoc.Text.replace(/A[\s\S]*?B/g, 'AB');
就完成了。
有些支持单行模式的直接.*都可以。话说这个单行模式和多行模式真不知道哪个鬼才翻译的,根本没得逻辑好吗?!

爬虫程序本身会提供正则及其他字符串方法,也是借此才能实现批量初始化,当然这就得靠你自己写了。

比如看起来很麻烦的章节递增,那是因为正则本身没有逻辑运算的功能,那排版助手的@1-9+Tab快速生成1-9章怎么实现的?输入的数字直接~~转换成数字类型,然后for循环输出即可。

类似的,你用EverEdit排版遇见比较大的任务量,最简单的录制宏就行,细致一些可以把写好的函数借过来,再更细分你直接自己写都行,零基础像我这样的最多一个星期也基本能实现自己要的需求了,这里边还有至少一大半的时间是因为教程没说需要自己尝试的各种特性。

举个例子,我修改绿文常常需要备份,按时间作区分,怎么快速备份呢?
首先获取文件路径,用ActiveDoc.PathName,再用lastIndexOf('\.')将路径拆分开。
用new Date获得时间,再分别getHours等等,和前面路径拆分的结果拼接成字符串,得到了副本的绝对路径。
然后用文件流写入文本,CreateObject('ADODB.Stream'),写入完就创建完成了。
或者前面用CreateObject('Scripting.FileSystemObject'),路径和文件名文件扩展名直接获取,更省事。
自己用不需要那么多反馈,不需要提醒保存之类的,满打满算差不多就二十多行。

再举个例子,绿文替换人称,对话外的很好操作批量环视否定就行,但是对话内要用到环视肯定,EverEdit不行,脚本又不能逆序环视,怎么办?
replace搜索整个对话,再用回调函数获得匹配到的对话内容,再用replace替换一遍匹配结果得到处理好的用来替换的文本,同时统计替换的次数,回调函数结束返回用于替换的文本。
虽然取了巧,但也实现了功能,然后有的对话会用到别的左右边界,那就把上面的部分做成函数,然后后面传入不同的左右边界,也很简单就完成了。

所以说真打算走爬虫了就直接一步到位,把基础的无需确认的重复操作都写成一句句代码就好,不要让它占用你宝贵的时间。如果一个工具不能完成需求,那就再来一个工具。

a13.gif

differ

B103F  2021-04-12 13:11
([sell=] 搜书吧密码已换 [/sell])
卧槽,牛批,支持一下,来源挺全

none.gif

de5f971f

lv文多搞点啊

none.gif

mewfly

大佬厉害 支持一下 说来惭愧 母系看了些 基本都看完就删 也不记得啥了  

a12.gif

随便君

B106F  2021-04-12 13:44
(冥洛)
这么牛逼吗

3.gif

Shawn H.

回 102楼(非典型废宅) 的帖子

原来如此,还有很多需要了解学习的。

我测试了一下,AB没问题:ActiveDoc.Text = ActiveDoc.Text.replace(/A[\s\S]*?B/g, '');
但根据需要调整后就失效了:ActiveDoc.Text = ActiveDoc.Text.replace(/待續[\s\S\n]*?點評/g, '');
应该是中文不认,保存格式改成Chinese Simplified也不行。改成UTF-8+BOM就好了。
另外,这样写一键的话如何保证不会删错,毕竟有多个AB,如果少个B就多删了。

把多个排版功能整合成一键宏的话倒是没用过,我主要使用五个排版功能,也不是每次都一样。还是说有什么更高级的玩法?
平时我在用Quicker来减少些微小的操作量。

爬虫我去了解了解,不过明明我是要收集校对贴标签归档我喜欢的文章,最后逐渐变成扒下来连看都懒得看了。

911417.jpg

啸逸华

支持

三日月鸣


noroizundere


1194712.jpg

非典型废宅

B111F  2021-04-12 20:00
(从不畏惧,也从不后悔)

回 107楼(Shawn H.) 的帖子

如果只是为了防止错删的话直接这样就行:
.replace(/A[^AB]*B/g, 'AB');

仅仅只是限制跨行的话这样写就行,不过两个AB比较近可能就吞掉了,因为主要问题是对匹配范围较大的.*没做限制:
.replace(/A(.*?\n){0,5}.*?B/g, 'AN');

如果要限制多个连续字符如待续之类的建议还是用环视循环否定,AB为左边界,BC为右边界:
.replace(/AB((?!AB|BC)[\s\S])*BC/g, 'AB-BC');

至于什么高级玩法倒也没有,就是写成脚本或者宏比较灵活,可以自定义输入,不用改来改去。而且有反馈,比如我选区内替换后会显示替换了多少项。

再例如你要的删除AB之间的内容,我可以做成在替换完成后提醒还有多少个A和多少个B,可能存在嵌套等等。或者替换时保存删除内容,然后在新窗口按行号显示删除内容,防止错删。

我现在做词库替换就是在原文显示替换内容如【A→B】,然后大纲区显示,点击跳转,选中不需要的替换【C→D】,点击做好的脚本还原成C,剩下的全选再点制作好的脚本全部执行。

a12.gif

淫痒快线

回 14楼(许仙曰过蛇) 的帖子

大佬,等你更新

none.gif

个Tokyo

牛比

3.gif

Shawn H.

回 111楼(非典型废宅) 的帖子

感谢技术大佬
还有那么多高级操作?!我要学!应该从哪入手?果然GHS是第一生产力
看了下Everedit的在线帮助,东西不多;看了一上午JavaScript基础,不知要用哪些;在大纲区显示信息,应该和app.check.js还有app.outline.js类似吧,太复杂看得我头大。

12io592.jpg

印~痕

大佬nb

想飞的鱼头


1216545.gif

落雨无形

B117F  2021-04-13 13:27
([sell=0][/sell])
这个工作量不是一般大

otkg


624282.jpg

5e91a1f2

这个绝对要支持一下!!!

1194712.jpg

非典型废宅

B120F  2021-04-13 18:55
(从不畏惧,也从不后悔)

回 114楼(Shawn H.) 的帖子

大纲区显示很简单的,一个是用数组存储每个条目,一个是写入临时文件再用OpenOutlineFile就行了,然后遍历每行就行了,他是有不少你用不上的内容所以特别多。

主要是这两个:app.check.js和fs.js。

剩下的你对照着一点点实现,慢慢试多了几次就上手了,我也只是学了没两星期。

a15.gif

幻想之狐

支持

none.gif

owea_f

B122F  2021-04-14 13:02
(oweafalt_f)

回 楼主(非典型废宅) 的帖子

提个建议
GD当某个文件夹下文件数量过多的话,加载效率非常的低,到后面基本就只能用搜索功能来检索,目录基本没用
所以像这样增补删改,文件数量大,又要协作,推荐上git (或者其他版本控制软件
同时保留Google表单和网盘的提交方式,这样不会用github的朋友也能参与进来

1194712.jpg

非典型废宅

B123F  2021-04-15 03:17
(从不畏惧,也从不后悔)

回 122楼(owea_f) 的帖子

谢谢提醒,但是……都没人推荐啊!本地端的版本控制我倒是可以整一个,这两天抽空看看吧。