none.gif

32aa5045

支持大佬

1fbec4e1

B63F  2021-03-09 12:03
      

none.gif

99113

Re:[征求]母系小说整理的一点厉害事

厉害啊

none.gif

99113

Re:[征求]母系小说整理的一点厉害事

可以的

none.gif

ff0c2712

支持

1194712.jpg

非典型废宅

B67F  2021-03-09 20:46
(从不畏惧,也从不后悔)
有谁可以提供一个示范修改的短篇绿文嘛?教程在写了。

1194712.jpg

非典型废宅

B68F  2021-03-10 12:04
(从不畏惧,也从不后悔)
教程快完成了,就是正则的教程写起来费时间。还没有人推荐一个示范用的文章嘛?

none.gif

fa35b9fc

卧槽。。大佬牛批,,mark一下

新泽雪冬


198119.jpg

秩序岛

B71F  2021-03-10 14:42
(勿慷他人之慨,不要轻易替别人说简单。)
楼主辛苦了!

427465.jpg

熊猫绅士

我的天,老哥真是母系大佬啊,给大哥跪了,马一个

none.gif

victor

支持

none.gif

萌虎的胖次

牛啤啊

none.gif

哎呦子曰

大佬厉害

none.gif

新泽雪冬

首先感谢大佬的付出!
建议整理个目录,后面附上tag,方便查找对胃口的类型

1194712.jpg

非典型废宅

B77F  2021-03-14 18:18
(从不畏惧,也从不后悔)

回 76楼(8f383e88) 的帖子

tag这个整不了啊,我现在是按照来源和作者整理的,tag不好搞,而且工作量太大。

1194712.jpg

非典型废宅

B78F  2021-03-14 22:55
(从不畏惧,也从不后悔)
算了正则稍微放一放,其他的可以先整完。

3.gif

Shawn H.

哈哈,遇见同好了,可以交流交流。

以前我和你一样,纯粹个人爱好收集整理,觉得SIS的TXT区完美,后来发现那里整理的文章一塌糊涂。都是被35字排版毒害的,SIS会所春满都这样,遗毒从上古蔓延至今,一帮不会用排版软件的把正常文章转成35字再整理回来,那画面太美不敢看。

没办法强迫症只有亲自校对,现在只整理首发文章,遇到过最多同时四五个网站首发的作者,我还一个一个版本校对。外加溯源找到老文章的作者及首发网站(转载、二道贩子之类的一边去,连作者首发都不写而且瞎排版),为了精较还被迫学了正则。

Dreamedit我用了六七年才发现Everedit,已经帮忙测试了一年多,对于不少作者不良写作习惯,提议增加了标点缺失检测等功能。Everedit自定义功能那是相当强大。

文本对比我用的是BeyondCompare,不过还不够智能用起来不爽,不知道有无更好的替代。

再给你增加些无聊的站点哈哈@蔷薇后花园@黑沼泽俱乐部@M系@艾利浩斯学院@禁忌书屋@一人堂@Xocat@唯爱足@爱露出@18P2P@拉吉伊星球@痴汉俱乐部@91论坛@SS同盟@臭鼬娘,外加已经关站的@风月@羔羊@元元@巨豆等等,希望有热心网友提供老文线索。
不过要是纯母系大半用不到,毕竟母系甚微。

杏吧、pixiv、伊莉我倒是过了一遍了,有的为了重新精较还去过了第二遍,不过都是自己感兴趣的文章,一个个整理是真的累,逼得我都想试试爬虫了,不过爬完还是得校对。

先写这么多,遇到个搞大项目的仓鼠同好不容易啊,速与我击剑(划掉),啊不是,是交流技术。

405475.jpg

无聊的冷蔷

支持,辛苦大佬了

1194712.jpg

非典型废宅

B81F  2021-04-08 21:40
(从不畏惧,也从不后悔)

回 79楼(Shawn H.) 的帖子

文本对比的话word的合并/比较更细致一些,会在原文上显示每个不同的字符,可以手动选择是否接受修改,合并的话个人最喜欢这个。

SIS的TXT打包区还是可以的,至少格式没有大问题,极少数有部分内容存在双引号的毛病,电子书板块和藏经阁更好一些,可能是因为电子书板块门槛更高吧。另外几个自行上传的板块倒是质量一般,跟市面上的没啥区别。

35字符转换回来现在来看其实问题没多大,直接正则删除位置在第36且为换行的字符就行,此外的双引号转换、全角数字英文符号都可以批量修正无需手动处理。最大的问题还是作者不规范,再就是转载者的问题。

至于后面的站点感谢补充,虽然大多应该是用不上了。关站了的那更多了,都考据不过来。

7bcc5b09


1008655


595895.jpg

善恶相抵

厉害

324972.jpg

丧心病狂

大佬牛逼

3.gif

Shawn H.

回 81楼(非典型废宅) 的帖子

word试了一下,有点作用,可惜的点是没法看到字字对比,文本对齐不理想,只能适用于衍生版本合并校对,差距太大就不行了。

BC可以字字对比,对分段不理想 ;word正好相反。

TXT打包区粗看没毛病,但细究要看打包区来源和比较对象。

如果来源是论坛里已经被糟蹋过一遍的35字版本,你也拿这个来源去验证的话肯定什么都看不出来;要对比就必须用作者原版,就会发现打包区基本上是把已经混乱的35字无脑反向恢复罢了,将错就错从不校对。

要是想要精较的话sis和会所版本肯定是第一时间抛弃的,只能作为对比版本,春满稍微好点,毕竟是纯文学网站,不过是繁体,也只能作为最后的选择。

这都是我拿pixiv、伊莉、性吧等作者原版和sis、会所、春满的强制35字版本(还都是作者首发的,转载的就更不用说了)对比得出来的,其中sis、会所当然也有比较认真负责转的35字挺好,甚至会把错字标点修复;

但更多的是排版软件用不熟的热心会员为了赚金币,版主也不检查,主要是18年Everedit出来之前(近几年稍微好点),把好好的文章转的一塌糊涂,且不可逆,缺字少标点都还算小事,之后用Everedit的分段反向都无法恢复,顶多用正则修个大概。

到目前对比了400+篇2个首发以上的版本,已经对35字反人类排版深恶痛绝,早该淘汰了。即使接着沿用,也不应该让普通会员排版,甚至不能让新手作者排版,毕竟现在用Everedit只需要几秒就能排好,作者还开发了线上版。

发了这么多牢骚勿怪,另外,我看到你写要用txtFormat查找不规范符号,查找不匹配双引号,查找半角标点符号,这些Evereidt应该都能完成,还是说txtFormat有什么比较好用的功能(内置正则?),有的话我也试试。   

none.gif

7c413253

大工程 支持一下

1194712.jpg

非典型废宅

B88F  2021-04-09 14:55
(从不畏惧,也从不后悔)

回 86楼(Shawn H.) 的帖子

EverEdit的双引号检测没有txtFormat的强。也不是别的原因,用的正则引擎不一样,所以实现出来的效果比不了,问过作者说引擎差些所以参考了但没有照着用。

EverEdit的排版助手用的JavaScript脚本,我也不知道具体哪个版本的标准,但是脚本用的正则引擎比较弱。至于软件本身的正则引擎又过于混沌,不过比脚本支持的JavaScript强一些,虽然脚本里也可以用,但有各种麻烦,所以最后也没办法。

用JavaScript自带的正则有replace、match、search、test、exec之类的函数,实现功能容易很多。而EverEdit软件本身封装好的只有ReplaceALL、FindAll、FindNext几个,看似没少多少,但不适合做脚本,支持的对象也少很多,所以最后还是只能用replace来进行处理。

不过虽然脚本支持的JavaScript正则稍弱,但组合起来还是勉强可以实现需要的功能的,但性能是个问题,所以作者因为这个再加上一些其他的考虑,最后没有实现得和txtFormat一样的效果,比如引号嵌套有很多时候其实是中间的两个引号错位了,但也有可能是真的嵌套,这如何取舍?

所以这里也体现了开发思路的区别,或者说工具不同下的实现方法不同。txtFormat每个功能都有几个按钮:全部替换、替换选中、全部替换选中,而EverEdit就只有大纲区显示全部错误或者点击修正全部,不能一个个查看是否错误替换。

但这个也没办法,txtFormat自己写的软件,而且功能基本只用正则实现,可以直接放固定的几个按钮,所以可以这样实现。EverEdit的排版助手很多就是靠其他代码实现的了,自然不能像txtFormat一样可以几个按钮用到底。

none.gif

4f173f8c

鬼鬼,支持

3.gif

Shawn H.

回 88楼(非典型废宅) 的帖子

明白了(假装看懂),待我先去试试。

Everedit我遇到最多的情况就是会把
瑕疵的“***“***”***”
变成
错误的“***”***“***”
而不是
正确的“***‘***’***”
这种情况感觉不好判断,我也一直没去反馈。而且我提议加的语句内缺失标点检测已经极大增加了校对工作量,对于拟声短句一直无法有效排除,自动修正又太粗暴存在误判,只能先检测4字符以上纯靠手动,已经后悔了,又让V大劳心劳力,感觉心累。  

a9.gif

岛风酱

B91F  2021-04-09 21:00
(色即是空)
感谢分享   

748738.jpg

威猛先生

B92F  2021-04-09 22:19
(威猛先生)
真牛逼啊