返回列表 发帖

求文本整理正则。

问题描述:从网上下载下来的TXT电子书,格式及排版比较混乱,在手机中阅读不便。

需求:
1、关于断行,有的断行不是以段落断行,而是以字数自动断行。
调整思路:将行末没有标点或标点是逗号的的换行符替换。

2、关于序号,对于1、....../2、....../3、.....这样的序号,能够自够分行。

其它调整使用文本处理器来处理,细节通过手工调整。

这是我的一个思路,但我对正则表达式不太熟,特来求此表达式。当然如果有更好的方案,也欢迎送出。

关于工具,打算使用Emeditor,因为经过试用,只有Emeditor打开大的文本文件速度比较流畅。

格式及排版比较混乱=>的确, 而且各自的混乱方式还不相同. 因此较难写出统一的替换工具. 只能针对具体的论坛或图书格式写相应的工具.
但是也可以写一些通 的脚本, 对文本作预处理. 例如你写的两个思路.

关于断行=>将行末没有标点或标点是逗号的的换行符替换=>描述很具体,可以直接写成正则表达式。
关于序号=>只需要在\d、之前插入换行符就可以了。
在答疑解惑版提问时,请注明所用语言、范例文本、匹配结果。谢谢!
------------------------------------------------------------------------------
我爱正则表达式
GTalk: rex[at]zhasm[dot]com
Twitter: rex_zhasm

TOP

匹配 (?<=[^。])\r\n  直接替换。(解决断行问题,段落结尾也可能是!之类的,按需更改吧。)
RegexBuddy下测试可以。

TOP

在emeditor中使用宏“排版脚本中华太阳系联盟增强版(08.09.29).jsee”,网上可以找到。非常好用,专门为整理电子书用的。

TOP

我去下载了一个4楼推荐的脚本,谢谢

TOP

回复 5# zghk

没找到。能否上传到这里?如果不能上传,可发给我。谢谢!

TOP

返回列表