全能数据批量处理(替换/查找/抽取/改名/转码/排序)

功能简介
使用指南
表达式参考

立即下载:下载
作者emailliaotianlei@163.net
联系电话:+86(10)62979435夏小姐

====================
功能简介====================
   
几乎所有的文本编辑器都有查找、替换功能,例如简单文本编辑器(记事本或写字板)、高级文本编辑器(UltraEdit/Editplus/EmEditor/PSPad/SciTE)、WORD等,这说明:文本的查找替换是文本处理的一项重要的功能。

本工具弥补了编辑软件在文本需要批量处理或更多处理功能时的种种不足,主要亮点包括:

l  支持多个文件的批量查找和替换:大量文件,一次完成查找或替换,提高工作效率

l  支持多个串的批量查找和替换:一次完成多个查找和替换,提高工作效率

l  查找串支持更全面的正则表达式:正则表达式是一种文本规则描述,包括支持换行符、通配符以及任意复杂的模式匹配,大大提高了文本查找能力

l  替换串支持正则表达式:替换串也是动态的,大大提高了文本替换和抽取能力

l  支持查找结果的准确定位:查找串可在原文件中高亮显示和跳转

l  支持查找串的批量抽取、采集:例如时间、电话号码、身份证号、护照号、Email、车牌、事件名称、地名、人名、程序注释等任何规则文本的抽取。

l  支持超长、多行的查找串和替换串定义:可以直接使用多行编辑器来定义

l  支持查找、替换的规则定义保存后反复使用:经常进行的文本处理避免重新定义规则。例如可自行定义全角转半角、等数据处理方案。

l  支持WORD格式:除了基于文本的格式(TEXT/HTML/XML等),还支持WordPowerPointExcelRTF,包括word文件的页眉、页脚、图文框、office文件的所有属性等。

l  统计功能:按每个查找串或每个文件统计查找串出现的次数

l  自动备份、恢复和清除:提高数据安全性

l  其他:支持大小写开关,支持文件名批量改名、编号等。

 

编辑器的文本替换等功能主要不足有:

l  不支持多个文件的批量替换

l  不支持多个串的批量查找和替换

l  不支持查找结果的准确定位

l  替换串不支持正则表达式

l  不支持查找串的批量抽取

l  不支持查找、替换的规则定义保存后反复使用

此外,对于简单文本编辑器(记事本或写字板)来说,不支持批量查找,不支持正则表达式、不支持WORD格式。对于高级文本编辑器(UltraEdit/Editplus/EmEditor/PSPad/SciTE)来说,不支持WORD格式。对于WORD来说,用来处理一般文本比较麻烦和缓慢。

 

本软件可实现文件内容的查找、定位、修改、增加、删除、复制、移位、抽取、采集、转换、加工、统计、查错、校对、过滤、甚至文件改名、编号等等,使用本工具可极大地提高数据处理的效率。本软件广泛应用于数据在不同系统中的格式转换、历史数据迁移、网站页面的批量加工、技术资料的批量更新、文件的批量修改、源代码或资源文件的批量处理等方面,对数据加工中心、数据库提供单位、情报搜集部门、企业资料部门、出版社、报刊杂志社、电子图书制作单位、各行业网站和信息中心等有广泛的推广使用价值。本软件在类似软件中,功能的独特和强大达到了很高的程度,希望成为您手头一款常用工具。

====================使用指南====================

特别注意:高级表达式选项是否勾选,使查找串、替换串的含义有很大不同;一旦替换,内容无法恢复,可优先使用查找功能。

1、将要处理的文件选入上面的文件列表框中
文件列表框中列出了要处理的文件的全路径;左边的“序号”是该文件在列表框中出现的顺序;序号前面的检查框缺省为检取,如果去掉检取状态,则该文件不参与查找/替换/改名等操作;右边的“统计”表示查找/替换时,该文件包含的所有查找串/替换串的个数;下面是文件列表框左侧各个按钮的含义:
添加/目录添加:向文件列表框中加入文件;“添加”支持一次选择多个文件加入;“目录添加”则支持从一个目录及其子目录下寻找所有指定后缀的文件批量加入;
删除/清空:从文件列表框中删除文件(并非删除该文件本身);“删除”只针对选择的文件;“清空”则针对文件列表框中全部文件;
查看:可以打开文件列表框中选择的文件;如果做过查找并且包含查找串,则查看该文件时可以突出显示这些查找串;直接双击文件名也相当于查看;
全选/反选:改变检取框的状态;
上移/下移:改变文件在列表框中的位置和序号;这个功能在文件改名时希望按照序号输出文件名时特别有用;

2
、将要查找和替换的串填入下面的列表框中
查找/替换串列表框中列出了要处理的查找串和替换串;查找串就是查找时想要找到的串;替换串就是找到要找的串后想要替换的串;左边的检查框缺省为检取,如果去掉检取状态,则查找串/替换串不参与查找/替换/改名等操作;右边的“统计”表示查找/替换时,所有文件中包含的该查找串/替换串的个数;下面是查找/替换串列表框左侧各个按钮的含义:
添加:向列表框中加入一组查找串/替换串;缺省生成的查找串/替换串需要进行编辑修改;对250个字符内的查找串/替换串,双击即可修改;对更长的查找串/替换串,应通过“编辑”按钮进行修改;查找串/替换串表达式的语法,请参考后面的详细说明;
编辑:打开对话框对选中的查找串/替换串进行编辑;支持超长的查找串/替换串,支持多行;
删除/清空:从列表框中删除查找串/替换串;“删除”只针对选择的查找串/替换串;“清空”则针对文件列表框中全部查找串/替换串;
全选/反选:改变检取框的状态;
上移/下移:改变查找串/替换串在列表框中的位置;应特别注意,顺序对替换很重要,当一个文件做多个替换时,不同的替换顺序可能产生不同的替换结果;
导入/导出:可以将一些常用的查找串/替换串定义导出保存到文件,需要的时候再导入使用;例如软件自带的Half2All.xmlAll2Half.xml就是进行全半角字符转换的;

注意:编辑好的替换定义,可以存入一个命名的方案,下次在方案下拉列表中可直接选择使用。请用方案的“新建”和“改名”按钮来建立一个方案。不需要的方案可以“删除”。

3
、选择右边必要的选项,并点击右边需要的功能按钮开始批量处理
选项包括:
高级表达式:查找串/替换串采用简单表达式描述还是高级表达式描述;具体表达式语法参考后面的详细说明;一般来说,如果进行简单的操作,可用简单表达式,好处是简单快捷;但是,要进行复杂、高级的查找/替换,还是要用高级表达式;高级表达式的学习是本软件的重点和难点,第一次可以花一刻钟进行学习和试验,以后每次使用时打开本帮助文档参考即可;
区分大小写:查找时对英文是否区分大小写;
查找后输出替换串:批量查找时并不进行替换,但是可以将替换串输出,用于抽取想要的一些查找结果(使用高级表达式,替换串可以是查找串本身,也可以是加工了的查找串);例如,将程序代码中的全部中文字符串找出来,以便检查错误或翻译为其他语言;
替换时自动备份:替换时将修改原始文件,选中此选项将在替换前复制原始文件作为备份,备份文件附加后缀".bak"

功能按钮包括:
批量替换:对文件内容完成批量替换;特别要注意的是,替换将导致文件的修改;本工具并不备份或修复文件,请使用者自行备份关键数据;本软件作者对本软件处理的数据不负责恢复;
批量查找:
对文件内容完成批量查找,但不进行替换;查找后除了统计结果,还可以在查时突出显示查找串(本项功能不支持doc/xls/ppt);还可以输出预期的替换串,用于特定信息的抽取或采集;
批量改名:
对文件名称完成批量修改;高级表达式同样适用改名,甚至可以按序号输出文件名;
内码替换:
是批量替换的一个特例,完成简体繁体的转换;注意,GBK本身就支持简体繁体,而BIG5仅支持繁体,因此提供了GBK内的简繁转换和GBKBIG5的简繁转换;
还原备份:将备份文件还原为原始文件,并去掉附加的后缀".bak"
清除备份:将附加了后缀".bak"的备份文件删除,以便节省磁盘空间;

4 、常用技巧
本软件没有提供更多的查找选项,这些都可以通过适当的高级表达式完成。例如"he"的全字匹配为"[^a-zA-Z0-9]he[^a-zA-Z0-9]"(不考虑在最头和最尾的情况) "A,B"全半角无关匹配为""A[,|]B"
高级表达式的替换串中,灵活运用匹配子串,则可以完成相关数据的插入、交换位置等效果。

====================表达式参考====================
1
简单表达式
无论是查找串还是替换串中,字符\有特殊含义:
\r
表示回车符;
\n
表示换行符;
\t
表示制表符;
\\
表示'\'
其他的字符不需要\引导,如果\引导任何其它字符,则忽略\
此外,没有其它的特殊字符或字串。
注意:文本中的换行可能有\n\r\n等多种形式;

2
高级表达式
无论是查找串还是替换串中,字符\有特殊含义:
\r
表示回车符;
\n
表示换行符;
\t
表示制表符;
\\
表示'\'
此外,其它的特殊字符或字串如下表:

高级表达式查找串

标点符号一般有特殊含义,本身需要用\引导;
相反,字母数字一般不需要\引导,而用\引导的字母数字一般有特殊含义;
具体如下:
.
匹配任意单个字符;
[ ]
包括字符集合,例如[abc]
^
字符集的反集,例如[^abc];如果放在整个表达式头则表示匹配输入开始;
-
字符集的范围表达,例如[0-9]
?
上一匹配0次或1次;
+
上一匹配1次或多次;
*
上一匹配0次或多次;
??
+?*? 含义同?+*,但匹配长度尽可能最短;
( )
包含一个匹配,括号中的匹配作为一个整体单位参与运算;
{ }
包含一个匹配,并且在替换串中通过{1}等可以引用(参考高级表达式替换串的说明)
\
转义符;
$
匹配输入结束;
|
字符串集合元素的分隔,例如T|the
!
不匹配后面的一个元素,例如a!b
\a
匹配字母数字,等价于([a-zA-Z0-9])
\b
匹配空白字符,等价于([ \t])
\c
匹配字母,等价于([a-zA-Z])
\d
匹配数字,等价于([0-9])
\h
匹配十六进制数字,等价于([0-9a-fA-F])
\l
匹配各种换行符,等价于(\r?\n)
\n
匹配换行符;
\r
匹配回车符;
\p
匹配半角标点符号
\q
匹配引号串,等价于(\"[^\"]*\")|(\'[^\']*\')
\w
匹配单词,等价于([a-zA-Z]+)
\z
匹配整数,等价于([0-9]+)
\e
匹配单字节字符,包括英文字母、数字、标点、空格、换行等;
\u
匹配双字节字符,包括汉字简体、繁体字符等;
注意:上面这些的规则仅适用查找串,不适用替换串;

高级表达式替换串

{}应该用\引导来表示,直接使用则含义如下:

{x}表示替换串中应输出查找串中第x个用{}包含的实际匹配子串,这里x是一个数字;参考高级表达式查找串中{}的说明;

{i;w=x;r=y}表示输出的是该文件的顺序编号,一般用于文件改名w=x表示输出的序号宽度为xr=y表示序号从y开始编号w=xr=y可以缺省;