
产品中心
当前位置:
产品中心 > 全能数字出版内容加工平台 > PDF转TEXT
PDF转TEXT
文本文件是电子书格式中文件体积最小的格式,无需专用阅读器,且跨平台(包括手机平台)。适合在移动出版领域,尤其是手机出版。也可用于内容再次编辑。
从PDF获取文本文件很容易,工具很多。但是,如果要求文本具有良好的格式,大多数软件并不具备。这是因为,PDF中文本一般只有位置坐标信息,而缺乏排版格式信息,直接取出文本,其可读性很差,依靠手工进行格式排版的工作量非常巨大。
本软件在解析PDF的基础上,根据文字的坐标,对文本的排版格式提供了一个详尽的算法进行分析,精确度非常高。文本处理包含的特性有:
- 段落自动识别:文本按段落进行组织,在阅读器中自动换行。
- 适当的空白行:有的段落之间,或小标题与正文之间,需要更多的空白行。
- 竖排格式分析:不仅能处理横排格式,也能对竖排格式进行分析和处理。
- 过滤页眉页脚:避免多余的垃圾文字,并支持跨页搜索。
- 诗歌格式处理。
- 表格格式处理。
- 英文单词分割:某些PS或PDF的英文单词之间没有空格,可以自动分析添加,也可以手动快速插入单词分隔。



