
优质的媒体内容是传统出版最大的优势。将这些内容进行全媒体出版,包括网络出版、移动出版等,使内容的价值得到最大化,是传统出版与新媒体技术的强强联合。
海量信息经过加工、整合、挖掘才能提升其使用价值。要满足各种应用的需要,就必须对书、刊、报、文档等电子出版物或数字化结果进行版面理解和版面分析,将版式文件转换为流式文件,并建立数据之间的结构和逻辑关系。
本软件可以将PDF、PS等文件进行分析、反解、标引和输出各种格式的集成工具,为数字报、数字期刊、数字图书、移动出版提供一个高效率、功能全的内容加工平台,为数字出版各个环节(存储、查询、展示、再利用、知识挖掘、版权保护、电子商务等)生产符合需求的数据。本软件面向各种数字出版应用,全面超越了传统的书刊报反解标引工具。
PDF是数字出版内容加工的中心。各种格式(如PS、大样、WORD等)都可以转换为PDF,统一在PDF上进行反解、标引和输出,间接地支持了所有来源格式。
根据具体应用的需要,可以将PDF转换为各种不同格式。例如,文本文件用于手机出版,WORD用于再次编辑,HTML用于文章展示,XML用于数据库,IMAGE用于在线原版展示等。通过配置输出模板,或调用特定编译器,还可以生成其他需要的各种不同格式。
内容加工包括自动转换和深度加工。自动转换包括页面图等信息的自动转换。深度加工包括版面分析、文章拆分、标引分类等。深度加工尽最大可能提供智能分析,并提供高效率的人工处理手段。
1、全面的输入格式支持
- PDF:支持单层PDF、双层PDF。由于各种格式均可转为PDF,不需要为每种格式单独开发,就共享了PDF内容加工的所有特性。鉴于支持PDF至关重要,我们在系统中配备了三套PDF解析引擎,最大程度地兼容了各种PDF可能存在的问题。系统可以不依赖Acrobat独立运行。对PDF解析的正确性和效果可以达到Acrobat标准。
- PS:为了方便用户,和充分利用PS中版面结构信息,系统支持直接打开PS。支持的PS包括方正全系列(书版、维思、飞腾3、飞腾4、飞腾5、创艺、文合等)、华光全系列、以Adobe为代表的标准PS。能有效处理PS内嵌字体、内嵌图片、EPS图、艺术字、花边、图片裁剪、公式、字体映射等。无需另行提供页面图。
- 大样文件:包括s2、s72、s92、s10、ps2、mps、nps,也叫二扫文件,是方正和华光早期的排版系统输出的排版文件,现在主要用于版面预览。大样文件包含版面结构信息,并较少有乱码问题。
- 图片:包括JPG、EPS、TIF、PNG、BMP等。在某些情况下用户只能获得页面图,或只能扫描,但仍然可以用本系统进行加工、标引,并输出坐标等信息。文字有两种方式处理:一是导入外部文本文件;二是使用PDF OCR模块进行文字识别。
2、基于模板的自定义标引界面
- 自定义要标引的字段。
- 自定义标引字段的布局。
- 自定义字段控件类型,支持单选、多选、列表、文件、分类树、文本编辑、超文本编辑(支持字号、字体、样式调整)等。
3、全面的输出能力
- 支持输出主要的文件格式:包括TEXT、WORD、HTML、XML等。
- 自定义输出模板:根据不同的项目需要自定义输出模板,控制输出的内容和格式。
- 自定义输出文件名称及文件夹组织:可以按日期、版次、序号等变量来自动命名和层次化组织。
- 同时支持多种输出:一次反解标引,同时多种输出,满足多个需求。例如一种格式加载到数据库用于检索,另一种格式上传用于原版展示。
- 多种输出途径:本地文件及打包、HTTP上传、FTP上传、WEB Service上传、加载到数据库。
- 全面的输出内容:头版或封面的导读信息,目录链接信息;图片、文字、坐标等。
4、自动分析
- 版面分析(版面理解):利用版式数据中存在的版式信息,如:位置、字体、字号、颜色、辅助信息、版式风格等,辅以语义分析,提取版式数据的逻辑结构,将无序、无结构的数据,组织成有序、有结构的数据。 针对报纸版面:可以从复杂版面中提取必要的文字和排版信息,自动判定排版方向、合并正文块,自动还原正文阅读顺序,自动关联文章标题和正文,并进行附图与图说、文章与附图之间的自动关联。 针对图书版面:自动进行版心定位、页眉页脚和页码处理,自动进行目录提取、章节切分,进行参考文献等辅助信息的条目化处理。
- 文档结构识别:即文章或章节的分析。从书签、目录页或内容页进行分析,文章或章节的拆分,并生成目录信息。
- 格式分析:单词、行、段落的分析。PDF文件几乎没有格式信息,PS也经常缺乏完整的格式信息。本系统提供了一个高精度的格式分析算法。
- 文章或章节分析:从书签、目录页或内容页进行分析,文章或章节的拆分,并生成目录信息。
- 字段分析:报纸字段如标题、引题、副题、作者、来源等,期刊字段如标题、作者、作者单位、关键字、编号、内容摘要等,图书CIP元数据如书名、作者、责任编辑、出版单位、ISBN、开本、定价、发行单位、内容提要等。
5、高效的生产效率析
- 减少录入:默认值、可选值、值继承、全局字段、变量自动取值等。
- 自动查错:检查空值、唯一性、多值、正则表达式。
- 自动标引:通用关键字自动标引,基于简单规则的自动分类;也可以集成专业的自动分类、自动摘要组件。
- 备份恢复:一本书往往一次做不完,可以备份工作状态,下次恢复后继续。
- 多人协作:报纸版面大,时效性强,可以多人分工,分别处理不同版面;期刊、图书可以多人分工,分别处理不同部分。
- 连版的批量拆分。
- 自定义快捷键。
6、开放性、灵活性及可扩展性
可定制的标引方案、输出方案、分类法,多种上传方式,便于针对不同的数据或应用,快速定制,满足不同项目的需要,与不同系统进行配合。




