当前位置: 产品中心 > 图书内容加工平台
  图书内容加工平台
数字出版内容加工平台

 

图书数字出版内容加工平台

结构化、碎片化加工

 

针对图书的原版文件PSPDF大样,我们为各种不同的数字出版方案提供内容加工软件或服务,特别是移动出版、专业数据库出版所需要的图书内容结构化碎片化、标引分类深加工等。

功能列表

应用说明

加工内容

加工说明

移动出版、数据库出版:在分析内容的逻辑结构的基础上进行碎片化

图书章节结构识别

可自定义识别规则。用于章节拆分和建立目录导航。

图片识别

插图或废图识别,图题、图注与图片的关联

表格识别

三线或框线表格识别,表题、表注与表格关联

排版格式识别

段落、空白等格式

页码识别

用于原版对照或建立索引项、目录项的定位等

版芯处理

过滤页眉、页脚、页边

文章拆分

可按指定的章节层次拆分文章

文章内部结构识别

如文章的作者、作者单位等

知识点识别

知识点识别和提取

文章元数据标引及分类

经过标引和专业分类,提升信息附加值。可集成第三方数据挖掘模块(自动分类、摘要、抽取关键词等)。

索引处理

识别索引项,建立索引项定位

补字处理

补字的识别和表示

公式处理

公式的识别和表示

上、下标处理

上、下标的识别和表示

注释处理

注释识别和表示

参考文献

参考文献识别和表示

英文处理

英文分词等

整书处理

文前、文后处理,整书合并等

输出格式

XML,或EPUB,或带结构标签的PDF

网络出版:提供图书的原版信息,供读者进行原版的全文阅读及搜索,或原版部分内容的免费预览

每页页面图

用于原版在线阅读,有大量优点(如无需阅读器、表现形式丰富、DRM灵活、技术简单等)

每页页面描述XML

含每个文字及其坐标,用于内容搜索,支持原版高亮显示、原版片段预览

目录

带章节缩进格式,并定位到页

PS、大样转PDF,及PDF按章切分

用于下载阅读

传统出版:仅提供图书的基本信息供购买者参考

封面

 

图书元数据

来自CIPmarc数据

目录

带章节缩进格式