
产品中心
当前位置:
产品中心 > 全能数字出版内容加工平台 > PDF转XML
PDF转XML
XML格式具备良好的结构和语义信息。PDF转XML可以输出每个文字的编码、坐标、格式等信息,每个插图的坐标信息,以及每篇文章的信息。这里的文章可以是报纸或期刊的一篇文章,也可以是图书的一个章节,也可以是内容的任何一个知识点。文章数据载入数据库后,可以由服务器发布动态或静态页面,实现文章的检索和利用。XML连同页面图、插图一起,打包上传到服务器,或编译为其他格式,可以实现各种应用,参见“PDF转IMAGE”。
PDF转XML具备的特性包括:
- 正文部分,支持“PDF转TEXT”和“PDF转WORD”的全部特性。
- 可以配置文章的各种元数据进行标引。
- 可以输出文章的坐标,实现文章热区。
- 可以输出每个文字和每个插图的坐标等信息,实现图书搜索。



