PDFlib TET
產(chǎn)品編號:1005630
當前版本:v2.3
開 發(fā) 商:PDFlib
產(chǎn)品類型:獨立控件
產(chǎn)品功能:PDF處理
開發(fā)平臺:兼容 ActiveX/COM 的平臺
其他特性:Web Form / Windows Form / 兼容Sharepoint / Ajax支持
產(chǎn)品源碼:不提供源碼
PDFlib TET(文本內(nèi)容提取工具包)是一款可以從任意PDF文檔格式中可靠地提取文本信息的軟件。它不僅可以作為一種庫/控件,還可以一種命令行工具。該工具包可以使得PDF格式的文本內(nèi)容轉(zhuǎn)換成Unicode(統(tǒng)一的字符編碼標準)字符串,并附加詳細的字形和字體信息。一旦擁有了TET,你就可以從PDF文檔中的文本獲取相應的Unicode字符值,以及它在頁面的位置。
PDFlib TET 特征:
除了低水平的文字獲取功能外,TET還包含有文本內(nèi)容分析算法——鑒別單詞邊界,去除冗余和重復文本(比如文字陰影和字體加粗)。使用輔助的PCOS接口,你就可以從PDF格式文本獲取任意格式的對象,比如元數(shù)據(jù),超文本等。