PDFlib TET
產(chǎn)品編號:1636
當(dāng)前版本:v2.3
開 發(fā) 商:PDFlib
產(chǎn)品類型:獨(dú)立控件
產(chǎn)品功能:PDF處理
開發(fā)平臺(tái):
其他特性:Web Form / Windows Form
產(chǎn)品源碼:不提供源碼
PDFlib TET(文本內(nèi)容提取工具包)是一款可以從任意PDF文檔格式中可靠地提取文本信息的軟件。它不僅可以作為一種庫/控件,還可以一種命令行工具。該工具包可以使得PDF格式的文本內(nèi)容轉(zhuǎn)換成Unicode(統(tǒng)一的字符編碼標(biāo)準(zhǔn))字符串,并附加詳細(xì)的字形和字體信息。一旦擁有了TET,你就可以從PDF文檔中的文本獲取相應(yīng)的Unicode字符值,以及它在頁面的位置。
PDFlib TET 特征:
除了低水平的文字獲取功能外,TET還包含有文本內(nèi)容分析算法——鑒別單詞邊界,去除冗余和重復(fù)文本(比如文字陰影和字體加粗)。使用輔助的PCOS接口,你就可以從PDF格式文本獲取任意格式的對象,比如元數(shù)據(jù),超文本等。