Das TET Plugin erlaubt einfachen Zugriff auf die Funktionen von PDFlib Text Extraction Toolkit (TET). Obwohl das TET Plugin als Plugin in Acrobat arbeitet, nutzt es nicht die Acrobat-eigenen Funktionen, sondern der Textextrakt beruht komplett auf der TET-Technologie. Das Plugin wird von PDFlib GmbH als Technologiestudie zur Verfügung gestellt, um die mächtigen Funktionen von TET zu verdeutlichen. Da TET mehr bietet als der in Acrobat eingebaute Textextrakt und sein Interface einige interessante Funktionen enthält, bietet sich das TET Plugin als Ersatz für die in Acrobat eingebauten Kopier- und Suchfunktionen an. PDFlib TET kann viele Dokumente erfolgreich verarbeiten, aus denen Acrobat nur Unbrauchbares herausliest. Das TET Plugin bietet die folgenden Funktionen:
Die Kopierfunktion des TET Plugins ist in vielen Punkten der in Acrobat eingebauten Kopierfunktion überlegen:
PDFlib Text Extraction Toolkit (TET) ist die Technologie, die hinter dem TET Plugin steckt. TET ist ein Entwickler-Werkzeug für die zuverlässige Extraktion von Text aus PDF-Dokumenten. TET stellt den Text aus einem PDF als Unicode-String zur Verfügung und liefert darüber hinaus auch genaue Informationen über Zeichen und Fonts sowie über deren Position auf der Seite. Zusätzlich enthält TET erweiterte Algorithmen für die Inhaltsanalyse, mit denen sich Wortgrenzen und Spalten erkennen lassen. Auch doppelter Text kann entfernt werden, wie er manchmal durch Schatten oder künstlich gefettete Zeichen entsteht. Zusätzlichen stellt das integrierte pCOS ein Interface zur Verfügung, mit dem sich weitere Daten aus dem PDF gewinnen lassen, etwa Metadaten, interaktive Elemente und vieles mehr. PDFlib TET lässt sich zum Beispiel so verwenden:
TET steht sowohl als Programmierbibliothek für verschiedene Entwicklungsumgebungen zur Verfügung als auch als Commandline-Tool für den Batch-Betrieb. Beide bieten ähnliche Funktionen, eignen sich aber für unterschiedliche Einsatzzwecke. Voll funktionsfähige Demoversionen von PDFlib TET stehen hier zur Verfügung.
Produced by PDFlib GmbH
The TET Plugin provides easy access to the PDFlib Text Extraction Toolkit (TET). Although the TET Plugin runs as an Acrobat plugin, the underlying content extraction features do not use Acrobat functions, but are completely based on TET. The TET Plugin is provided as a free tool which demonstrate the power of PDFlib TET. Since the TET Plugin is more powerful than Acrobats built-in text and image extraction tools and offers a number of convenient user interface features, it is useful as a replacement for Acrobats built-in copy and find features. PDFlib TET can successfully process many documents for which Acrobat provides only garbage when trying to extract the text. The TET Plugin offers the following functions:
The copy feature of the TET Plugin offers several advantages over Acrobats built-in copy facility:
The PDFlib Text Extraction Toolkit (TET) is the underlying engine of the TET Plugin. TET is a developer product for reliably extracting text from PDF documents. TET makes available the text contents of a PDF as Unicode strings, plus detailed glyph and font information as well as the position on the page. In addition, TET contains advanced content analysis algorithms for determining word boundaries, grouping text into columns and removing redundant text, such as shadows or artificially bolded text. Using the auxiliary pCOS interface you can retrieve arbitrary objects from the PDF, such as metadata, interactive elements, etc. With PDFlib TET you can:
TET is available as a programming library (component) for various development environments, and as a command-line tool for batch operations. Both offer similar features, but are suitable for different deployment tasks.
Fully functional evaluation versions of PDFlib TET for a variety of platforms are available here.
PDF interest area(s):
PDF in generalFeature(s):
Reuse Developer tools Convert from PDFProduct sector:
Search Publishing© 2020 Assosiation for Digital Document Standards e.V. | Privacy Policy | Imprint