PDFBox - Aperçu

Le format PDF (Portable Document Format) est un format de fichier qui permet de présenter les données d'une manière indépendante des logiciels d'application, du matériel et des systèmes d'exploitation.

Chaque fichier PDF contient la description d'un document plat à mise en page fixe, y compris le texte, les polices, les graphiques et d'autres informations nécessaires pour l'afficher.

Il existe plusieurs bibliothèques disponibles pour créer et manipuler des documents PDF via des programmes, tels que -

  • Adobe PDF Library - Cette bibliothèque fournit des API dans des langages tels que C ++, .NET et Java et en utilisant cela, nous pouvons éditer, afficher l'impression et extraire du texte à partir de documents PDF.

  • Formatting Objects Processor- Formateur d'impression open-source piloté par des objets de formatage XSL et un formateur indépendant de sortie. La principale cible de sortie est le PDF.

  • iText - Cette bibliothèque fournit une API dans des langages tels que Java, C # et d'autres langages .NET et en utilisant cette bibliothèque, nous pouvons créer et manipuler des documents PDF, RTF et HTML.

  • JasperReports - Il s'agit d'un outil de création de rapports Java qui génère des rapports dans un document PDF comprenant Microsoft Excel, RTF, ODT, des valeurs séparées par des virgules et des fichiers XML.

Qu'est-ce qu'une PDFBox

Apache PDFBox est une bibliothèque Java open source qui prend en charge le développement et la conversion de documents PDF. En utilisant cette bibliothèque, vous pouvez développer des programmes Java qui créent, convertissent et manipulent des documents PDF.

En plus de cela, PDFBox comprend également un utilitaire de ligne de commande pour effectuer diverses opérations sur PDF à l'aide du fichier Jar disponible.

Caractéristiques de PDFBox

Voici les caractéristiques notables de PDFBox -

  • Extract Text - En utilisant PDFBox, vous pouvez extraire du texte Unicode à partir de fichiers PDF.

  • Split & Merge - En utilisant PDFBox, vous pouvez diviser un seul fichier PDF en plusieurs fichiers et les fusionner en un seul fichier.

  • Fill Forms - En utilisant PDFBox, vous pouvez remplir les données du formulaire dans un document.

  • Print - En utilisant PDFBox, vous pouvez imprimer un fichier PDF à l'aide de l'API d'impression Java standard.

  • Save as Image - En utilisant PDFBox, vous pouvez enregistrer des fichiers PDF en tant que fichiers image, tels que PNG ou JPEG.

  • Create PDFs - En utilisant PDFBox, vous pouvez créer un nouveau fichier PDF en créant des programmes Java et, vous pouvez également inclure des images et des polices.

  • Signing- En utilisant PDFBox, vous pouvez ajouter des signatures numériques aux fichiers PDF.

Applications de PDFBox

Voici les applications de PDFBox -

  • Apache Nutch- Apache Nutch est un logiciel de recherche Web open source. Il s'appuie sur Apache Lucene, ajoutant des spécificités Web, telles qu'un robot d'exploration, une base de données de graphes de liens, des analyseurs pour HTML et d'autres formats de documents, etc.

  • Apache Tika - Apache Tika est une boîte à outils pour détecter et extraire des métadonnées et du contenu textuel structuré à partir de divers documents en utilisant les bibliothèques d'analyseurs existantes.

Composants de PDFBox

Voici les quatre principaux composants de PDFBox -

  • PDFBox- C'est la partie principale de la PDFBox. Celui-ci contient les classes et les interfaces liées à l'extraction et à la manipulation de contenu.

  • FontBox - Il contient les classes et les interfaces liées à la police, et en utilisant ces classes, nous pouvons modifier la police du texte du document PDF.

  • XmpBox - Il contient les classes et les interfaces qui gèrent les métadonnées XMP.

  • Preflight - Ce composant est utilisé pour vérifier les fichiers PDF par rapport à la norme PDF / A-1b.