TIKA - Formats de fichier

Formats de fichiers pris en charge par Tika

Le tableau suivant présente les formats de fichiers pris en charge par Tika.

Format de fichier Bibliothèque de packages Cours à Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html et utilise la bibliothèque Tagsoup HtmlParser
Document composé MS-Office Ole2 jusqu'en 2007 ooxml à partir de 2007

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml et utilise la bibliothèque Apache Poi

OfficeParser (ole2)

OOXMLParser (ooxml)

OpenOffice au format OpenDocument org.apache.tika.parser.odf OpenOfficeParser
Format de document portable (PDF) org.apache.tika.parser.pdf et ce package utilise la bibliothèque Apache PdfBox PDFParser
Format de publication électronique (livres numériques) org.apache.tika.parser.epub EpubParser
Format de texte enrichi org.apache.tika.parser.rtf RTFParser
Formats de compression et d'emballage org.apache.tika.parser.pkg et ce package utilise la bibliothèque de compression commune PackageParser et CompressorParser et ses sous-classes
Format de texte org.apache.tika.parser.txt TXTParser
Formats d'alimentation et de syndication org.apache.tika.parser.feed FeedParser
Formats audio org.apache.tika.parser.audio et org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- pour mp3parser
Analyseurs d'images org.apache.tika.parser.jpeg JpegParser-pour les images jpeg
Vidéoformats org.apache.tika.parser.mp4 et org.apache.tika.parser.video cet analyseur utilise en interne un algorithme simple pour analyser les formats vidéo flash Mp4parser FlvParser
fichiers de classe java et fichiers jar org.apache.tika.parser.asm ClasseParser CompressorParser
Mobxformat (messages électroniques) org.apache.tika.parser.mbox MobXParser
Formats CAO org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
programmes exécutables et bibliothèques org.apache.tika.parser.executable ExécutableParser