అపాచీ టికా అనేది వివిధ ఫైల్ ఫార్మాట్ల నుండి మెటాడేటా మరియు టెక్స్ట్ కంటెంట్ను గుర్తించడం మరియు సంగ్రహించడం కోసం ఒక టూల్కిట్. టికాను ఉపయోగించే కొన్ని ప్రోగ్రామింగ్ ఉదాహరణలు ఇక్కడ ఉన్నాయి:
- PDF ఫైల్ నుండి టెక్స్ట్ కంటెంట్ని సంగ్రహించడం:
జావా// Create a new Tika instance
Tika tika = new Tika();
// Extract text content from a PDF file
String text = tika.parseToString(new File("path/to/document.pdf"));
// Print the extracted text to the console
System.out.println(text);
- ఇమేజ్ ఫైల్ నుండి మెటాడేటాను సంగ్రహించడం:
జావా// Create a new Tika instance
Tika tika = new Tika();
// Parse the metadata of an image file
Metadata metadata = new Metadata();
InputStream stream = new FileInputStream(new File("path/to/image.jpg"));
tika.parse(stream, metadata);
// Print the extracted metadata to the console
for (String name : metadata.names()) {
System.out.println(name + ": " + metadata.get(name));
}
- జిప్ ఫైల్ నుండి కంటెంట్ని సంగ్రహించడం:
జావా// Create a new Tika instance
Tika tika = new Tika();
// Extract content from a ZIP file
ZipFile zipFile = new ZipFile("path/to/archive.zip");
for (Enumeration<? extends ZipEntry> entries = zipFile.entries(); entries.hasMoreElements();) {
ZipEntry entry = entries.nextElement();
String entryText = tika.parseToString(zipFile.getInputStream(entry));
System.out.println(entry.getName() + ": " + entryText);
}
zipFile.close();
గమనిక: పై కోడ్ని అమలు చేయడానికి ముందు మీ ప్రాజెక్ట్ క్లాస్పాత్కు అవసరమైన టికా లైబ్రరీలను జోడించినట్లు నిర్ధారించుకోండి.