当前位置 : 首页 » 文章分类 :  开发  »  Apache-Tika

Apache-Tika

Apache Tika 文档解析
https://tika.apache.org/


Tika 读取 wps 格式文档

@Test
@SneakyThrows
public void readWps() {
    Tika tika = new Tika();
    InputStream inputStream = new FileInputStream("/Users/xx/通知.wps");
    String fileContent = tika.parseToString(inputStream);
    log.info(fileContent);
}

使用 BodyContentHandler 读取 docx 元数据及文本

Tika.parseToString() 内部会使用默认的 ContentHandler(通常是 BodyContentHandler )来处理解析过程中的事件。
有些情况下可能需要更多的控制权,例如你可能想获取更详细的元数据,或者你想在解析过程中执行特定的操作(例如记录特定的事件,或者在某些条件下中断解析过程),在这种情况下,你可以创建自己的ContentHandler 实现,或者使用 Tika 提供的其他 ContentHandler 实现。

例如:

@Test
@SneakyThrows
public void testParser() {
    AutoDetectParser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler();
    Metadata metadata = new Metadata();
    InputStream inputStream = new FileInputStream("/Users/xx/xx.docx");
    parser.parse(inputStream, handler, metadata);
    log.info("metadata: {}", metadata);
    log.info("text: {}", handler.toString());
}

上一篇 RIME 鼠须管输入法

下一篇 MinIO

阅读
评论
239
阅读预计1分钟
创建日期 2024-06-11
修改日期 2025-01-08
类别
标签

页面信息

location:
protocol:
host:
hostname:
origin:
pathname:
href:
document:
referrer:
navigator:
platform:
userAgent:

评论