提问者:小点点

是否可以将非文本文件读取到google数据流管道中?


我想将pdf文件读入管道。但是,我没有找到任何关于纯文本或xml以外的文件格式的apache光束示例。


共1个答案

匿名用户

Dataflow或Apache Beam库中没有可用的预先存在的PDF阅读器。但是,您可以使用TensorFlow记录的此阅读器示例作为模型,使用您选择的PDF解析库编写自己的阅读器。

https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/TFRecordIO.java