doc 需要特殊处理~
常用的文档处理工具如下
pythonfrom langchain_community.document_loaders import (
BSHTMLLoader,
CSVLoader,
Docx2txtLoader,
OutlookMessageLoader,
PyPDFLoader,
TextLoader,
UnstructuredEPubLoader,
UnstructuredExcelLoader,
UnstructuredMarkdownLoader,
UnstructuredPowerPointLoader,
UnstructuredRSTLoader,
UnstructuredXMLLoader,
YoutubeLoader,
)
问题:docx 可以用 Docx2txtLoader 处理,但是 doc 不行,估计是 doc 格式太老了,不想适配了。
尝试过的无效方案:
from langchain_community.document_loaders import UnstructuredWordDocumentLoader
pandoc
(不支持 doc 的处理)可行的解决方案:使用 LibreOffice
pythonsubprocess.check_output([SOFFICE_PATH, "--headless", "--convert-to", "docx", file_path, "--outdir", dir])
本文作者:42tr
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!