项目链接:GitHub | Gitee
X2Knowledge 是一个高效的开源知识提取器工具,专为企业知识库建设而设计。它支持将PDF、Word、PPT、Excel、WAV、MP3等多种格式的文件智能转换为结构化的TXT或Markdown格式,帮助用户快速将各类文档资料标准化地录入企业知识库系统。通过先进的格式解析和内容提取技术,该项目显著提升知识转换的效率和准确性,是RAG(检索增强生成)应用和企业知识管理的理想预处理工具。
演示网站:http://115.190.8.7:8080/ 服务器性能不佳,请在本地测试使用docling接口,服务器没有cuda环境!
由于个人或企业文档的多样性,在构建知识库的过程中,文档的处理如何在RAG/Agent的应用中能达到预期的效果,起到至关重要的作用。但是随着AI技术的发展,不断开源和商用的工具涌现,如何在选择和使用这些工具成为了一大难题。
本项目秉着:1.要么免费、2.要么速度快、3.要么准确率高、4.接口统一、5.持续更新的原则。 同时也欢迎大家一起讨论,后续计划在本人有限的时间内将olmOCR、MinerU、Marker等等优秀的开源项目接入到项目中。
大家敬请期待!