将 PDF、Office 文档、图片、音频、YouTube 链接等转换为整洁的 Markdown——无需安装任何软件。
Markdown Converter 可将几乎任何文件格式转换为整洁、结构化的 Markdown,底层使用 markitdown 实现——通过 uvx 调用,无需预先安装。它支持处理从 PDF、Office 文档到带 OCR 的图片、带转录的音频、ZIP 压缩包,乃至 YouTube URL 等各类内容。输出结果会保留文档结构(标题、表格、列表、链接),非常适合将内容输送至 LLM 或文本分析流水线中使用。
npx clawhub@latest install markdown-converter点击本页顶部的 安装 按钮即可一键设置
支持将 PDF、Word(.docx)、PowerPoint(.pptx)、Excel(.xlsx/.xls)、HTML、CSV、JSON、XML、图片、音频、ZIP 压缩包、YouTube 链接以及 EPub 文件全部转换为 Markdown 格式。
使用 uvx markitdown 运行,无需全局安装步骤。依赖项在首次运行时自动获取并缓存,后续运行速度将显著提升。
转换后的 Markdown 保留文档结构,包括标题、表格、项目符号列表和链接——使后续的 LLM 摄取或文本分析更加准确。
提取图像的 EXIF 元数据并对其进行 OCR 识别,同时转录音频文件,将结果直接嵌入 Markdown Converter 的 Markdown 输出中。
对于默认提取效果较差的复杂或扫描版 PDF,-d 标志可通过可配置的端点启用 Azure Document Intelligence,从而获得更高质量的提取结果。
支持文件路径、标准输入管道(stdin)及标准输出(stdout)——并提供可选标志,用于在输入内容存在歧义时指定文件扩展名、MIME 类型和字符集。
在将 PDF 和 Word 文档文件夹中的内容输入检索增强生成(RAG)系统之前,使用 Markdown Converter 将其转换为 Markdown 格式,同时保留文档结构,以便模型能够对标题和表格进行推理分析。
将 YouTube 链接直接传递给 Markdown Converter,即可获取结构化的 Markdown 字幕内容,无需离开终端,便于摘要整理或研究工作流使用。
使用 -d 标志配合 Azure Document Intelligence 端点,可从扫描件或图像较多的 PDF 中提取文本——此类文件通常难以通过标准解析方式处理。
将 Excel、CSV 或 JSON 文件转换为 Markdown 表格,使结构化数据易于阅读,便于分析或纳入报告。
-d 标志进行增强型 PDF 提取时需要。通过 -e 标志提供您的 Azure Cognitive Services 端点。登录后撰写评价
暂无评价。来分享你的使用体验吧!