<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Markdown on 酒中仙</title><link>https://hanguangwu.github.io/blog/tags/markdown/</link><description>Recent content in Markdown on 酒中仙</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><copyright>hanguangwu</copyright><lastBuildDate>Thu, 05 Feb 2026 14:34:25 -0800</lastBuildDate><atom:link href="https://hanguangwu.github.io/blog/tags/markdown/index.xml" rel="self" type="application/rss+xml"/><item><title>PDF转Markdown工具</title><link>https://hanguangwu.github.io/blog/p/pdf%E8%BD%ACmarkdown%E5%B7%A5%E5%85%B7/</link><pubDate>Thu, 05 Feb 2026 14:34:25 -0800</pubDate><guid>https://hanguangwu.github.io/blog/p/pdf%E8%BD%ACmarkdown%E5%B7%A5%E5%85%B7/</guid><description>&lt;h1 id="pdf转markdown工具"&gt;PDF转Markdown工具
&lt;/h1&gt;&lt;h2 id="前言"&gt;前言
&lt;/h2&gt;&lt;p&gt;在大语言模型（LLM）迅速发展的时代，文档处理和转换变得尤为重要。当我们需要将各种格式的文档（如 PDF、Word、PowerPoint 等）输入到 LLM 中进行分析或处理时，首先需要将这些文档转换为文本格式。然而，简单的文本转换往往会丢失文档的结构信息，如标题、列表、表格等重要元素。Microsoft 开源的 MarkItDown 项目就是为解决这一问题而诞生的。它能将各种格式的文档转换为 Markdown 格式，既保留了原文档的结构信息，又保证了输出内容的简洁性，特别适合与 LLM 配合使用。本文将深入探讨 MarkItDown 的功能特点、应用场景和使用方法，帮助开发者更好地利用这一强大工具。&lt;/p&gt;
&lt;h2 id="markitdown"&gt;markitdown
&lt;/h2&gt;&lt;p&gt;MarkItDown now offers an MCP (Model Context Protocol) server for integration with LLM applications like Claude Desktop. See &lt;a class="link" href="https://github.com/microsoft/markitdown/tree/main/packages/markitdown-mcp" target="_blank" rel="noopener"
&gt;markitdown-mcp&lt;/a&gt; for more information.&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://github.com/microsoft/markitdown" target="_blank" rel="noopener"
&gt;Python tool for converting files and office documents to Markdown.&lt;/a&gt;&lt;/p&gt;
&lt;h3 id="主要功能"&gt;主要功能
&lt;/h3&gt;&lt;p&gt;MarkItDown 的核心功能是将各种文件格式转换为 Markdown，特别强调在转换过程中保留文档结构和内容的完整性。与类似工具如 textract 相比，MarkItDown 更专注于保留文档中的以下结构元素：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;标题层级&lt;/li&gt;
&lt;li&gt;列表格式&lt;/li&gt;
&lt;li&gt;表格结构&lt;/li&gt;
&lt;li&gt;超链接&lt;/li&gt;
&lt;li&gt;图像引用&lt;/li&gt;
&lt;li&gt;文本格式（如粗体、斜体）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="支持的文件格式"&gt;支持的文件格式
&lt;/h3&gt;&lt;p&gt;MarkItDown 支持的文件格式非常丰富，包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;PDF 文档&lt;/li&gt;
&lt;li&gt;PowerPoint 演示文稿&lt;/li&gt;
&lt;li&gt;Word 文档&lt;/li&gt;
&lt;li&gt;Excel 电子表格&lt;/li&gt;
&lt;li&gt;图像文件（包括 EXIF 元数据提取和 OCR 文字识别）&lt;/li&gt;
&lt;li&gt;音频文件（支持 EXIF 元数据提取和语音转文字）&lt;/li&gt;
&lt;li&gt;HTML 网页&lt;/li&gt;
&lt;li&gt;各种文本格式（CSV、JSON、XML 等）&lt;/li&gt;
&lt;li&gt;ZIP 压缩文件（自动遍历内容）&lt;/li&gt;
&lt;li&gt;YouTube 视频链接（提取字幕）&lt;/li&gt;
&lt;li&gt;EPub 电子书&lt;/li&gt;
&lt;li&gt;以及更多&amp;hellip;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="技术架构"&gt;技术架构
&lt;/h3&gt;&lt;p&gt;MarkItDown 采用模块化设计，主要包含以下组件：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;核心转换引擎&lt;/strong&gt;：负责文件格式识别和转换协调&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件格式转换器&lt;/strong&gt;：针对不同文件格式的专用转换模块&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;插件系统&lt;/strong&gt;：支持第三方扩展功能&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;命令行接口&lt;/strong&gt;：便于在终端中使用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Python API&lt;/strong&gt;：方便集成到其他 Python 应用中&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="安装与使用"&gt;安装与使用
&lt;/h3&gt;&lt;h4 id="安装"&gt;安装
&lt;/h4&gt;&lt;p&gt;MarkItDown 可以通过 pip 安装。为了获得完整功能，建议安装所有可选依赖：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;pip install markitdown&lt;span class="o"&gt;[&lt;/span&gt;all&lt;span class="o"&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果只需要部分功能，可以选择性安装依赖：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 仅安装 PDF、Word 和 PowerPoint 支持&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;pip install markitdown&lt;span class="o"&gt;[&lt;/span&gt;pdf,docx,pptx&lt;span class="o"&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;也可以从源代码安装：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;git clone git@github.com:microsoft/markitdown.git
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;cd&lt;/span&gt; markitdown
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;pip install -e &lt;span class="s1"&gt;&amp;#39;packages/markitdown[all]&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id="可选依赖包"&gt;可选依赖包
&lt;/h4&gt;&lt;p&gt;MarkItDown 将依赖组织为可选特性组，当前支持的特性组包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;[all]&lt;/code&gt;：安装所有可选依赖&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[pptx]&lt;/code&gt;：PowerPoint 文件支持&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[docx]&lt;/code&gt;：Word 文件支持&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[xlsx]&lt;/code&gt;：Excel 文件支持&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[xls]&lt;/code&gt;：旧版 Excel 文件支持&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[pdf]&lt;/code&gt;：PDF 文件支持&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[outlook]&lt;/code&gt;：Outlook 邮件支持&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[az-doc-intel]&lt;/code&gt;：Azure Document Intelligence 支持&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[audio-transcription]&lt;/code&gt;：音频转录支持（wav 和 mp3 文件）&lt;/li&gt;
&lt;li&gt;&lt;code&gt;[youtube-transcription]&lt;/code&gt;：YouTube 视频转录支持&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="命令行使用"&gt;命令行使用
&lt;/h4&gt;&lt;p&gt;最基本的命令行使用方式：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;span class="lnt"&gt;6
&lt;/span&gt;&lt;span class="lnt"&gt;7
&lt;/span&gt;&lt;span class="lnt"&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 转换文件并输出到标准输出&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;markitdown path-to-file.pdf &amp;gt; document.md
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 指定输出文件&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;markitdown path-to-file.pdf -o document.md
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 从标准输入读取内容&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;cat path-to-file.pdf &lt;span class="p"&gt;|&lt;/span&gt; markitdown
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;img src="https://pica.zhimg.com/v2-e62fe5dd8536a91074426b37bb722324_1440w.jpg"
loading="lazy"
&gt;&lt;/p&gt;
&lt;p&gt;命令行方式&lt;/p&gt;
&lt;h4 id="python-api-使用"&gt;Python API 使用
&lt;/h4&gt;&lt;p&gt;基本使用：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="nn"&gt;markitdown&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;md&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;enable_plugins&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="kc"&gt;False&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# Set to True to enable plugins&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;result&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;md&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;convert&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;test.xlsx&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;result&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;text_content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;集成文档智能：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="nn"&gt;markitdown&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;md&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;docintel_endpoint&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;&amp;lt;document_intelligence_endpoint&amp;gt;&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;result&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;md&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;convert&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;test.pdf&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;result&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;text_content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;使用大语言模型生成图片描述（当前只适用于 pptx 和 image文件）需要提供 &lt;code&gt;llm_client&lt;/code&gt; 和 &lt;code&gt;llm_model&lt;/code&gt;:&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;span class="lnt"&gt;6
&lt;/span&gt;&lt;span class="lnt"&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="nn"&gt;markitdown&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="nn"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;md&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;llm_client&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;llm_model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;gpt-4o&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;llm_prompt&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;optional custom prompt&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;result&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;md&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;convert&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;example.jpg&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;result&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;text_content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Azure AI 文档智能是&lt;strong&gt;一项基于云的Azure AI 服务，支持构建智能文档处理解决方案&lt;/strong&gt;。在 Python 代码中使用 MarkItDown：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt; 1
&lt;/span&gt;&lt;span class="lnt"&gt; 2
&lt;/span&gt;&lt;span class="lnt"&gt; 3
&lt;/span&gt;&lt;span class="lnt"&gt; 4
&lt;/span&gt;&lt;span class="lnt"&gt; 5
&lt;/span&gt;&lt;span class="lnt"&gt; 6
&lt;/span&gt;&lt;span class="lnt"&gt; 7
&lt;/span&gt;&lt;span class="lnt"&gt; 8
&lt;/span&gt;&lt;span class="lnt"&gt; 9
&lt;/span&gt;&lt;span class="lnt"&gt;10
&lt;/span&gt;&lt;span class="lnt"&gt;11
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="nn"&gt;markitdown&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 基本使用&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;md&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;enable_plugins&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="kc"&gt;False&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# 设置为 True 启用插件&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;result&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;md&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;convert&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;test.xlsx&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;result&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;text_content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 使用 Azure Document Intelligence&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;md&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;MarkItDown&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;docintel_endpoint&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;&amp;lt;document_intelligence_endpoint&amp;gt;&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;result&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;md&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;convert&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;test.pdf&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;result&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;text_content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id="pdf3md"&gt;pdf3md
&lt;/h2&gt;&lt;p&gt;PDF3MD 是一个现代化、用户友好的网络应用程序，旨在将 PDF 文档转换为干净、格式化的 Markdown 文本。它提供了高效的转换工具，支持多种文件格式之间的转换。&lt;/p&gt;
&lt;p&gt;注意：不要用那种扫描的 &lt;code&gt;pdf&lt;/code&gt; 文件，毕竟还不支持 &lt;code&gt;ocr&lt;/code&gt; 功能&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://github.com/murtaza-nasir/pdf3md" target="_blank" rel="noopener"
&gt;A modern, user-friendly web application that converts PDF documents to clean, formatted Markdown text.&lt;/a&gt;&lt;/p&gt;
&lt;h3 id="主要特点"&gt;主要特点
&lt;/h3&gt;&lt;ol&gt;
&lt;li&gt;PDF 转 Markdown：能够将 PDF 文档转换为可读性强的 Markdown 格式，同时保留文档的结构元素。&lt;/li&gt;
&lt;li&gt;Markdown 转 Word (DOCX)：支持将用户提供的 Markdown 文本转换为 DOCX 格式，使用 Pandoc 实现高质量输出。&lt;/li&gt;
&lt;li&gt;多文件上传：支持同时上传和处理多个 PDF 文件，提升工作效率。&lt;/li&gt;
&lt;li&gt;拖拽式界面：提供用户友好的文件上传方式，支持拖放或传统的文件选择。&lt;/li&gt;
&lt;li&gt;实时进度跟踪：在转换过程中提供详细的状态更新，用户可以实时监控转换进度。&lt;/li&gt;
&lt;li&gt;现代响应式用户界面：设计直观，适合各种设备使用。&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="应用场景"&gt;应用场景
&lt;/h3&gt;&lt;ol&gt;
&lt;li&gt;文档转换：适用于需要将 PDF 文档转换为 Markdown 的用户，例如技术文档编辑、博客撰写等。&lt;/li&gt;
&lt;li&gt;内容编辑：方便用户在 Markdown 格式下进行内容编辑和格式化，然后可以轻松导出为 Word 文档。&lt;/li&gt;
&lt;li&gt;批量处理：适合需要处理大量文档的场景，例如教育机构、出版社等。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;PDF3MD 通过提供简化的文档转换流程，大大提升了用户的工作效率和体验。&lt;/p&gt;
&lt;h2 id="gptpdf"&gt;gptpdf
&lt;/h2&gt;&lt;p&gt;gptpdf 是一个利用VLLM解析PDF为Markdown的工具，几乎完美支持数学公式、表格等。&lt;/p&gt;
&lt;p&gt;&lt;img src="https://pica.zhimg.com/v2-d23eda146615dd13b084837b0edde7f6_1440w.jpg"
loading="lazy"
&gt;&lt;/p&gt;
&lt;p&gt;GPTPDF 是一个使用视觉大模型（如 GPT-4o）将 PDF 文件解析成 Markdown 文件的工具。它主要用于高效地解析 PDF 文档中的排版、数学公式、表格、图片、图表等内容，并将这些内容转换为结构化的 Markdown 格式。其显著特点是简单且成本低，每页平均费用为 $0.013。&lt;/p&gt;
&lt;p&gt;地址： &lt;a class="link" href="https://github.com/CosmosShadow/gptpdf" target="_blank" rel="noopener"
&gt;https://github.com/CosmosShadow/gptpdf&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="marker"&gt;marker
&lt;/h2&gt;&lt;p&gt;Marker是一款将PDF快速精准转换为Markdown的工具，支持多种文档格式和语言。&lt;/p&gt;
&lt;p&gt;&lt;img src="https://pica.zhimg.com/v2-a7af59d898bbbb3d8b10f9c6a2d25fae_1440w.jpg"
loading="lazy"
&gt;&lt;/p&gt;
&lt;p&gt;Marker是一款能够快速且准确地将PDF转换为Markdown的工具。它支持多种类型的文档（针对书籍和科学论文进行了优化），支持所有语言，并且能够去除页眉、页脚及其他杂乱信息。此外，它还能正确格式化表格和代码块，并提取图像保存为Markdown。同时，Marker将大多数的公式转换为LaTeX格式，适用于GPU、CPU或MPS环境。&lt;/p&gt;
&lt;p&gt;地址： &lt;a class="link" href="https://github.com/vikparuchuri/marker" target="_blank" rel="noopener"
&gt;https://github.com/vikparuchuri/marker&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="pdf-extract-kit"&gt;PDF-Extract-Kit
&lt;/h2&gt;&lt;p&gt;PDF-Extract-Kit 提供高质量PDF内容提取，支持布局检测、公式识别和OCR功能&lt;/p&gt;
&lt;p&gt;&lt;img src="https://pic2.zhimg.com/v2-d88f85513cf62647be7a0dda7eb649ff_1440w.jpg"
loading="lazy"
&gt;&lt;/p&gt;
&lt;p&gt;基本功能：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;版面检测：使用 LayoutLMv3 模型进行区域检测，如检测图片、表格、标题、文本等。&lt;/li&gt;
&lt;li&gt;公式检测：使用 YOLOv8 模型检测公式，包括行内公式和独立公式。&lt;/li&gt;
&lt;li&gt;公式识别：使用 UniMERNet 进行公式识别。&lt;/li&gt;
&lt;li&gt;光学字符识别 (OCR)：使用 PaddleOCR 进行文本识别。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;地址： &lt;a class="link" href="https://github.com/opendatalab/PDF-Extract-Kit" target="_blank" rel="noopener"
&gt;https://github.com/opendatalab/PDF-Extract-Kit&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="zerox"&gt;zeroX
&lt;/h2&gt;&lt;p&gt;Zerox OCR 是一种经济高效且准确的文档OCR工具，适用于AI数据处理。&lt;/p&gt;
&lt;p&gt;&lt;img src="https://pic1.zhimg.com/v2-b0be541184234a0890bc2c82f027552e_1440w.jpg"
loading="lazy"
&gt;&lt;/p&gt;
&lt;p&gt;Zerox OCR 是一种极其简便的方法，用于将文档进行光学字符识别（OCR）并方便人工智能进行后续处理。鉴于文档往往包含复杂布局、表格、图表等，视觉模型在处理这些内容时尤其有效。&lt;/p&gt;
&lt;p&gt;基本逻辑如下：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;提供一个 PDF 文件（URL 或文件缓冲区）。&lt;/li&gt;
&lt;li&gt;将 PDF 转换成一系列图像。&lt;/li&gt;
&lt;li&gt;将每个图像传给 GPT，让其生成 Markdown 格式的文本。&lt;/li&gt;
&lt;li&gt;聚合所有响应，并返回 Markdown 格式的结果。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;地址： &lt;a class="link" href="https://github.com/getomni-ai/zeroX" target="_blank" rel="noopener"
&gt;https://github.com/getomni-ai/zeroX&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="omniparse"&gt;omniparse
&lt;/h2&gt;&lt;p&gt;OmniParse是一个将各种非结构化数据转换为结构化、适用于生成式AI（LLM）应用的平台。&lt;/p&gt;
&lt;p&gt;&lt;img src="https://pica.zhimg.com/v2-d7b200f79c65701c30d5893c85207264_1440w.jpg"
loading="lazy"
&gt;&lt;/p&gt;
&lt;p&gt;OmniParse 是一个数据解析平台，旨在将各种非结构化数据转换为适用于生成式AI（GenAI）应用的结构化数据。无论是文档、表格、图像、视频、音频文件，还是网页，OmniParse 都能对其进行处理，使其变得干净、结构化，并为诸如 RAG（Retrieval-Augmented Generation）和细调等AI应用做好准备。&lt;/p&gt;
&lt;p&gt;特色：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;完全本地化，无需外部API&lt;/li&gt;
&lt;li&gt;支持多达 20 种文件类型&lt;/li&gt;
&lt;li&gt;将文档、多媒体和网页转换为高质量的结构化 Markdown&lt;/li&gt;
&lt;li&gt;支持表格提取、图像提取与标注、音频/视频转录、网页爬取&lt;/li&gt;
&lt;li&gt;通过 Docker 和 Skypilot 轻松部署&lt;/li&gt;
&lt;li&gt;兼容 Colab&lt;/li&gt;
&lt;li&gt;交互式 UI 由 Gradio 提供支持&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;地址： &lt;a class="link" href="https://github.com/adithya-s-k/omniparse" target="_blank" rel="noopener"
&gt;https://github.com/adithya-s-k/omniparse&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="mineru"&gt;MinerU
&lt;/h2&gt;&lt;p&gt;MinerU 是一个开源的高质量数据提取工具，支持多种文件格式&lt;/p&gt;
&lt;p&gt;&lt;img src="https://pic2.zhimg.com/v2-0b620d8cd335c5094b881feff6ec4003_1440w.jpg"
loading="lazy"
&gt;&lt;/p&gt;
&lt;p&gt;MinerU 是一个一站式、开源的高质量数据提取工具，主要包括以下两个核心功能模块：&lt;/p&gt;
&lt;p&gt;功能介绍：Magic-PDF 能将 PDF 文档转换为 Markdown 格式，可以处理本地存储或支持 S3 协议的对象存储中的文件。&lt;/p&gt;
&lt;p&gt;主要特色：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;支持多种前端模型输入&lt;/li&gt;
&lt;li&gt;自动去除页眉、页脚、脚注和页码&lt;/li&gt;
&lt;li&gt;保留文档原有的结构和格式，包括标题、段落、列表等&lt;/li&gt;
&lt;li&gt;提取并显示图片和表格&lt;/li&gt;
&lt;li&gt;将公式转换为 LaTeX 格式&lt;/li&gt;
&lt;li&gt;自动检测和转换乱码 PDF 文档&lt;/li&gt;
&lt;li&gt;兼容 CPU 和 GPU 环境&lt;/li&gt;
&lt;li&gt;可在 Windows、Linux 和 macOS 平台上使用&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;地址： &lt;a class="link" href="https://github.com/opendatalab/MinerU" target="_blank" rel="noopener"
&gt;https://github.com/opendatalab/MinerU&lt;/a&gt;&lt;/p&gt;
&lt;h2 id="参考资料"&gt;参考资料
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://zhuanlan.zhihu.com/p/711487482" target="_blank" rel="noopener"
&gt;六个开源的PDF转Markdown项目&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://zhuanlan.zhihu.com/p/1900486359417853286" target="_blank" rel="noopener"
&gt;MarkItDown：微软开源的文档转 Markdown 工具及其在 LLM 时代的应用&lt;/a&gt;&lt;/p&gt;</description></item></channel></rss>