PDF、Officeドキュメント、画像、音声、YouTube URLなど、さまざまなファイルをクリーンなMarkdownに変換 — インストール不要。
npx clawhub@latest install markdown-converterMarkdown Converter は、markitdown を使用して、ほぼあらゆるファイル形式をクリーンで構造化された Markdown に変換します。uvx 経由で呼び出されるため、事前インストールは不要です。PDF や Office ドキュメントから、OCR 対応の画像、文字起こし対応の音声、ZIP アーカイブ、さらには YouTube の URL まで、あらゆるものを処理できます。出力は文書構造(見出し、テーブル、リスト、リンク)を保持するため、LLM やテキスト分析パイプラインへのコンテンツ入力に最適です。
npx clawhub@latest install markdown-converterこのページ上部のインストールボタンをクリックするとワンクリックでセットアップできます
PDF、Word(.docx)、PowerPoint(.pptx)、Excel(.xlsx/.xls)、HTML、CSV、JSON、XML、画像、音声、ZIPアーカイブ、YouTube URL、EPubファイルをMarkdownに変換します。
グローバルインストールなしで実行するために uvx markitdown を使用します。依存関係は初回実行時に取得・キャッシュされ、以降の実行は大幅に高速化されます。
変換されたMarkdownは、見出し、テーブル、箇条書き、リンクなどのドキュメント構造を保持するため、その後のLLMへの取り込みやテキスト分析がより正確になります。
画像からEXIFメタデータを抽出してOCRを実行し、音声ファイルを文字起こしして、その結果をMarkdownの出力に直接埋め込みます。
デフォルトの抽出精度が低い複雑なPDFやスキャンされたPDFに対して、-d フラグを使用することで、設定可能なエンドポイントを介してAzure Document Intelligenceを有効化し、より高品質な結果を得ることができます。
ファイルパス、標準入力パイプ、標準出力に対応しており、あいまいな入力に対してファイル拡張子、MIMEタイプ、文字セットをヒントとして指定するオプションフラグも利用できます。
PDFおよびWordドキュメントのフォルダを検索拡張生成(RAG)システムに投入する前に、Markdown Converter を使用してMarkdownに変換します。見出しや表の構造を保持することで、モデルがそれらを適切に解析・推論できるようになります。
YouTubeのURLをそのままMarkdown Converterに渡すと、構造化されたMarkdownトランスクリプトを取得できます。ターミナルを離れることなく、要約やリサーチのワークフローに役立ちます。
-d フラグをAzure Document IntelligenceエンドポイントとともPDFを使用することで、標準的な解析では処理が難しい、スキャンされた画像が多いPDFからテキストを抽出できます。
Excel、CSV、またはJSONファイルをMarkdownテーブルに変換し、構造化データを人間が読みやすい形式にして、分析やレポートへの組み込みにすぐに使えるようにします。
-d フラグを使用する場合にのみ必要です。-e フラグを使用してAzure Cognitive ServicesのエンドポイントをAzure Document Intelligence Endpointに指定してください。npx clawhub@latest install markdown-converterレビューを書くにはログイン
まだレビューはありません。最初の体験をシェアしましょう!