Markdown Converter

Name: Markdown Converter
Author: Peter Steinberger

PDF、Officeドキュメント、画像、音声、YouTube URLなど、さまざまなファイルをクリーンなMarkdownに変換 — インストール不要。

Peter Steinbergerv1.0.0

エージェントに接続中...

npx clawhub@latest install markdown-converter

72現在のインストール数

109累計インストール数

v1.0.0バージョン

ソースコードを見る(ClawHub)

Markdown Converter スキル概要

Markdown Converter は、markitdown を使用して、ほぼあらゆるファイル形式をクリーンで構造化された Markdown に変換します。uvx 経由で呼び出されるため、事前インストールは不要です。PDF や Office ドキュメントから、OCR 対応の画像、文字起こし対応の音声、ZIP アーカイブ、さらには YouTube の URL まで、あらゆるものを処理できます。出力は文書構造（見出し、テーブル、リスト、リンク）を保持するため、LLM やテキスト分析パイプラインへのコンテンツ入力に最適です。

使い方

Step 1: ターミナルで実行するか AgentCellar にインストール

npx clawhub@latest install markdown-converter

または

このページ上部のインストールボタンをクリックするとワンクリックでセットアップできます

When to Use Markdown Converter

Best Fit

LLMやRAGパイプラインで使用するために、OfficeドキュメントWord、Excel、PowerPoint）やPDFをMarkdownに変換する必要がある場合。
画像からテキストやメタデータ（EXIF + OCR）を抽出したり、音声ファイルをMarkdownに文字起こしたりしたい場合。
ZIPアーカイブ内のファイルを一括処理し、すべての内容を一度にMarkdownに変換する必要がある場合。
YouTubeのURLからトランスクリプトの内容を、手動でコピー＆ペーストすることなく、構造化されたMarkdownに取り込みたい場合。

When Not to Use

Markdownを別のフォーマット（PDFやDOCXなど）に逆変換する必要がある場合 — このスキルは一方向のみです。
ピクセル単位の完全なレイアウト保持が必要な場合；高度に書式設定されたドキュメントのMarkdown変換は、本質的に情報が失われます。

主な機能

幅広いフォーマットのサポート

PDF、Word（.docx）、PowerPoint（.pptx）、Excel（.xlsx/.xls）、HTML、CSV、JSON、XML、画像、音声、ZIPアーカイブ、YouTube URL、EPubファイルをMarkdownに変換します。

インストール不要

グローバルインストールなしで実行するために uvx markitdown を使用します。依存関係は初回実行時に取得・キャッシュされ、以降の実行は大幅に高速化されます。

構造を保持した出力

変換されたMarkdownは、見出し、テーブル、箇条書き、リンクなどのドキュメント構造を保持するため、その後のLLMへの取り込みやテキスト分析がより正確になります。

画像OCRと音声文字起こし

画像からEXIFメタデータを抽出してOCRを実行し、音声ファイルを文字起こしして、その結果をMarkdownの出力に直接埋め込みます。

Azure Document Intelligence 統合

デフォルトの抽出精度が低い複雑なPDFやスキャンされたPDFに対して、-d フラグを使用することで、設定可能なエンドポイントを介してAzure Document Intelligenceを有効化し、より高品質な結果を得ることができます。

柔軟な入出力モード

ファイルパス、標準入力パイプ、標準出力に対応しており、あいまいな入力に対してファイル拡張子、MIMEタイプ、文字セットをヒントとして指定するオプションフラグも利用できます。

ユースケース

LLMドキュメント取り込みパイプライン

PDFおよびWordドキュメントのフォルダを検索拡張生成（RAG）システムに投入する前に、Markdown Converter を使用してMarkdownに変換します。見出しや表の構造を保持することで、モデルがそれらを適切に解析・推論できるようになります。

YouTubeトランスクリプト抽出

YouTubeのURLをそのままMarkdown Converterに渡すと、構造化されたMarkdownトランスクリプトを取得できます。ターミナルを離れることなく、要約やリサーチのワークフローに役立ちます。

Azure AIを使用したスキャンPDFの抽出

-d フラグをAzure Document IntelligenceエンドポイントとともPDFを使用することで、標準的な解析では処理が難しい、スキャンされた画像が多いPDFからテキストを抽出できます。

スプレッドシートおよびデータファイルの正規化

Excel、CSV、またはJSONファイルをMarkdownテーブルに変換し、構造化データを人間が読みやすい形式にして、分析やレポートへの組み込みにすぐに使えるようにします。

動作要件

Azure Document Intelligence Endpoint (オプション) — PDFの高度な抽出に -d フラグを使用する場合にのみ必要です。-e フラグを使用してAzure Cognitive ServicesのエンドポイントをAzure Document Intelligence Endpointに指定してください。

エージェントに接続中...

npx clawhub@latest install markdown-converter

72現在のインストール数

109累計インストール数

v1.0.0バージョン

ソースコードを見る(ClawHub)

よくある質問

レビュー

0件のレビュー

レビューを書くにはログイン

まだレビューはありません。最初の体験をシェアしましょう！