OpenAI の Whisper API を使用して音声ファイルをテキストに文字起こしします — シンプルな CLI を通じて、複数のフォーマット、言語、出力オプションに対応しています。
npx clawhub@latest install openai-whisper-api動作要件
openai-whisper-api は、OpenAIの /v1/audio/transcriptions エンドポイント(Whisper)をシンプルなシェルスクリプトにラップしたスキルです。任意の音声ファイルを指定するだけで、数秒でプレーンテキストのトランスクリプトを取得できます。モデルの選択、言語のヒント、カスタム出力パス、JSON出力をサポートしており、これらはすべてコマンドラインフラグで指定できます。
npx clawhub@latest install openai-whisper-apiこのページ上部のインストールボタンをクリックするとワンクリックでセットアップできます
.m4a、.ogg)を、カスタムAPI統合コードを構築せずに素早く文字起こししたい場合。OPENAI_API_KEY の設定に抵抗がある場合、このスキルには代替の文字起こしバックエンドがありません。音声ファイルへのパスを指定して単一のシェルスクリプトを実行するだけで、デフォルトでそのファイルと同じ場所に .txt 形式のトランスクリプトが生成されます。定型的なAPIコードは一切不要です。
--out でカスタムパスに出力を書き込んだり、--json を使って API からの生の JSON をリクエストし、後続の処理に活用することができます。
--language を使用して音声の言語(例: en)を指定すると精度が向上します。また、--prompt を使用して話者名などのコンテキストを提供することで、文字起こしをより適切に誘導できます。
デフォルトは whisper-1 ですが、--model フラグを受け付けるため、OpenAI が将来提供する Whisper モデルのバリアントにも対応できます。
会議やインタビューを録音し、音声ファイルに対してスキルを実行することで、完全なテキスト文字起こしを生成します。出力における話者名の認識精度を向上させるために、参加者の名前を --prompt で指定して渡してください。
スクリプトをcronジョブまたはCIワークフローに統合し、ディレクトリから新しい音声ファイルを自動的に取得してトランスクリプションを行い、指定した出力フォルダに結果を書き込みます。
スキル openai-whisper-api を複数の音声ファイルに対してバッチ処理でスクリプト実行することで、ボイスメモやポッドキャストエピソードのライブラリを検索可能なテキストファイルに変換できます。
/v1/audio/transcriptions へのリクエストを認証します。OPENAI_API_KEY 環境変数または ~/.openclaw/openclaw.json で設定します。npx clawhub@latest install openai-whisper-api動作要件
レビューを書くにはログイン
まだレビューはありません。最初の体験をシェアしましょう!