openai-whisper-api

Name: openai-whisper-api
Author: OpenClaw

openai-whisper-api スキル概要

openai-whisper-api は、OpenAIの /v1/audio/transcriptions エンドポイント（Whisper）をシンプルなシェルスクリプトにラップしたスキルです。任意の音声ファイルを指定するだけで、数秒でプレーンテキストのトランスクリプトを取得できます。モデルの選択、言語のヒント、カスタム出力パス、JSON出力をサポートしており、これらはすべてコマンドラインフラグで指定できます。

使い方

Step 1: ターミナルで実行するか AgentCellar にインストール

npx clawhub@latest install openai-whisper-api

または

このページ上部のインストールボタンをクリックするとワンクリックでセットアップできます

When to Use openai-whisper-api

Best Fit

音声ファイル（例：.m4a、.ogg）を、カスタムAPI統合コードを構築せずに素早く文字起こししたい場合。
シェルパイプラインやスクリプト化されたワークフローの一部として、文字起こしを自動化したい場合。
文字起こしの精度を向上させるために、言語ヒントや話者名のプロンプトを渡す必要がある場合。
プレーンテキストではなく、Whisper APIから構造化されたJSON出力を取得したい場合。

When Not to Use

リアルタイムまたはストリーミングの文字起こしが必要な場合 — このスキルは完全な音声ファイルをAPIに送信するため、ライブ音声には適していません。
OPENAI_API_KEY の設定に抵抗がある場合、このスキルには代替の文字起こしバックエンドがありません。

主な機能

シンプルなワンコマンド文字起こし

音声ファイルへのパスを指定して単一のシェルスクリプトを実行するだけで、デフォルトでそのファイルと同じ場所に .txt 形式のトランスクリプトが生成されます。定型的なAPIコードは一切不要です。

柔軟な出力オプション

--out でカスタムパスに出力を書き込んだり、--json を使って API からの生の JSON をリクエストし、後続の処理に活用することができます。

言語とプロンプトのヒント

--language を使用して音声の言語（例: en）を指定すると精度が向上します。また、--prompt を使用して話者名などのコンテキストを提供することで、文字起こしをより適切に誘導できます。

モデルの選択

デフォルトは whisper-1 ですが、--model フラグを受け付けるため、OpenAI が将来提供する Whisper モデルのバリアントにも対応できます。

ユースケース

会議またはインタビューの文字起こし

会議やインタビューを録音し、音声ファイルに対してスキルを実行することで、完全なテキスト文字起こしを生成します。出力における話者名の認識精度を向上させるために、参加者の名前を --prompt で指定して渡してください。

自動トランスクリプションパイプライン

スクリプトをcronジョブまたはCIワークフローに統合し、ディレクトリから新しい音声ファイルを自動的に取得してトランスクリプションを行い、指定した出力フォルダに結果を書き込みます。

ポッドキャストまたはボイスメモのアーカイブ化

スキル openai-whisper-api を複数の音声ファイルに対してバッチ処理でスクリプト実行することで、ボイスメモやポッドキャストエピソードのライブラリを検索可能なテキストファイルに変換できます。

動作要件

OpenAI API Key (必須) — /v1/audio/transcriptions へのリクエストを認証します。OPENAI_API_KEY 環境変数または ~/.openclaw/openclaw.json で設定します。

エージェントに接続中...

npx clawhub@latest install openai-whisper-api

239現在のインストール数

v1.0.0バージョン

動作要件

curlOpenAI API Key

よくある質問

レビュー

0件のレビュー

レビューを書くにはログイン

まだレビューはありません。最初の体験をシェアしましょう！