Browser & Automation☁️

openai-whisper-api

Name: openai-whisper-api
Author: OpenClaw

精选

使用 OpenAI 的 Whisper API 将音频文件转录为文本——通过简单的 CLI 支持多种格式、语言和输出选项。

作者 OpenClawv1.0.0

正在连接智能体...

npx clawhub@latest install openai-whisper-api

239当前安装数

v1.0.0版本

系统要求

curlOpenAI API Key

openai-whisper-api 技能概述

openai-whisper-api 是一个将 OpenAI 的 /v1/audio/transcriptions 端点（Whisper）封装为简洁 Shell 脚本的技能。只需将其指向任意音频文件，即可在数秒内获得纯文本转录结果。它通过命令行标志支持模型选择、语言提示、自定义输出路径以及 JSON 输出。

如何使用

Step 1: 在终端运行或在 AgentCellar 上安装此技能

npx clawhub@latest install openai-whisper-api

或

点击本页顶部的安装按钮即可一键设置

openai-whisper-api 适用场景

适合使用

您有音频文件（例如 .m4a、.ogg），需要快速转录，而无需编写自定义 API 集成代码。
您希望将转录自动化，作为 Shell 管道或脚本工作流的一部分。
您需要传递语言提示或说话者姓名提示，以提高转录准确性。
您希望从 Whisper API 获取结构化的 JSON 输出，而非纯文本。

不适合使用

您需要实时或流式转录——此技能将完整的音频文件发送到 API，不适合处理实时音频。
您不习惯设置 OPENAI_API_KEY，因为该技能没有其他可替代的转录后端。

核心功能

简单的单命令转录

运行一个简单的 shell 脚本，只需提供音频文件的路径，默认情况下即可在同一位置生成对应的 .txt 转录文件。无需编写任何样板 API 代码。

灵活的输出选项

使用 --out 将输出写入自定义路径，或使用 --json 从 API 请求原始 JSON 以供后续处理。

语言和提示词提示

使用 --language 指定口语语言（例如 en）以提高准确性，或使用 --prompt 提供上下文信息（如说话者姓名），帮助引导转录过程。

模型选择

默认使用 whisper-1，但支持 --model 参数，让您随时准备好使用 OpenAI 未来推出的 Whisper 模型变体。

使用场景

会议或采访转录

录制会议或采访，然后对音频文件运行 openai-whisper-api 技能，生成完整的文字转录稿。传入 --prompt 参数并附上参与者姓名，可提升输出结果中说话人姓名的识别准确率。

自动转录流水线

将脚本集成到定时任务（cron job）或 CI 工作流中，自动从指定目录中获取新的音频文件并进行转录，将结果写入指定的输出文件夹。

播客或语音备忘录归档

通过对一批音频文件批量调用 openai-whisper-api 技能，将语音备忘录或播客节目库转换为可搜索的文本文件。

系统要求

OpenAI API Key (必填) — 用于向 /v1/audio/transcriptions 发送经过身份验证的请求。通过 OPENAI_API_KEY 环境变量或 ~/.openclaw/openclaw.json 文件进行设置。

正在连接智能体...

npx clawhub@latest install openai-whisper-api

239当前安装数

v1.0.0版本

系统要求

curlOpenAI API Key

常见问题

评价

0 条评价

登录后撰写评价

暂无评价。来分享你的使用体验吧！