openai-whisper-api

Name: openai-whisper-api
Author: OpenClaw

openai-whisper-api 스킬 개요

openai-whisper-api는 OpenAI의 /v1/audio/transcriptions 엔드포인트(Whisper)를 간단한 셸 스크립트로 래핑한 스킬입니다. 오디오 파일을 지정하면 몇 초 안에 일반 텍스트 트랜스크립트를 반환합니다. 모델 선택, 언어 힌트, 사용자 지정 출력 경로, JSON 출력을 지원하며, 이 모든 기능은 커맨드라인 플래그를 통해 사용할 수 있습니다.

사용 방법

Step 1: 터미널에서 실행하거나 AgentCellar에 설치

npx clawhub@latest install openai-whisper-api

또는

이 페이지 상단의 설치 버튼을 클릭하면 원클릭으로 설정할 수 있습니다

When to Use openai-whisper-api

Best Fit

커스텀 API 통합 코드를 작성하지 않고 오디오 파일(예: .m4a, .ogg)을 빠르게 텍스트로 변환해야 하는 경우.
셸 파이프라인이나 스크립트 워크플로의 일부로 전사(transcription)를 자동화하고 싶은 경우.
전사 정확도를 높이기 위해 언어 힌트나 화자 이름 프롬프트를 전달해야 하는 경우.
일반 텍스트 대신 Whisper API에서 구조화된 JSON 출력을 원하는 경우.

When Not to Use

실시간 또는 스트리밍 전사가 필요한 경우 — 이 스킬은 완전한 오디오 파일을 API에 전송하며 실시간 오디오에는 적합하지 않습니다.
OPENAI_API_KEY 설정이 불편한 경우, 이 스킬에는 대체 전사 백엔드가 없습니다.

주요 기능

간단한 단일 명령 트랜스크립션

오디오 파일 경로를 지정하여 단일 셸 스크립트를 실행하면 기본적으로 동일한 위치에 .txt 트랜스크립트 파일이 생성됩니다. 별도의 API 보일러플레이트 코드가 필요하지 않습니다.

유연한 출력 옵션

--out을 사용하여 사용자 지정 경로에 출력을 저장하거나, --json을 사용하여 API에서 원시 JSON을 요청하여 후속 처리에 활용하세요.

언어 및 프롬프트 힌트

--language를 사용하여 더 나은 정확도를 위해 음성 언어(예: en)를 지정하거나, --prompt를 사용하여 화자 이름과 같은 컨텍스트를 제공하여 전사를 안내할 수 있습니다.

모델 선택

기본값은 whisper-1이지만 --model 플래그를 허용하여, OpenAI가 제공하는 향후 Whisper 모델 변형에 대비할 수 있습니다.

활용 사례

회의 또는 인터뷰 전사

회의나 인터뷰를 녹음한 후, 오디오 파일에 대해 스킬을 실행하여 전체 텍스트 전사본을 생성합니다. 출력 결과에서 화자 이름 인식을 개선하려면 참가자 이름과 함께 --prompt를 전달하세요.

자동화된 전사 파이프라인

스크립트를 cron 작업 또는 CI 워크플로우에 통합하여 디렉토리에서 새로운 오디오 파일을 자동으로 가져와 전사하고, 결과를 지정된 출력 폴더에 저장합니다. 이 과정에서 openai-whisper-api 스킬을 활용하여 전사 작업을 자동화할 수 있습니다.

팟캐스트 또는 음성 메모 아카이빙

음성 메모나 팟캐스트 에피소드 라이브러리를 검색 가능한 텍스트 파일로 변환하려면, 여러 오디오 파일에 대해 openai-whisper-api 스킬을 일괄 처리 방식으로 스크립팅하세요.

요구 사항

OpenAI API Key (필수) — /v1/audio/transcriptions에 대한 요청을 인증합니다. OPENAI_API_KEY 환경 변수 또는 ~/.openclaw/openclaw.json을 통해 설정합니다.

에이전트에 연결 중...

npx clawhub@latest install openai-whisper-api

239현재 설치 수

v1.0.0버전

요구 사항

curlOpenAI API Key

자주 묻는 질문

리뷰

0개 리뷰

리뷰를 작성하려면 로그인

아직 리뷰가 없습니다. 첫 번째로 경험을 공유해 보세요!