xython (기본, 컴퓨터원리)

xython (win32com + python)

음성인식 : 개요 및 설치

작성자
sjpark
작성일
2025-06-07 15:43
조회
4

음성인식 : 개요 설치


음성인식을 위해서, 우리는 먼저 설치할 것과 왜 그것을 설치하는지에 대해서 알아 볼것입니다. 여기서는

whisper라는 open AI에서 공개한프로그램을 사용할 것 입니다

가장 기본으로 알아야 할 것은

-     
마이크로 음성이 전기신호로 변환됩니다

-     
전기신호를 01의 디지털로 변경을 합니다

-     
변경한 디지털신호를 일정 크기로 잘라서 분석한다

-     
음성을 분석해서 텍스트로 만든다


설치방법 : pip install openai-whisper

 음성이 들어오면, 그것을 해석하는데 사용되는 음성분석기가 있다고 하고, 그것을 모델이라는

이름으로 부른다면, 그 모델은 7가지가 존재 합니다. , 이름은 계속해서 추가나 변경이 되고있습니다


있을 때 다운로드하는 방법은 아래와같이 사용하면, 없을때는 자동으로 다운로드 됩니다

현재는 아래의 7가지가 존재하며, 가끔 large-v3 large-v3-turbo라고 불리기도 합니다. 그리고 필요한 모델이

 

        model = whisper.load_model(whisper_model_name)

 

Size

Parameters

English-only model

Multilingual model

Required VRAM

Relative speed

tiny

39 M

tiny.en

tiny

~1 GB

~10x

base

74 M

base.en

base

~1 GB

~7x

small

244 M

small.en

small

~2 GB

~4x

medium

769 M

medium.en

medium

~5 GB

~2x

large

1550 M

N/A

large

~10 GB

1x

large-v2

1550 M

N/A

large-v2

 

 

large-v3

1550 M

N/A

large-v3

 

 

 

사용가능한 음성화일 형태

.wav, .mp3, .m4a, .webm, .ogg, .flac

가장 간단한 사용방법을 보여드리면, 만약 음성화일이 audio.mp3로 저장이 되어있을 경우, 아래와같이 사용하시면 됩니다

 

import whisper

model = whisper.load_model("turbo")

result = model.transcribe("audio.mp3")

print(result["text"])