xython (win32com + python)
음성인식 : 개요 및 설치
음성인식 : 개요 및 설치
음성인식을 위해서, 우리는 먼저 설치할 것과 왜 그것을 설치하는지에 대해서 알아 볼것입니다. 여기서는
whisper라는 open AI에서 공개한프로그램을 사용할 것 입니다
가장 기본으로 알아야 할 것은
-
마이크로 음성이 전기신호로 변환됩니다
-
전기신호를 0과 1의 디지털로 변경을 합니다
-
변경한 디지털신호를 일정 크기로 잘라서 분석한다
-
음성을 분석해서 텍스트로 만든다
설치방법 : pip install openai-whisper |
음성이 들어오면, 그것을 해석하는데 사용되는 음성분석기가 있다고 하고, 그것을 모델이라는
이름으로 부른다면, 그 모델은 7가지가 존재 합니다. 단, 이름은 계속해서 추가나 변경이 되고있습니다
있을 때 다운로드하는 방법은 아래와같이 사용하면, 없을때는 자동으로 다운로드 됩니다
현재는 아래의 7가지가 존재하며, 가끔 large-v3는 large-v3-turbo라고 불리기도 합니다. 그리고 필요한 모델이
model = whisper.load_model(whisper_model_name)
Size |
Parameters |
English-only model |
Multilingual model |
Required VRAM |
Relative speed |
tiny |
39 M |
tiny.en |
tiny |
~1 GB |
~10x |
base |
74 M |
base.en |
base |
~1 GB |
~7x |
small |
244 M |
small.en |
small |
~2 GB |
~4x |
medium |
769 M |
medium.en |
medium |
~5 GB |
~2x |
large |
1550 M |
N/A |
large |
~10 GB |
1x |
large-v2 |
1550 M |
N/A |
large-v2 |
|
|
large-v3 |
1550 M |
N/A |
large-v3 |
|
|
사용가능한 음성화일 형태 | .wav, .mp3, .m4a, .webm, .ogg, .flac 등 |
가장 간단한 사용방법을 보여드리면, 만약 음성화일이 audio.mp3로 저장이 되어있을 경우, 아래와같이 사용하시면 됩니다
import whisper
model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])