Speech recognition HTTP-server on NET7 using vosk/kaldi

Presets

Docker Desktop -> settings -> resources -> Advanced

change RAM to 8Gb+

Vosk/kaldi server

Use WebSocket server docker run -d -p 2700:2700 alphacep/kaldi-ru:latest. In project this server run from docker-compose

IMPORTANT: the server only processes audio in the format WAV, codec PCM, channels MONO 16bit, frequency 8khz

How it works

Run from directory of solution docker-compose up -d

Attach audio file and execute request:

curl -X 'POST' \
	'https://localhost/api/Speech' \
	-H 'accept: */*' \
	-H 'Content-Type: multipart/form-data' \
	-F 'file=@voxworker-voice-file_8khz.wav;type=audio/wav'

Response

{
  "items": [
    {
      "conf": 1,
      "end": 0.57,
      "start": 0,
      "word": "создать"
    },
    {
      "conf": 0.427799,
      "end": 1.062693,
      "start": 0.57,
      "word": "задачу"
    },
    {
      "conf": 1,
      "end": 1.47,
      "start": 1.08,
      "word": "купить"
    },
    {
      "conf": 1,
      "end": 1.89,
      "start": 1.47,
      "word": "творог"
    }
  ],
  "text": "создать задачу купить творог",
  "partial": null
}

Helpers

https://convertio.co/ - help convert files to the desired format

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
api		api
res		res
.dockerignore		.dockerignore
.gitignore		.gitignore
README.md		README.md
docker-compose.dcproj		docker-compose.dcproj
docker-compose.yml		docker-compose.yml
launchSettings.json		launchSettings.json
speech-recognitive-http.sln		speech-recognitive-http.sln
speech-recognitive-http.sln.DotSettings		speech-recognitive-http.sln.DotSettings
voxworker-voice-file_8khz.wav		voxworker-voice-file_8khz.wav

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Speech recognition HTTP-server on NET7 using vosk/kaldi

Presets

Vosk/kaldi server

How it works

Helpers

About

Uh oh!

Releases

Packages

Uh oh!

Languages

dev-shirokov/speech-recognition-http

Folders and files

Latest commit

History

Repository files navigation

Speech recognition HTTP-server on NET7 using vosk/kaldi

Presets

Vosk/kaldi server

How it works

Helpers

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages