fix: encoder args #225 #224

zhzLuke96 · zhzLuke96 · commit e257af32f027 · 2025-04-16T15:57:13.000+08:00
- 修复 ffmpeg 参数覆盖问题
diff --git a/modules/core/handler/AudioHandler.py b/modules/core/handler/AudioHandler.py
@@ -32,7 +32,7 @@ def remove_wav_bytes_header(wav_bytes: bytes):
     return wav_file.get_body_data()
 
 
-def read_np_to_wav(audio_data: np.ndarray) -> bytes:
+def covert_to_s16le(audio_data: np.ndarray) -> bytes:
     audio_data: np.ndarray = audio_data / np.max(np.abs(audio_data))
     audio_data = (audio_data * 32767).astype(np.int16)
     return audio_data.tobytes()
@@ -104,8 +104,10 @@ async def enqueue_to_stream(self) -> AsyncGenerator[bytes, None]:
 
             chunk_data = bytes()
             async for sample_rate, audio_data in self.enqueue_stream():
-                encoder.set_header(sample_rate=sample_rate)
-                audio_bytes = read_np_to_wav(audio_data=audio_data)
+                encoder.set_header(
+                    sample_rate=sample_rate, sample_width=audio_data.dtype.itemsize
+                )
+                audio_bytes = covert_to_s16le(audio_data=audio_data)
 
                 logger.debug(f"write audio_bytes len: {len(audio_bytes)}")
                 encoder.write(audio_bytes)
@@ -151,8 +153,10 @@ async def enqueue_to_stream_join(self) -> AsyncGenerator[bytes, None]:
         encoder = self.get_encoder()
         chunk_data = bytes()
         async for sample_rate, audio_data in self.enqueue_stream():
-            encoder.set_header(sample_rate=sample_rate)
-            audio_bytes = read_np_to_wav(audio_data=audio_data)
+            encoder.set_header(
+                sample_rate=sample_rate, sample_width=audio_data.dtype.itemsize
+            )
+            audio_bytes = covert_to_s16le(audio_data=audio_data)
             encoder.write(audio_bytes)
 
         encoder.close()
@@ -172,8 +176,10 @@ async def enqueue_to_bytes(self) -> bytes:
         async with cancel_on_disconnect(self.current_request):
             try:
                 sample_rate, audio_data = await self.enqueue()
-                audio_bytes = read_np_to_wav(audio_data=audio_data)
-                encoder.set_header(sample_rate=sample_rate)
+                audio_bytes = covert_to_s16le(audio_data=audio_data)
+                encoder.set_header(
+                    sample_rate=sample_rate, sample_width=audio_data.dtype.itemsize
+                )
                 encoder.write(audio_bytes)
                 encoder.close()
                 buffer = encoder.read_all()
diff --git a/modules/core/handler/encoder/StreamEncoder.py b/modules/core/handler/encoder/StreamEncoder.py
@@ -65,12 +65,15 @@ def open(
                 "-re",
                 "-threads",
                 str(os.cpu_count() or 4),
+                # NOTE: 指定输入格式为 16 位 PCM
+                # NOTE: 其实文件头里面有写，但是没有文件名，所以需要手动指定
                 "-f",
-                "s16le",  # 指定输入格式为 16 位 PCM
-                "-ar",
-                str(self.sample_rate),  # 输入采样率
-                "-ac",
-                "1",  # 输入单声道
+                "s16le",
+                # NOTE: 不要在这里传递 ar/ac ，我们写在wav文件头上，这里会覆盖掉文件头读取的数据
+                # "-ar",
+                # str(self.sample_rate),  # 输入采样率
+                # "-ac",
+                # "1",  # 输入单声道
                 "-i",
                 "pipe:0",
                 "-f",