fix: address qwen3 omni copilot review

CUHKSZzxy · CUHKSZzxy · commit d3653dc244c1 · 2026-05-11T12:58:47.000+08:00
diff --git a/lmdeploy/pytorch/models/qwen3_omni_moe_thinker.py b/lmdeploy/pytorch/models/qwen3_omni_moe_thinker.py
@@ -596,7 +596,8 @@ def forward(
                     input_features=audio_values,
                     feature_lens=audio_feature_lengths,
                 )
-                inputs_embeds = inputs_embeds.masked_scatter(audio_mask.unsqueeze(-1), audio_embeds)
+                expanded_audio_mask = audio_mask.unsqueeze(-1).expand_as(inputs_embeds)
+                inputs_embeds = inputs_embeds.masked_scatter(expanded_audio_mask, audio_embeds)
 
         hidden_states = self.language_model(
             input_ids=input_ids,
diff --git a/lmdeploy/vl/media/audio.py b/lmdeploy/vl/media/audio.py
@@ -10,7 +10,7 @@
 from .base import MediaIO
 
 
-class AudioMediaIO(MediaIO[tuple[npt.NDArray, float]]):
+class AudioMediaIO(MediaIO[tuple[npt.NDArray, int]]):
 
     def __init__(self, **kwargs) -> None:
         super().__init__()
@@ -35,17 +35,17 @@ def __init__(self, **kwargs) -> None:
         # for potential custom arguments from --media-io-kwargs
         self.kwargs = kwargs
 
-    def load_bytes(self, data: bytes) -> tuple[npt.NDArray, float]:
+    def load_bytes(self, data: bytes) -> tuple[npt.NDArray, int]:
         return self._librosa.load(BytesIO(data), sr=self.sampling_rate)
 
     def load_base64(
         self,
         media_type: str,
         data: str,
-    ) -> tuple[npt.NDArray, float]:
+    ) -> tuple[npt.NDArray, int]:
         return self.load_bytes(base64.b64decode(data))
 
-    def load_file(self, filepath: Path) -> tuple[npt.NDArray, float]:
+    def load_file(self, filepath: Path) -> tuple[npt.NDArray, int]:
         return self._librosa.load(filepath, sr=self.sampling_rate)
 
     def encode_base64(

Original file line number	Diff line number	Diff line change
`@@ -596,7 +596,8 @@ def forward(`
`596`	`596`	`input_features=audio_values,`
`597`	`597`	`feature_lens=audio_feature_lengths,`
`598`	`598`	`)`
`599`		`- inputs_embeds = inputs_embeds.masked_scatter(audio_mask.unsqueeze(-1), audio_embeds)`
	`599`	`+ expanded_audio_mask = audio_mask.unsqueeze(-1).expand_as(inputs_embeds)`
	`600`	`+ inputs_embeds = inputs_embeds.masked_scatter(expanded_audio_mask, audio_embeds)`
`600`	`601`
`601`	`602`	`hidden_states = self.language_model(`
`602`	`603`	`input_ids=input_ids,`