Model Gallery

2 models from 1 repositories

Filter by type:

Filter by tags:

qwen2.5-omni-7b

Qwen2.5-Omni is an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. Modalities: - ✅ Text input - ✅ Audio input - ✅ Image input - ❌ Video input - ❌ Audio generation

Repository: localaiLicense: apache-2.0

qwen2.5-omni-3b

Qwen2.5-Omni is an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. Modalities: - ✅ Text input - ✅ Audio input - ✅ Image input - ❌ Video input - ❌ Audio generation

Repository: localaiLicense: apache-2.0