NVIDIA inicia las copias de código abierto del estanque TDT-0.B-V2

Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información


Se convirtió en nvidia Una de las compañías más valiosas del mundo En los últimos años, gracias al mercado de valores, se nota la cantidad de demanda de unidades de procesamiento de gráficos (GPU). Se hacen chips fuertes que se utilizan para proporcionar gráficos en los videojuegos, y también cada vez más, para entrenar modelos de idiomas y publicar Amnistía Internacional.

Pero Nvidia no es mucho más que solo hacer dispositivos, por supuesto, y el programa para ejecutarlo. Teniendo en cuenta la era de la inteligencia artificial TRUC, la Compañía de Santa Clara también ha lanzado cada vez más modelos de inteligencia artificial de los cuales son de código abierto y de forma gratuita para que los investigadores y desarrolladores lo tomen, descarguen, modifiquen y lo usen comercialmente, y el más reciente es el IS reciente. Pakeet-TDT-0.6B-V2Modelo de reconocimiento automático (ASR) Enfrentar vaibhav «vb» srivastav, «Copie 60 minutos de sonido en un segundo (mente emoji).

Esta es la nueva generación de nvidia, que presentó por primera vez el niqab en enero de 2024 y se actualizó nuevamente en Abril de ese añoPero esta segunda versión es muy fuerte, ya que actualmente está liderando Asr encarnimento de la cara abierta Con la «tasa de error de piso» promedio (veces el modelo está copiando incorrectamente una palabra hablada) en solo un 6.05 % (de 100).

Para ponerlo en su perspectiva correcta, se acerca a los modelos de copia de seguridad como Operai GPT-4O TRECRIBE (con 2.46 % en inglés) y ElevenLabs Scribe (3.3 %).

Proporciona todo esto mientras se mantiene gratuitamente bajo los accionistas comerciales. CC -BY -44 Licencia de rumores creativosLo que lo convierte en una propuesta atractiva para instituciones comerciales y desarrolladores independientes que buscan desarrollar servicios de habla y copia en sus solicitudes pagas.

Rendimiento estándar y posición

El modelo incluye 600 millones de maestros y mejora una mezcla de estructuras de Core FastConformer y TDT.

Es capaz de copiar una hora de sonido en solo un segundo, siempre que se reproduzca en los dispositivos NVIDIA que GPU ama.

El estándar de rendimiento se mide en RTFX (factor de tiempo real) de 3386.02 con 128 tamaño por lotes, y se coloca en la parte superior de los criterios ASR actuales que mantiene la cara abrazada.

Uso de casos y disponibilidad

El 1 de mayo de 2025 se lanzó PARAKET-TDT-0.6B-V2 el 1 de mayo de 2025, y su objetivo es que los desarrolladores, investigadores y equipos de la industria creen aplicaciones como copias de servicios, asistentes de sonido, generadores de subtraducción y plataformas de inteligencia artificial para la conversación.

El modelo admite la puntuación de puntuación, dibujo y tiempo de nivel, proporcionando un paquete de copia completo para una amplia gama de necesidades de habla en el texto.

Acceso y publicación

Los desarrolladores pueden publicar el modelo utilizando el grupo Nemo Tools de NVIDIA. El proceso de preparación es compatible con Python y Pytorch, y el modelo puede usarse directamente o incautarse para las tareas del campo.

La licencia de código abierto (CC -BY -44) también permite el uso comercial, lo que la hace atractiva para las empresas e instituciones emergentes por igual.

Datos de desarrollo de capacitación y modelos

PARAKEET-TDT-0.B-V2 ha sido entrenado en un grupo grande y grande llamado conjunto de datos granarios. Esto incluye alrededor de 120,000 horas de sonido inglés, y consta de 10,000 horas de datos de alta calidad que el hombre transfiere y 110,000 horas de discurso falso.

Las fuentes van desde colecciones de datos bien conocidas como Librispeech, Mozilla Commune hasta YouTube-Commons y Librilight.

NVIDIA planea encontrar una recopilación de datos de graneros en general después de mostrarla en Interspeech 2025.

Evaluación y durabilidad

El modelo se evaluó a través de múltiples criterios de ASR en inglés, incluidos AMI, Rearkers22, Gigaspeede y Spgispeed, y mostró un fuerte rendimiento circular. Sigue siendo fuerte en varias condiciones de ruido y conduce bien incluso con formatos de sonido similares a la llamada telefónica, con solo un modesto deterioro en las velocidades de señal al ruido.

Compatibilidad y eficiencia de los dispositivos

PARAKET-TDT-0.B-V2 se ha mejorado para los entornos de GPU Nvidia, soporte para dispositivos como los paneles A100, H100, T4 y V100.

Aunque el rendimiento de las unidades de procesamiento de gráficos de alto END aumentó al máximo, todavía es posible cargar el modelo en sistemas con menos de 2 GB de RAM, lo que permite escenarios de publicación más amplios.

Consideraciones éticas y uso responsable

Nvidia señala que el modelo se desarrolló sin usar datos personales y adherirse al marco de inteligencia artificial responsable.

Aunque no se toman medidas específicas para aliviar el sesgo demográfico, el modelo ha pasado los estándares de calidad internos e incluye documentos detallados sobre el proceso de capacitación, el conjunto de datos y el cumplimiento de la privacidad.

Llamó la atención del aprendizaje automático y las sociedades de código abierto, especialmente después de las redes sociales destacadas públicamente. Los comentaristas observan la capacidad del modelo para superar a las alternativas comerciales ASR con una supervivencia de código abierto y utilizado comercialmente.

Los desarrolladores interesados ​​en probar el modelo pueden llegar a él Bordado O a través de la colección Nevidia Nemo Tools. Las instrucciones de instalación, los programas textuales experimentales y las instrucciones de integración están disponibles fácilmente para facilitar la experimentación y la publicación.


Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba