NVIDIA inicia las copias de código abierto del estanque TDT-0.B-V2

Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información

Se convirtió en nvidia Una de las compañías más valiosas del mundo En los últimos años, gracias al mercado de valores, se nota la cantidad de demanda de unidades de procesamiento de gráficos (GPU). Se hacen chips fuertes que se utilizan para proporcionar gráficos en los videojuegos, y también cada vez más, para entrenar modelos de idiomas y publicar Amnistía Internacional.

Pero Nvidia no es mucho más que solo hacer dispositivos, por supuesto, y el programa para ejecutarlo. Teniendo en cuenta la era de la inteligencia artificial TRUC, la Compañía de Santa Clara también ha lanzado cada vez más modelos de inteligencia artificial de los cuales son de código abierto y de forma gratuita para que los investigadores y desarrolladores lo tomen, descarguen, modifiquen y lo usen comercialmente, y el más reciente es el IS reciente. Pakeet-TDT-0.6B-V2Modelo de reconocimiento automático (ASR) Enfrentar vaibhav «vb» srivastav, «Copie 60 minutos de sonido en un segundo (mente emoji).

Esta es la nueva generación de nvidia, que presentó por primera vez el niqab en enero de 2024 y se actualizó nuevamente en Abril de ese añoPero esta segunda versión es muy fuerte, ya que actualmente está liderando Asr encarnimento de la cara abierta Con la «tasa de error de piso» promedio (veces el modelo está copiando incorrectamente una palabra hablada) en solo un 6.05 % (de 100).

Para ponerlo en su perspectiva correcta, se acerca a los modelos de copia de seguridad como Operai GPT-4O TRECRIBE (con 2.46 % en inglés) y ElevenLabs Scribe (3.3 %).

Proporciona todo esto mientras se mantiene gratuitamente bajo los accionistas comerciales. CC -BY -44 Licencia de rumores creativosLo que lo convierte en una propuesta atractiva para instituciones comerciales y desarrolladores independientes que buscan desarrollar servicios de habla y copia en sus solicitudes pagas.

Rendimiento estándar y posición

El modelo incluye 600 millones de maestros y mejora una mezcla de estructuras de Core FastConformer y TDT.

Es capaz de copiar una hora de sonido en solo un segundo, siempre que se reproduzca en los dispositivos NVIDIA que GPU ama.

El estándar de rendimiento se mide en RTFX (factor de tiempo real) de 3386.02 con 128 tamaño por lotes, y se coloca en la parte superior de los criterios ASR actuales que mantiene la cara abrazada.

Uso de casos y disponibilidad

El 1 de mayo de 2025 se lanzó PARAKET-TDT-0.6B-V2 el 1 de mayo de 2025, y su objetivo es que los desarrolladores, investigadores y equipos de la industria creen aplicaciones como copias de servicios, asistentes de sonido, generadores de subtraducción y plataformas de inteligencia artificial para la conversación.

El modelo admite la puntuación de puntuación, dibujo y tiempo de nivel, proporcionando un paquete de copia completo para una amplia gama de necesidades de habla en el texto.

Acceso y publicación

Los desarrolladores pueden publicar el modelo utilizando el grupo Nemo Tools de NVIDIA. El proceso de preparación es compatible con Python y Pytorch, y el modelo puede usarse directamente o incautarse para las tareas del campo.

La licencia de código abierto (CC -BY -44) también permite el uso comercial, lo que la hace atractiva para las empresas e instituciones emergentes por igual.

Datos de desarrollo de capacitación y modelos

PARAKEET-TDT-0.B-V2 ha sido entrenado en un grupo grande y grande llamado conjunto de datos granarios. Esto incluye alrededor de 120,000 horas de sonido inglés, y consta de 10,000 horas de datos de alta calidad que el hombre transfiere y 110,000 horas de discurso falso.

Las fuentes van desde colecciones de datos bien conocidas como Librispeech, Mozilla Commune hasta YouTube-Commons y Librilight.

NVIDIA planea encontrar una recopilación de datos de graneros en general después de mostrarla en Interspeech 2025.

Evaluación y durabilidad

El modelo se evaluó a través de múltiples criterios de ASR en inglés, incluidos AMI, Rearkers22, Gigaspeede y Spgispeed, y mostró un fuerte rendimiento circular. Sigue siendo fuerte en varias condiciones de ruido y conduce bien incluso con formatos de sonido similares a la llamada telefónica, con solo un modesto deterioro en las velocidades de señal al ruido.

Compatibilidad y eficiencia de los dispositivos

PARAKET-TDT-0.B-V2 se ha mejorado para los entornos de GPU Nvidia, soporte para dispositivos como los paneles A100, H100, T4 y V100.

Aunque el rendimiento de las unidades de procesamiento de gráficos de alto END aumentó al máximo, todavía es posible cargar el modelo en sistemas con menos de 2 GB de RAM, lo que permite escenarios de publicación más amplios.

Consideraciones éticas y uso responsable

Nvidia señala que el modelo se desarrolló sin usar datos personales y adherirse al marco de inteligencia artificial responsable.

Aunque no se toman medidas específicas para aliviar el sesgo demográfico, el modelo ha pasado los estándares de calidad internos e incluye documentos detallados sobre el proceso de capacitación, el conjunto de datos y el cumplimiento de la privacidad.

Llamó la atención del aprendizaje automático y las sociedades de código abierto, especialmente después de las redes sociales destacadas públicamente. Los comentaristas observan la capacidad del modelo para superar a las alternativas comerciales ASR con una supervivencia de código abierto y utilizado comercialmente.

Los desarrolladores interesados en probar el modelo pueden llegar a él Bordado O a través de la colección Nevidia Nemo Tools. Las instrucciones de instalación, los programas textuales experimentales y las instrucciones de integración están disponibles fácilmente para facilitar la experimentación y la publicación.

Visiones diarias sobre casos de uso comercial con VB diario

Si desea persuadir a su jefe en el trabajo, ha cubierto VB a diario. Le damos la precedencia periodística interna sobre lo que las empresas hacen con la inteligencia artificial obstétrica, desde las transformaciones organizacionales hasta las operaciones de publicación práctica, para que pueda compartir visiones del máximo retorno de la inversión.

Lea nuestra Política de privacidad

Gracias por suscribirse. Consulte más boletines de VB aquí.

Ocurrió un error.

Enlace de origen

NVIDIA inicia las copias de código abierto del estanque TDT-0.B-V2

Rendimiento estándar y posición

Uso de casos y disponibilidad

Acceso y publicación

Datos de desarrollo de capacitación y modelos

Evaluación y durabilidad

Compatibilidad y eficiencia de los dispositivos

Consideraciones éticas y uso responsable

Curtis Renaud

Deja una respuesta Cancelar la respuesta

RI Govt dijo el memorando inicial de memorización para unirse a la OCDE en la etapa final

Seis heridos tras accidente de avión de United Airlines

Los 76ers superan a los Cavaliers y se quedan sin partidos en la Final Seven

Ottawa pide prestados 1.000 millones de dólares para utilizar Canada Post Canada

Trump quiere que los estados paguen más por desastres como los incendios forestales de Los Ángeles. Así funciona ahora FEMA

Nuestro SSD portátil favorito bajó a $70, además de otras mejores ofertas tecnológicas de la semana

Rendimiento estándar y posición

Uso de casos y disponibilidad

Acceso y publicación

Datos de desarrollo de capacitación y modelos

Evaluación y durabilidad

Compatibilidad y eficiencia de los dispositivos

Consideraciones éticas y uso responsable

Curtis Renaud

Publicaciones relacionadas

LAPD lanza una investigación de «profundidad de buceo» sobre las respuestas de los oficiales después de los asesinatos del valle

Aprenda sobre King of Ai Coding: Detrones de edición Gemini 2.5 PRO de Google Claude 3.7 Sonnet

Un jugador de fútbol universitario acusado de muerte después de la batalla de Bar Florida

El accionista: los residentes de California deben negarse a abandonar a los inmigrantes entre nosotros

Deja una respuesta Cancelar la respuesta

RI Govt dijo el memorando inicial de memorización para unirse a la OCDE en la etapa final

Seis heridos tras accidente de avión de United Airlines

Los 76ers superan a los Cavaliers y se quedan sin partidos en la Final Seven

Ottawa pide prestados 1.000 millones de dólares para utilizar Canada Post Canada

Trump quiere que los estados paguen más por desastres como los incendios forestales de Los Ángeles. Así funciona ahora FEMA

Nuestro SSD portátil favorito bajó a $70, además de otras mejores ofertas tecnológicas de la semana