sábado, abril 13, 2024
InicioEntretenimientopuedes escucharme ahora? Acústica de IA para combatir el audio ruidoso...

puedes escucharme ahora? Acústica de IA para combatir el audio ruidoso con IA generativa

Las grabaciones ruidosas de entrevistas y discursos son la pesadilla de los ingenieros de audio. Pero una startup alemana espera resolver esto con un enfoque técnico único que utiliza IA generativa para mejorar la claridad de las voces en video.

Hoy AI-coustics salió del secreto con una financiación de 1,9 millones de euros. Según el cofundador y director ejecutivo Fabian Seipel, la tecnología acústica de IA va más allá de la supresión de ruido estándar y funciona en y con cualquier dispositivo y altavoz.

“Nuestra misión principal es hacer que cada interacción digital, ya sea en una conferencia telefónica, en un dispositivo de consumo o en un video informal en las redes sociales, sea tan clara como una transmisión desde un estudio profesional”, dijo Seipel en una entrevista.

Seipel, ingeniero de audio de formación, cofundó AI-coustics con Corvin Jaedicke, profesor de aprendizaje automático en la Universidad Técnica de Berlín, en 2021. Seipel y Jaedicke se conocieron mientras estudiaban tecnología de audio en TU Berlin, donde a menudo encontraban audio deficiente. calidad en los cursos y tutorías online que debían realizar.

“Estábamos motivados por una misión personal de superar el desafío generalizado de la mala calidad de audio en las comunicaciones digitales”, dijo Seipel. “Aunque mi audición está levemente afectada debido a la producción musical cuando tenía poco más de veinte años, siempre he tenido problemas con el contenido y las conferencias en línea, lo que nos llevó a trabajar primero en el tema de la calidad e inteligibilidad del habla”.

El mercado de software de mejora de voz y supresión de ruido impulsado por IA ya es muy sólido. Los rivales de la acústica de IA incluyen Insoundz, que utiliza IA generativa para mejorar la transmisión y los clips de voz pregrabados, y Veed.io, una suite de edición de video con herramientas para eliminar el ruido de fondo de los clips.

Pero Seipel dice que AI-coustics adopta un enfoque único para desarrollar motores de IA que hacen el trabajo real de reducción de ruido.

La startup utiliza un modelo entrenado con muestras de voz grabadas en su estudio en Berlín, la ciudad natal de AI-coutics. A las personas se les paga para registrar muestras (Seipel no dijo cuánto) que luego se agregan a un conjunto de datos para entrenar el modelo de reducción de ruido acústico de IA.

“Hemos desarrollado un enfoque único para simular artefactos y problemas de audio (por ejemplo, ruido, reverberación, compresión, micrófonos con ancho de banda limitado, distorsión, recorte, etc.) durante el proceso de capacitación”, dijo Seipel.

Apuesto a que algunos no estarán de acuerdo con el plan de compensación única para los creadores de AI-coutics, dado que el modelo que está entrenando la startup podría resultar bastante rentable a largo plazo. (Existe un sano debate sobre si los creadores de datos de entrenamiento para modelos de IA merecen un desperdicio por sus contribuciones). Pero quizás la preocupación más grande e inmediata sea el sesgo.

Está bien establecido que los algoritmos de reconocimiento de voz pueden desarrollar sesgos, que terminan perjudicando a los usuarios. Un estudio publicado en The Proceedings of the National Academy of Sciences mostró que el reconocimiento de voz de empresas líderes tenía el doble de probabilidades de transcribir incorrectamente el audio de hablantes negros que de hablantes blancos.

En un esfuerzo por combatir esto, Seipel dice que AI-coustics se está centrando en reclutar contribuyentes “diversos” para las muestras de voz. Añadió: “El tamaño y la diversidad son claves para eliminar los prejuicios y hacer que la tecnología funcione para todos los idiomas, identidades de hablantes, edades, acentos y géneros”.

No fue la prueba más científica, pero subí tres videoclips (una entrevista con un granjero del siglo XVIII, una demostración de conducción de automóviles y una protesta contra el conflicto entre Israel y Palestina) a la plataforma AI-coustics para ver qué tan bien funciona. funcionó con cada . La acústica de IA realmente ha cumplido su promesa de aumentar la claridad; Para mis oídos, los clips procesados ​​tenían mucho menos ruido de fondo ambiental que ahogaba los altavoces.

Aquí está el clip del granjero del siglo XVIII:


Y después:

Seipel cree que la tecnología acústica de inteligencia artificial se utiliza para mejorar la voz grabada y en tiempo real, y tal vez incluso se incorpore en dispositivos como barras de sonido, teléfonos inteligentes y auriculares para aumentar automáticamente la claridad de la voz. En este momento, AI-coustics ofrece una aplicación web y una API para el posprocesamiento de grabaciones de audio y vídeo, y un SDK que incorpora la plataforma AI-coustics a los flujos de trabajo, las aplicaciones y el hardware existentes.

Seipel dice que AI-coustics –que gana dinero a través de una combinación de suscripciones, precios bajo demanda y licencias– tiene actualmente cinco clientes empresariales y 20.000 usuarios (aunque no todos pagan). En la hoja de ruta para los próximos meses está ampliar el equipo de cuatro personas de la empresa y mejorar el modelo de mejora del habla subyacente.

“Antes de nuestra inversión inicial, AI-coutics llevó a cabo una operación muy eficiente con una baja tasa de consumo para sobrevivir a las dificultades del mercado de inversión de capital de riesgo”, dijo Seipel. “AI-coustics cuenta ahora con una importante red de inversores y mentores en Alemania y el Reino Unido que ofrecen asesoramiento. Una base tecnológica sólida y la capacidad de atender diferentes mercados con la misma base de datos y tecnología central le dan a la empresa flexibilidad y la capacidad de hacer un giro más pequeño”.

Cuando se le preguntó si la tecnología de masterización de audio, como la acústica de IA, podría robar puestos de trabajo, como temen algunos expertos, Seipel señaló el potencial de la acústica de IA para agilizar tareas que consumen mucho tiempo y que actualmente recaen en los ingenieros de audio humanos.

“Un estudio de creación de contenido o un administrador de transmisión puede ahorrar tiempo y dinero al automatizar partes del proceso de producción de audio con acústica de IA mientras mantiene la más alta calidad de voz”, dijo. “La calidad y la inteligibilidad de la voz siguen siendo una cuestión preocupante en casi todos los dispositivos de consumo o profesionales, así como en la producción o el consumo de contenidos. Todas las aplicaciones en las que se graba, procesa o transmite la voz pueden beneficiarse potencialmente de nuestra tecnología”.

La financiación tomó la forma de un tramo de capital y deuda de Connect Ventures, Inovia Capital, FOV Ventures y el director financiero de Ableton, Jan Bohl.

Ap News
Ap News
I am a web developer who is working as a freelancer. I am living in Saigon, a crowded city of Vietnam. I am promoting for http://sneeit.com

Subscribe

Recibe nuestro resumen semanal en tu correo electronico.

Articulos relacionados

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí