Audio

Adobe vai usar IA para gerar efeitos sonoros nos seus vídeos

Publicado há

1 ano

16/10/2024

por

Criar vídeos envolventes não é só sobre a parte visual. Muito do apelo de um bom conteúdo de vídeo é sobre o áudio, mas encontrar (ou talvez até mesmo criar) os efeitos de áudio certos pode ser um processo demorado. Em sua conferência anual MAX, a Adobe está exibindo o Project Super Sonic, uma demonstração de protótipo experimental que mostra como você pode um dia usar texto para áudio, reconhecimento de objetos e até mesmo sua própria voz para gerar rapidamente áudio de fundo e efeitos de áudio para seus projetos de vídeo.

Ser capaz de gerar efeitos de áudio a partir de um prompt de texto é divertido, mas considerando que a ElevenLabs e outras empresas já oferecem isso comercialmente, pode não ser tão inovador.

O mais interessante aqui é que a Adobe está levando tudo isso um passo adiante ao adicionar dois modos adicionais para criar essas trilhas sonoras. O primeiro é usar seus modelos de reconhecimento de objetos para permitir que você clique em qualquer parte de um quadro de vídeo, crie um prompt para você e então gere esse som. Essa é uma maneira inteligente de combinar vários modelos em um único fluxo de trabalho.

O verdadeiro momento “uau”, no entanto, vem com o terceiro modo, que permite que você se grave imitando os sons que está procurando (cronometrados com o vídeo) e, então, deixe o Project Super Sonic gerar o áudio apropriado automaticamente.

Justin Salamon, chefe de IA de design de som da Adobe, me disse que a equipe começou com o modelo de texto para áudio — e ele observou que, como todos os projetos de IA generativa da Adobe, a equipe usou apenas dados licenciados.

“O que realmente queríamos era dar aos nossos usuários controle sobre o processo. Queremos que esta seja uma ferramenta para criadores, para designers de som, para todos que querem elevar seus vídeos com som. E então queríamos ir além do fluxo de trabalho inicial de texto para som e é por isso que trabalhamos no controle vocal que realmente dá a você esse controle preciso sobre energia e tempo, que realmente o transforma em uma ferramenta expressiva”, explicou Salamon.

Para o controle vocal, a ferramenta realmente analisa as diferentes características da voz e o espectro do som que você está fazendo e usa isso para guiar o processo de geração. Salamon observou que, embora a demonstração use voz, os usuários também podem bater palmas ou tocar um instrumento.

Vale a pena notar que o Adobe MAX sempre apresenta uma série do que ele chama de “sneaks”. Estes, como o Project Super Sonic, são feitos para serem vitrines de alguns dos recursos experimentais nos quais a empresa está trabalhando agora. Embora muitos desses projetos encontrem seu caminho para o Creative Suite da Adobe, não há garantia de que eles o farão. E embora o Project Super Sonic certamente seria uma adição útil para algo como o Adobe Premiere, também há uma chance de que nunca o veremos novamente.

Uma razão pela qual acredito que este projeto entrará em produção é que o mesmo grupo também trabalhou na parte de áudio do Generative Extend , um recurso do seu modelo de IA generativa Firefly que estende clipes de vídeo curtos por alguns segundos — incluindo sua trilha de áudio. Até agora, porém, o Project Super Sonic continua sendo uma demonstração.

Relacionados:

Up Next

ChatGPT chega ao Windows

Continue Lendo

Audio

Meta Lança NotebookLlama: A Nova Alternativa do Podcasting com IA

Publicado há

1 ano

27/10/2024

por

Lia Lerner

Em um movimento que promete revolucionar a criação de conteúdo digital, a Meta lançou o NotebookLlama, uma implementação aberta do popular recurso de geração de podcasts do Google, conhecido como NotebookLM. Utilizando os modelos Llama da própria Meta, essa nova ferramenta visa democratizar a produção de podcasts, permitindo que qualquer pessoa, desde criadores independentes até empresas, transforme textos em áudios dinâmicos e envolventes.

O Que É o NotebookLlama?

O NotebookLlama é uma plataforma que permite a geração de podcasts a partir de arquivos de texto, como PDFs de artigos de notícias ou postagens de blogs. O processo começa com a criação de uma transcrição do texto enviado. Em seguida, a ferramenta adiciona dramatizações e interrupções, antes de utilizar modelos de texto-para-fala para produzir o áudio final. Essa abordagem visa criar uma experiência de escuta mais rica e envolvente, semelhante ao que os ouvintes esperam de um podcast profissional.

Qualidade de Áudio e Desafios

Apesar de suas promessas, os resultados do NotebookLlama ainda deixam a desejar em comparação com o NotebookLM. As amostras de áudio geradas apresentam uma qualidade bastante robótica, com vozes que frequentemente se sobrepõem de maneira estranha. Os pesquisadores da Meta reconhecem que a qualidade do modelo de texto-para-fala é um fator limitante e afirmam que melhorias são necessárias para tornar o som mais natural.

Em sua página no GitHub, a equipe do NotebookLlama destacou que uma abordagem alternativa poderia envolver a criação de diálogos entre dois agentes, debatendo um tópico de interesse, o que poderia enriquecer ainda mais o conteúdo gerado. No entanto, atualmente, a ferramenta utiliza um único modelo para elaborar o esboço do podcast.

O Problema da “Alucinação”

Um dos desafios persistentes enfrentados por projetos de IA, incluindo o NotebookLlama, é o fenômeno conhecido como “alucinação”. Isso se refere à tendência dos modelos de linguagem de gerar informações imprecisas ou completamente inventadas. Assim, mesmo que o NotebookLlama ofereça uma nova maneira de criar conteúdo, os ouvintes devem estar cientes de que os podcasts gerados por IA podem conter dados fictícios.

O Futuro do Podcasting com IA

O lançamento do NotebookLlama representa um passo significativo na evolução do podcasting, permitindo que mais vozes sejam ouvidas e que a criação de conteúdo se torne mais acessível. À medida que a tecnologia avança e os modelos de IA se tornam mais sofisticados, podemos esperar melhorias na qualidade do áudio e na precisão das informações geradas.

Com o NotebookLlama, a Meta não apenas abre novas possibilidades para criadores de conteúdo, mas também convida todos a explorar o potencial da inteligência artificial na narrativa digital. É um momento emocionante para o podcasting, onde a inovação e a criatividade se encontram, e onde cada um de nós pode se tornar um contador de histórias.

Continue Lendo