Entre em contato

Audio

Meta Lança NotebookLlama: A Nova Alternativa do Podcasting com IA

Publicado há

em

Em um movimento que promete revolucionar a criação de conteúdo digital, a Meta lançou o NotebookLlama, uma implementação aberta do popular recurso de geração de podcasts do Google, conhecido como NotebookLM. Utilizando os modelos Llama da própria Meta, essa nova ferramenta visa democratizar a produção de podcasts, permitindo que qualquer pessoa, desde criadores independentes até empresas, transforme textos em áudios dinâmicos e envolventes.

O Que É o NotebookLlama?

O NotebookLlama é uma plataforma que permite a geração de podcasts a partir de arquivos de texto, como PDFs de artigos de notícias ou postagens de blogs. O processo começa com a criação de uma transcrição do texto enviado. Em seguida, a ferramenta adiciona dramatizações e interrupções, antes de utilizar modelos de texto-para-fala para produzir o áudio final. Essa abordagem visa criar uma experiência de escuta mais rica e envolvente, semelhante ao que os ouvintes esperam de um podcast profissional.

Qualidade de Áudio e Desafios

Apesar de suas promessas, os resultados do NotebookLlama ainda deixam a desejar em comparação com o NotebookLM. As amostras de áudio geradas apresentam uma qualidade bastante robótica, com vozes que frequentemente se sobrepõem de maneira estranha. Os pesquisadores da Meta reconhecem que a qualidade do modelo de texto-para-fala é um fator limitante e afirmam que melhorias são necessárias para tornar o som mais natural.

Em sua página no GitHub, a equipe do NotebookLlama destacou que uma abordagem alternativa poderia envolver a criação de diálogos entre dois agentes, debatendo um tópico de interesse, o que poderia enriquecer ainda mais o conteúdo gerado. No entanto, atualmente, a ferramenta utiliza um único modelo para elaborar o esboço do podcast.

O Problema da “Alucinação”

Um dos desafios persistentes enfrentados por projetos de IA, incluindo o NotebookLlama, é o fenômeno conhecido como “alucinação”. Isso se refere à tendência dos modelos de linguagem de gerar informações imprecisas ou completamente inventadas. Assim, mesmo que o NotebookLlama ofereça uma nova maneira de criar conteúdo, os ouvintes devem estar cientes de que os podcasts gerados por IA podem conter dados fictícios.

O Futuro do Podcasting com IA

O lançamento do NotebookLlama representa um passo significativo na evolução do podcasting, permitindo que mais vozes sejam ouvidas e que a criação de conteúdo se torne mais acessível. À medida que a tecnologia avança e os modelos de IA se tornam mais sofisticados, podemos esperar melhorias na qualidade do áudio e na precisão das informações geradas.

Com o NotebookLlama, a Meta não apenas abre novas possibilidades para criadores de conteúdo, mas também convida todos a explorar o potencial da inteligência artificial na narrativa digital. É um momento emocionante para o podcasting, onde a inovação e a criatividade se encontram, e onde cada um de nós pode se tornar um contador de histórias.

Audio

Adobe vai usar IA para gerar efeitos sonoros nos seus vídeos

Publicado há

em

Criar vídeos envolventes não é só sobre a parte visual. Muito do apelo de um bom conteúdo de vídeo é sobre o áudio, mas encontrar (ou talvez até mesmo criar) os efeitos de áudio certos pode ser um processo demorado. Em sua conferência anual MAX, a Adobe está exibindo o Project Super Sonic, uma demonstração de protótipo experimental que mostra como você pode um dia usar texto para áudio, reconhecimento de objetos e até mesmo sua própria voz para gerar rapidamente áudio de fundo e efeitos de áudio para seus projetos de vídeo.

Ser capaz de gerar efeitos de áudio a partir de um prompt de texto é divertido, mas considerando que a ElevenLabs e outras empresas já oferecem isso comercialmente, pode não ser tão inovador.

O mais interessante aqui é que a Adobe está levando tudo isso um passo adiante ao adicionar dois modos adicionais para criar essas trilhas sonoras. O primeiro é usar seus modelos de reconhecimento de objetos para permitir que você clique em qualquer parte de um quadro de vídeo, crie um prompt para você e então gere esse som. Essa é uma maneira inteligente de combinar vários modelos em um único fluxo de trabalho.

O verdadeiro momento “uau”, no entanto, vem com o terceiro modo, que permite que você se grave imitando os sons que está procurando (cronometrados com o vídeo) e, então, deixe o Project Super Sonic gerar o áudio apropriado automaticamente.

Justin Salamon, chefe de IA de design de som da Adobe, me disse que a equipe começou com o modelo de texto para áudio — e ele observou que, como todos os projetos de IA generativa da Adobe, a equipe usou apenas dados licenciados.

“O que realmente queríamos era dar aos nossos usuários controle sobre o processo. Queremos que esta seja uma ferramenta para criadores, para designers de som, para todos que querem elevar seus vídeos com som. E então queríamos ir além do fluxo de trabalho inicial de texto para som e é por isso que trabalhamos no controle vocal que realmente dá a você esse controle preciso sobre energia e tempo, que realmente o transforma em uma ferramenta expressiva”, explicou Salamon.

Para o controle vocal, a ferramenta realmente analisa as diferentes características da voz e o espectro do som que você está fazendo e usa isso para guiar o processo de geração. Salamon observou que, embora a demonstração use voz, os usuários também podem bater palmas ou tocar um instrumento.

Vale a pena notar que o Adobe MAX sempre apresenta uma série do que ele chama de “sneaks”. Estes, como o Project Super Sonic, são feitos para serem vitrines de alguns dos recursos experimentais nos quais a empresa está trabalhando agora. Embora muitos desses projetos encontrem seu caminho para o Creative Suite da Adobe, não há garantia de que eles o farão. E embora o Project Super Sonic certamente seria uma adição útil para algo como o Adobe Premiere, também há uma chance de que nunca o veremos novamente.

Uma razão pela qual acredito que este projeto entrará em produção é que o mesmo grupo também trabalhou na parte de áudio do Generative Extend , um recurso do seu modelo de IA generativa Firefly que estende clipes de vídeo curtos por alguns segundos — incluindo sua trilha de áudio. Até agora, porém, o Project Super Sonic continua sendo uma demonstração.

Continue Lendo

Trending