Audio
Meta Lança NotebookLlama: A Nova Alternativa do Podcasting com IA

Em um movimento que promete revolucionar a criação de conteúdo digital, a Meta lançou o NotebookLlama, uma implementação aberta do popular recurso de geração de podcasts do Google, conhecido como NotebookLM. Utilizando os modelos Llama da própria Meta, essa nova ferramenta visa democratizar a produção de podcasts, permitindo que qualquer pessoa, desde criadores independentes até empresas, transforme textos em áudios dinâmicos e envolventes.
O Que É o NotebookLlama?

O NotebookLlama é uma plataforma que permite a geração de podcasts a partir de arquivos de texto, como PDFs de artigos de notícias ou postagens de blogs. O processo começa com a criação de uma transcrição do texto enviado. Em seguida, a ferramenta adiciona dramatizações e interrupções, antes de utilizar modelos de texto-para-fala para produzir o áudio final. Essa abordagem visa criar uma experiência de escuta mais rica e envolvente, semelhante ao que os ouvintes esperam de um podcast profissional.
Qualidade de Áudio e Desafios
Apesar de suas promessas, os resultados do NotebookLlama ainda deixam a desejar em comparação com o NotebookLM. As amostras de áudio geradas apresentam uma qualidade bastante robótica, com vozes que frequentemente se sobrepõem de maneira estranha. Os pesquisadores da Meta reconhecem que a qualidade do modelo de texto-para-fala é um fator limitante e afirmam que melhorias são necessárias para tornar o som mais natural.
Em sua página no GitHub, a equipe do NotebookLlama destacou que uma abordagem alternativa poderia envolver a criação de diálogos entre dois agentes, debatendo um tópico de interesse, o que poderia enriquecer ainda mais o conteúdo gerado. No entanto, atualmente, a ferramenta utiliza um único modelo para elaborar o esboço do podcast.
O Problema da “Alucinação”
Um dos desafios persistentes enfrentados por projetos de IA, incluindo o NotebookLlama, é o fenômeno conhecido como “alucinação”. Isso se refere à tendência dos modelos de linguagem de gerar informações imprecisas ou completamente inventadas. Assim, mesmo que o NotebookLlama ofereça uma nova maneira de criar conteúdo, os ouvintes devem estar cientes de que os podcasts gerados por IA podem conter dados fictícios.
O Futuro do Podcasting com IA
O lançamento do NotebookLlama representa um passo significativo na evolução do podcasting, permitindo que mais vozes sejam ouvidas e que a criação de conteúdo se torne mais acessível. À medida que a tecnologia avança e os modelos de IA se tornam mais sofisticados, podemos esperar melhorias na qualidade do áudio e na precisão das informações geradas.
Com o NotebookLlama, a Meta não apenas abre novas possibilidades para criadores de conteúdo, mas também convida todos a explorar o potencial da inteligência artificial na narrativa digital. É um momento emocionante para o podcasting, onde a inovação e a criatividade se encontram, e onde cada um de nós pode se tornar um contador de histórias.
Audio
Adobe vai usar IA para gerar efeitos sonoros nos seus vídeos

Criar vídeos envolventes não é só sobre a parte visual. Muito do apelo de um bom conteúdo de vídeo é sobre o áudio, mas encontrar (ou talvez até mesmo criar) os efeitos de áudio certos pode ser um processo demorado. Em sua conferência anual MAX, a Adobe está exibindo o Project Super Sonic, uma demonstração de protótipo experimental que mostra como você pode um dia usar texto para áudio, reconhecimento de objetos e até mesmo sua própria voz para gerar rapidamente áudio de fundo e efeitos de áudio para seus projetos de vídeo.
Ser capaz de gerar efeitos de áudio a partir de um prompt de texto é divertido, mas considerando que a ElevenLabs e outras empresas já oferecem isso comercialmente, pode não ser tão inovador.
O mais interessante aqui é que a Adobe está levando tudo isso um passo adiante ao adicionar dois modos adicionais para criar essas trilhas sonoras. O primeiro é usar seus modelos de reconhecimento de objetos para permitir que você clique em qualquer parte de um quadro de vídeo, crie um prompt para você e então gere esse som. Essa é uma maneira inteligente de combinar vários modelos em um único fluxo de trabalho.
O verdadeiro momento “uau”, no entanto, vem com o terceiro modo, que permite que você se grave imitando os sons que está procurando (cronometrados com o vídeo) e, então, deixe o Project Super Sonic gerar o áudio apropriado automaticamente.
Justin Salamon, chefe de IA de design de som da Adobe, me disse que a equipe começou com o modelo de texto para áudio — e ele observou que, como todos os projetos de IA generativa da Adobe, a equipe usou apenas dados licenciados.
“O que realmente queríamos era dar aos nossos usuários controle sobre o processo. Queremos que esta seja uma ferramenta para criadores, para designers de som, para todos que querem elevar seus vídeos com som. E então queríamos ir além do fluxo de trabalho inicial de texto para som e é por isso que trabalhamos no controle vocal que realmente dá a você esse controle preciso sobre energia e tempo, que realmente o transforma em uma ferramenta expressiva”, explicou Salamon.
Para o controle vocal, a ferramenta realmente analisa as diferentes características da voz e o espectro do som que você está fazendo e usa isso para guiar o processo de geração. Salamon observou que, embora a demonstração use voz, os usuários também podem bater palmas ou tocar um instrumento.
Vale a pena notar que o Adobe MAX sempre apresenta uma série do que ele chama de “sneaks”. Estes, como o Project Super Sonic, são feitos para serem vitrines de alguns dos recursos experimentais nos quais a empresa está trabalhando agora. Embora muitos desses projetos encontrem seu caminho para o Creative Suite da Adobe, não há garantia de que eles o farão. E embora o Project Super Sonic certamente seria uma adição útil para algo como o Adobe Premiere, também há uma chance de que nunca o veremos novamente.
Uma razão pela qual acredito que este projeto entrará em produção é que o mesmo grupo também trabalhou na parte de áudio do Generative Extend , um recurso do seu modelo de IA generativa Firefly que estende clipes de vídeo curtos por alguns segundos — incluindo sua trilha de áudio. Até agora, porém, o Project Super Sonic continua sendo uma demonstração.
-
Negócios7 meses
Runway Lança Controles Avançados de Câmera para Geração de Vídeo com IA
-
Criatividade7 meses
Google, Microsoft e Perplexity promovem racismo científico em resultados de pesquisa de IA
-
Apple7 meses
Apple Intelligence: Tudo o que Você Precisa Saber Sobre o Lançamento!
-
Criatividade7 meses
Arcade AI: A Revolução na Criação de Joias Personalizadas com IA
-
Apps7 meses
O e-mail da Notion está próximo do lançamento
-
Criatividade7 meses
Investimentos em startups de IA generativa ultrapassaram US$ 3,9 bilhões no terceiro trimestre de 2024
-
Audio8 meses
Adobe vai usar IA para gerar efeitos sonoros nos seus vídeos
-
Segurança8 meses
Reality Defender anuncia detecção de deepfake de vídeo em tempo real para plataformas de conferência na Web