Esta é a Parte 1!
A palavra “IA” provoca emoções confusas. Pode inspirar emoção e esperança para o futuro – ou um arrepio de medo do que está por vir.
Nos últimos anos, a IA passou de uma promessa distante para uma realidade diária. Muitos de nós usamos o ChatGPT para escrever e-mails e o Midjourney para gerar imagens.
A cada semana, ao que parece, uma nova tecnologia de IA promete mudar outro aspecto de nossas vidas.
A música não é diferente. A tecnologia de IA já está sendo aplicada ao áudio, realizando tarefas desde a separação de hastes até deepfakes vocais e oferecendo novos giros em ferramentas de produção clássicas e interfaces de criação de música. Um dia, em breve, a IA pode até fazer música sozinha.
A chegada das tecnologias de IA gerou debates acalorados nas comunidades musicais. Idéias sobre criatividade, propriedade e autenticidade estão sendo reexaminadas. Alguns dão as boas-vindas ao que consideram novas ferramentas empolgantes, enquanto outros dizem que a tecnologia é superestimada e não mudará tanto assim. Outros ainda estão assustados, temendo a perda das práticas e culturas musicais que amam.
Neste artigo de duas partes, mergulharemos profundamente na criação de música com IA para tentar desvendar esse tópico complexo e dinâmico. Analisaremos as ferramentas existentes de criação de música com IA, explorando as possibilidades criativas que elas abrem e as questões filosóficas que representam. E tentaremos olhar para frente, examinando como as ferramentas de IA podem mudar a produção musical no futuro.
Quanto mais você se aprofunda no assunto, mais fortes essas emoções confusas se tornam. O futuro pode ser brilhante, mas também é um pouco assustador.
Definindo termos
Antes de prosseguirmos, devemos esclarecer alguns termos.
Em primeiro lugar, o que é IA? A resposta não é tão simples quanto você pode pensar. Cunhado na década de 1950, o termo desde então tem sido aplicado a uma gama de diferentes tecnologias. Em seu sentido mais amplo, IA refere-se a muitas formas de programas de computador que parecem possuir inteligência semelhante à humana ou que podem executar tarefas que pensávamos exigir inteligência humana.
O boom da IA dos últimos anos se baseia em uma tecnologia específica chamada aprendizado de máquina. Em vez de precisar ser ensinado inteiramente pela mão humana, um sistema de aprendizado de máquina é capaz de se aprimorar usando os dados que recebe. Mas o aprendizado de máquina existe há décadas. O que há de novo agora é um tipo específico de aprendizado de máquina chamado aprendizado profundo.
Os sistemas de aprendizado profundo são compostos de redes neurais: um conjunto de algoritmos configurados aproximadamente como um cérebro humano, que podem interpretar os dados recebidos e reconhecer padrões. A parte “profunda” nos diz que existem várias camadas nessas redes, permitindo que o sistema interprete os dados de maneiras mais sofisticadas. Isso torna um sistema de aprendizagem profunda muito hábil em dar sentido a dados não estruturados. Em outras palavras, você pode jogar imagens ou texto aleatórios nele e ele fará um bom trabalho em identificar os padrões.
Mas os sistemas de aprendizado profundo não são “inteligentes” da maneira frequentemente descrita em filmes distópicos de ficção científica sobre IAs descontrolados. Eles não possuem uma “consciência” como nós a entendemos – eles são apenas muito bons em identificar os padrões nos dados. Por esta razão, alguns argumentam que o termo “IA” é um equívoco.
A sofisticação do aprendizado profundo o torna faminto por processador, portanto, a tecnologia só se tornou amplamente acessível nos últimos anos. Mas a tecnologia de aprendizado profundo está presente em nossas vidas há mais tempo e de mais maneiras do que você imagina. O aprendizado profundo é usado em tradutores de idiomas on-line, detecção de fraude de cartão de crédito e até algoritmos de recomendação em serviços de streaming de música.
Esses usos estabelecidos de IA de aprendizado profundo geralmente estão sob o capô de produtos e serviços. Recentemente, a IA entrou no centro das atenções. Ferramentas como Dall-E e ChatGPT não analisam apenas os dados recebidos para ajudar os humanos a reconhecer os padrões. Eles produzem uma saída que tenta adivinhar o que os dados farão a seguir. Isso é chamado de IA generativa.
Onde outras formas de aprendizado profundo se arrastam no contexto da vida cotidiana, a IA generativa chama a atenção para si mesma. Ao nos apresentar imagens, textos ou outras formas de mídia, ela nos convida a um diálogo com a máquina. Ele reflete a criatividade humana de volta para nós e torna os potenciais – e desafios – da tecnologia de IA mais claros.
Sem ChatGPT para música?
A tecnologia de aprendizado profundo pode ser aplicada ao áudio digital da mesma forma que pode ser aplicada a imagens, texto e outras formas de dados. As implicações disso são amplas e vamos explorá-las em profundidade nestes artigos. Mas o áudio AI está ficando para trás em relação a outras aplicações da tecnologia. Ainda não existe ChatGPT para música. Ou seja: não há nenhuma ferramenta treinada em grandes quantidades de áudio que possa aceitar texto ou outros tipos de prompts e emitir música apropriada e de alta qualidade. (Embora possa haver um em breve – mais sobre isso na Parte 2).
Existem algumas razões possíveis para isso. Em primeiro lugar, o áudio é um tipo de dados fundamentalmente diferente da imagem ou do texto, como explica Christian Steinmetz, pesquisador de áudio de IA da Queen Mary University. “[Áudio] tem uma taxa de amostragem relativamente alta – a cada ponto no tempo você obtém uma amostra, supondo que seja um áudio monofônico. Mas você obtém 44.000 dessas amostras por segundo.” Isso significa que gerar alguns minutos de áudio é o equivalente em dados a gerar uma imagem absolutamente enorme.
Como observam os pesquisadores e inovadores de áudio de IA , os Dadabots , isso limita a rapidez com que os sistemas atualmente disponíveis podem funcionar. “Alguns dos métodos de geração de áudio bruto de melhor qualidade podem levar até um dia para gerar uma única música.”
Ao contrário de imagens ou texto, o áudio tem uma dimensão de tempo. É importante para nós como o último minuto de uma música se relaciona com o primeiro minuto, e isso representa desafios específicos para a IA. A música também parece mais difícil de descrever de forma confiável em palavras, tornando-a resistente à abordagem de prompt de texto que funciona tão bem para imagens. “A música é uma das nossas formas de arte mais abstratas”, dizem os Dadabots. “O significado de timbres, harmonias, ritmos por si só depende da interpretação do ouvinte. Pode ser muito difícil descrever objetivamente uma música completa de forma concisa, onde outros possam imaginá-la instantaneamente.”
Somado a isso, nossa percepção auditiva parece estar excepcionalmente afinada. “Podemos ser sensíveis a distorções no som de uma maneira diferente da sensibilidade do nosso sistema visual”, diz Steinmetz. Ele dá o exemplo do Jukebox da OpenAI , um modelo de música generativa lançado em 2020 – o mais poderoso da época. Poderia criar “música super convincente” no sentido de que os elementos importantes estavam lá. “Mas parecia muito ruim do ponto de vista da qualidade. É quase como se fosse para o áudio, se tudo não estiver exatamente no lugar certo, mesmo um ouvinte destreinado percebe que há algo acontecendo. Mas, para uma imagem, parece que você pode obter muitos detalhes corretos e é bastante convincente como imagem. Você não precisa ter cada pixel exatamente certo.”
É tentador concluir que a música é simplesmente um osso duro de roer: uma experiência estética muito misteriosa, efêmera demais para ser capturada pelas máquinas. Isso seria ingênuo. Na verdade, os esforços para projetar ferramentas musicais de IA eficazes têm progredido rapidamente nos últimos anos.
Há uma corrida para criar um “modelo de música geral” – ou seja, uma IA de música generativa com versatilidade e proficiência equivalentes a Stable Diffusion ou ChatGPT. Exploraremos isso e suas implicações para a produção musical na Parte 2 desta série.
Mas há muitos usos potenciais para a IA na música além desse sonho de um único sistema totalizador. Do MIDI generativo à síntese de som excêntrico, da mixagem automatizada à modelagem analógica, as ferramentas de IA têm o potencial de agitar o processo de criação musical. Na Parte 1, exploraremos um pouco do que existe agora e teremos uma ideia de como essas ferramentas podem se desenvolver no futuro. No processo, abordaremos o que essas ferramentas podem significar para a produção musical. A IA ameaça a criatividade humana ou simplesmente a aumenta? Quais aspectos da criação musical podem mudar e quais provavelmente permanecerão os mesmos?
Automatizando tarefas de produção
Neste ponto você pode estar confuso. Se você é um produtor musical ou outro profissional de áudio, “ferramentas de produção musical AI” podem não parecer uma ideia tão nova. Na verdade, a tag “AI” está flutuando no mundo da tecnologia da música há anos.
Por exemplo, iZotope integrou AI em produtos como sua ferramenta de mixagem completa, Neutron 4. O Mix Assistant do plug-in ouve toda a sua mixagem e analisa as relações entre os sons, apresentando uma mixagem automatizada que você pode ajuste a gosto.
Empresas como a Sonible , por sua vez, oferecem versões “inteligentes” de efeitos de plug-in clássicos, como compressão, reverberação e EQ. Esses plug-ins ouvem o áudio recebido e se adaptam a ele automaticamente. O usuário recebe um conjunto mais simples de controles de macro para ajustar as configurações. pure:comp, por exemplo, oferece apenas um botão principal de “compressão” que controla parâmetros como limiar, proporção, ataque e liberação simultaneamente.
Outras ferramentas oferecem para automatizar partes do processo de produção que muitos produtores tendem a terceirizar. A LANDR produzirá um master automatizado de sua faixa por IA por uma fração do custo de contratação de um engenheiro de masterização profissional. Você simplesmente carrega seu pré-master para o site deles, escolhe entre vários estilos de masterização e níveis de volume e baixa o produto masterizado.
Qual é a relação entre essas ferramentas e as tecnologias de aprendizado profundo que estão surgindo agora? Aqui voltamos à imprecisão do termo “IA”. O aprendizado profundo é um tipo de tecnologia de IA, mas não é o único. Antes disso, tínhamos “sistemas especialistas”.
Como explica Steinmetz, esse método funciona “criando uma árvore de opções”. Ele descreve como uma ferramenta de mixagem automatizada pode funcionar seguindo esse método. “Se o gênero é jazz, então você vai para esta parte da árvore. Se for jazz e o instrumento for um contrabaixo, então você vai para esta parte da árvore. Se for um baixo vertical e houver muita energia em 60 hertz, talvez diminua isso. Você cria uma regra para cada cenário possível. Se você puder construir um conjunto de regras bastante complicado, acabará com um sistema que parece inteligente.”
“Se você está fazendo um trabalho que teoricamente poderia ser automatizado – o que significa que ninguém se preocupa com as especificidades das saídas artísticas, só precisamos que ele se encaixe em algum molde – então esse trabalho provavelmente será automatizado eventualmente.”
É difícil dizer com certeza qual tecnologia é usada em produtos individuais. Mas é provável que as ferramentas de tecnologia de música baseadas em IA que existem há mais de alguns anos usem alguma variação dessa abordagem. (Claro, métodos de aprendizado profundo podem ter sido integrados a essas ferramentas mais recentemente).
Essa abordagem é eficaz quando bem executada, mas tem limitações. Como explica Steinmetz, essa tecnologia exige que engenheiros de áudio especializados se reúnam com os programadores e escrevam todas as regras. E como qualquer um que mixou uma faixa sabe, nunca é tão simples quanto seguir as regras. Um engenheiro de mixagem habilidoso toma inúmeras decisões sutis e movimentos imaginativos. O número de regras necessárias para capturar totalmente essa complexidade é muito grande. “O problema é de escala, basicamente”, diz Steinmetz.
É aqui que entra o aprendizado profundo. Lembre-se: os sistemas de aprendizado profundo podem aprender sozinhos a partir dos dados. Eles não precisam ser microgerenciados por um ser humano experiente. Quanto mais dados relevantes forem alimentados e quanto mais poder de processador tiverem à sua disposição, mais proficientes poderão se tornar em suas tarefas atribuídas.
Isso significa que um modelo de aprendizado profundo alimentado com grandes quantidades de música provavelmente faria um trabalho melhor do que uma abordagem de sistemas especialistas – e pode, por algumas métricas, até superar um engenheiro de mixagem humano.
Isso ainda não é uma realidade no domínio do áudio, mas Steinmetz aponta a classificação de imagens como um exemplo de ferramentas de IA que atingem esse patamar. “O melhor modelo é basicamente mais preciso do que um ser humano na classificação do conteúdo de uma imagem, porque o treinamos em milhões de imagens – mais imagens do que um ser humano seria capaz de ver. Então isso é realmente poderoso.”
Isso significa que a IA provavelmente ficará muito boa em várias tarefas técnicas que os produtores musicais até agora consideravam uma parte essencial do trabalho. Desde pequenas tarefas, como definir o ataque e o decaimento do seu compressor, até tarefas difusas, como finalizar toda a sua mixagem, a IA pode em breve ser seu próprio engenheiro interno.
Como isso vai mudar as coisas para os criadores de música? Steinmetz faz uma analogia com a democratização da fotografia digital por meio de câmeras de smartphones. Fotógrafos profissionais que faziam trabalhos rotineiros, como documentar eventos, ficaram de fora; a demanda por fotógrafos de belas artes permaneceu a mesma.
“Na mixagem ou engenharia de áudio, é algo semelhante. Se você está fazendo um trabalho que teoricamente poderia ser automatizado – o que significa que ninguém se importa com as especificidades das saídas artísticas, só precisamos que ele se encaixe em algum molde – então esse trabalho provavelmente será automatizado eventualmente. Mas quando uma visão criativa está sendo concretizada, a tecnologia não será capaz de substituir o tomador de decisão. Os artistas usarão “a IA como uma ferramenta, mas ainda estarão sentados no assento do piloto. Eles podem deixar a ferramenta tomar algumas decisões, mas, no final das contas, são eles que tomam as decisões executivas.”
Claro, isso não será tranqüilizador para aqueles que ganham a vida exercitando sua produção arduamente conquistada ou habilidades de engenharia de maneiras mais funcionais. Também podemos nos perguntar se a próxima geração de produtores poderia sofrer por isso. Há um aspecto criativo exatamente como você compacta, equaliza e assim por diante. Se a tecnologia automatizar esses processos, os produtores perderão oportunidades de encontrar novas soluções criativas para problemas antigos – e de cometer erros potencialmente produtivos?
Por outro lado, ao automatizar essas tarefas, os criadores de música liberam tempo e energia – que podem gastar expandindo o escopo criativo de sua música de outras maneiras. Muitas tarefas que uma DAW atual executa em segundos, na era dos estúdios analógicos, exigiriam enormes recursos, horas de trabalho e habilidade. Não consideramos que a música feita em DAWs modernas seja criativamente empobrecida como resultado. Em vez disso, o locus da criatividade mudou, à medida que novos sons, técnicas e abordagens se tornaram acessíveis a cada vez mais criadores de música.
“É verdade que alguns aspectos da produção musical mecânica provavelmente serão substituídos por ferramentas que podem tornar essas tarefas mais leves”, diz Mat Dryhurst, cofundador – ao lado de seu parceiro, o músico Holly Herndon – da AI start- desova . “Mas isso apenas muda a linha de base do que consideramos arte. De um modo geral, os artistas que prezamos são aqueles que se desviam da linha de base por um motivo ou outro, e haverá grandes artistas na era da IA, assim como houve grandes artistas em qualquer época.”
No começo havia o MIDI
Fazer uma distinção entre tarefas funcionais de produção e arte é relativamente fácil quando se pensa em tarefas técnicas como a mixagem. Mas e o lado da composição? A IA também pode agitar as coisas aqui.
Uma das primeiras tentativas de aplicar aprendizado de máquina nesse campo foi o Magenta Studio, um projeto do laboratório de pesquisa Magenta do Google que foi disponibilizado como um conjunto de ferramentas Max For Live em 2019. Essas ferramentas oferecem uma variedade de abordagens na geração de notas MIDI: criar um nova melodia ou ritmo do zero; completar uma melodia com base nas notas dadas; “transformação” entre dois clipes melódicos. Treinados em “milhões” de melodias e ritmos, esses modelos oferecem uma saída mais sofisticada – e, talvez, mais musical – do que as ferramentas generativas tradicionais.
A geração de notas MIDI com IA foi levada adiante por empresas como Orb Plugins , que empacotaram o recurso em um conjunto de sintetizadores convencionais. Enquanto isso, os sequenciadores de bateria começaram a incorporar a tecnologia para oferecer aos usuários inspiração rítmica.
Por que o interesse precoce em MIDI? A notação MIDI é um dado muito simplificado em comparação com as 44.000 amostras de áudio por segundo, o que significa que os modelos podem ser mais simples e mais leves. Quando a tecnologia estava em sua infância, o MIDI era um lugar óbvio para começar.
Claro, a compacidade do MIDI vem com limitações. Afinações e ritmos são apenas parte da imagem da música. Abordando a preferência por MIDI entre os hackers de aprendizado de máquina/música há alguns anos, os Dadabots escreveram: “MIDI é apenas 2% do que há para amar na música. Você não pode ter Merzbow como MIDI. Nem a atmosfera de um disco de black metal. Não pode ter o timbre da guitarra do Jimi Hendrix, nem do sax do Coltrane, nem do MC Ride. MIDI puro é ersatz.”
À medida que a tecnologia de IA se torna mais sofisticada e o poder do processador aumenta, surgem ferramentas que permitem aos músicos trabalhar diretamente com áudio bruto. Então, as ferramentas de IA baseadas em MIDI já são coisa do passado?
Provavelmente não. A maioria dos músicos modernos conta com MIDI e outras linguagens musicais “simbólicas”. Os produtores eletrônicos digitam ritmos em um sequenciador, desenham notas no rolo de piano e utilizam técnicas fundamentadas nas tradições da teoria musical (como teclas e modos). AI pode oferecer muito aqui. Além de gerar ideias, poderíamos usar ferramentas de IA baseadas em MIDI para transcrever com precisão o áudio em notação e realizar transformações complexas de dados MIDI. (Por exemplo, transformar ritmos ou melodias de um estilo ou gênero em outro).
Em uma palestra defendendo a importância contínua da “geração de música simbólica”, Julian Lenz, da empresa de música AI Qosmo , apontou que os modelos de áudio bruto ainda não são bons para compreender os fundamentos da teoria musical. Por exemplo, o MusicLM do Google , um modelo de música geral recente treinado em centenas de milhares de clipes de áudio, tem problemas para distinguir entre tonalidades maiores e menores. Lenz concluiu demonstrando um novo plug-in Qosmo que pega um ritmo simples e o transforma em uma performance de bateria sofisticada e completa. Embora as ferramentas de IA de áudio bruto permaneçam um tanto instáveis, as ferramentas baseadas em MIDI podem oferecer rotas mais rápidas para a inspiração.
Essas ferramentas colocam questões complicadas sobre a atribuição de criatividade. Se um plug-in baseado em IA gera uma melodia para você, você deve ser considerado o “compositor” dessa melodia? E se você gerasse a melodia usando um modelo de IA treinado em músicas dos Beatles? A melodia é sua, da IA, ou os Beatles devem receber o crédito?
Essas questões se aplicam a muitas formas de fazer música com IA, e retornaremos a elas na Parte 2. Por enquanto, basta dizer que, quando se trata de geração de ritmo e melodia baseada em MIDI, as águas da atribuição foram turvas por muito tempo. Os compositores eletrônicos modernos costumam usar randomizadores de notas, arpejadores sofisticados, geradores de ritmo euclidiano e assim por diante. O material gerado é considerado um ponto de partida, para ser peneirado, editado e organizado de acordo com a visão criativa do musicmaker. As ferramentas de IA podem nos fornecer resultados mais atraentes logo de cara. Mas uma subjetividade humana ainda precisará decidir como os resultados gerados se encaixam em sua visão criativa.
Transferência de timbre: explorando novos sons
Quando pensamos em uma nova tecnologia radical como a IA, podemos imaginar novos sons e texturas selvagens. O MIDI nunca vai nos levar até lá. Para isso, precisamos nos voltar para o domínio do áudio.
No campo emergente da “síntese neural”, uma das tecnologias dominantes é a transferência timbral. Simplificando, a transferência timbral pega uma entrada de áudio e faz com que soe como outra coisa. Uma voz torna-se um violino; uma porta rangendo se torna um amém.
Como é que isso funciona? Os modelos de transferência de timbre, como o RAVE (“Realtime Audio Variational autoEncoder”) do IRCAM , apresentam duas redes neurais trabalhando em conjunto. Um codifica o áudio que recebe, capturando-o de acordo com certos parâmetros (como volume ou tom). Usando esses dados gravados, a outra rede neural tenta reconstruir (ou decodificar) a entrada.
Os sons que um autoencoder emite dependem do áudio em que foi treinado. Se você o treinou em gravações de flauta, o decodificador emitirá sons semelhantes a flauta. É aqui que entra a parte da “transferência de timbre”. Se você alimentar seu codificador treinado em flauta com uma voz humana, ele ainda emitirá sons de flauta. O resultado é uma estranha amálgama: os contornos da voz com o timbre de uma flauta.
A transferência de timbre já está disponível em vários plug-ins, embora nenhum tenha sido apresentado ao mercado de massa. Talvez o mais acessível seja o Neutone da Qosmo , um plug-in gratuito para download que permite que você experimente várias técnicas de síntese neural em sua DAW. Isso inclui RAVE e outro método de transferência de timbre chamado DDSP (Differentiable Digital Signal Processing). O DDSP é uma espécie de híbrido da tecnologia do codificador e do DSP encontrado na síntese convencional. É mais fácil de treinar e pode fornecer saídas com melhor som – desde que o áudio de entrada seja monofônico.
A tecnologia de transferência de timbre tem feito parte da música lançada há alguns anos. Em um exemplo inicial, a faixa “ Godmother ” do álbum PROTO de Holly Herndon , uma faixa percussiva do produtor Jlin é alimentada por um modelo de transferência de timbre treinado na voz humana. O resultado é uma versão beatbox incrível, cheia de detalhes estranhos e artefatos granulados.
“Godmother” tem uma qualidade exploratória, como se sentisse uma nova paisagem sonora. Esta é uma qualidade comum à música feita com transferência de timbre. Em A Model Within , o produtor Scott Young apresenta cinco composições experimentais com essa qualidade. Cada um explora um modelo predefinido diferente encontrado em Neutone, capturando a interação desconhecida entre humano e máquina.
Mesmo antes de conhecer as ferramentas de IA, uma vida ocupada fez com que Young se interessasse por abordagens de composição generativa. Quando começou a fazer música, o produtor lembra: “Passei um mês fazendo uma música. Foi bem romântico. Mas minha vida em Hong Kong não me permitia fazer muito isso. E então eu lentamente me sintonizei com os geradores Reaktor, fazendo sequências e unindo-as.”
No ano passado, o músico Eames sugeriu que poderia acelerar ainda mais as coisas com IA generativa. Young começou a explorar e encontrou o RAVE, mas lutou para fazê-lo funcionar, apesar de sua experiência em engenharia de software. Então ele descobriu Neutone. “Os modelos predefinidos eram tão impressionantes que comecei a criar melodias com eles. Os resultados foram alucinantes. A saída é realmente realista.”
Um medo típico em torno das ferramentas de IA é que elas possam remover a criatividade da produção musical. A experiência de Young com transferência de timbre foi o oposto. Os modelos de transferência de timbre são – pelo menos por enquanto – temperamentais. A qualidade do som é irregular e eles respondem às entradas de maneiras imprevisíveis. Para Young, essa imprevisibilidade ofereceu uma saída para os hábitos cansativos de fazer música. “Há muito mais ênfase no acaso no [processo] de criação, porque nem sempre é possível prever o resultado com base no que você toca.”
Uma vez que o material foi gerado, ele ainda tinha que costurá-lo em uma composição envolvente – um processo que ele comparou à edição conjunta de gravações de jazz ao vivo em uma época anterior. “Ao usar essa abordagem generativa, a chave como criador humano é saber onde cortar e conectar as peças em algo significativo que ressoe conosco.”
Na faixa mais estranha do EP, “ Crytrumpet ”, Young alimenta uma gravação de sua filha bebê chorando por meio de um modelo treinado em um trompete. Momentos como esse capturam perfeitamente a estranheza da tecnologia de IA. Mas a transferência de timbral está longe de ser a única aplicação potencial de IA em plug-ins.
Em março, Steinmetz co-organizou o Neural Audio Plugin Competition ao lado de Andrew Fyfe da Qosmo e da plataforma Audio Programmer. A competição visava estimular a inovação, oferecendo prêmios em dinheiro para as participações mais impressionantes. “No que diz respeito à criação de redes neurais dentro de plug-ins, ainda não havia sido estabelecido”, diz Steinmetz. “Precisamos de uma maneira de incentivar mais pessoas a trabalhar neste espaço, porque sei que há coisas a serem feitas aqui que serão realmente impactantes.”
Das 18 entradas, algumas ofereceram efeitos neurais convencionais, como compressão, e outras propuseram ferramentas generativas baseadas em MIDI. Depois, surgiram as ideias mais surpreendentes. Vroom , uma ferramenta de design de som, permite gerar sons únicos usando prompts de texto. HARD é um novo “remixer de áudio”, permitindo que você faça crossfade entre as partes harmônicas e rítmicas de duas faixas de forma independente. Todos foram obrigados a abrir seu código, e Steinmetz espera que os futuros designers de plug-ins desenvolvam esse trabalho. Ele vê o início de um “movimento de pessoas interessadas neste tema”.
modelagem analógica
Então, a IA pode fazer novos sons. Mas também pode fazer os antigos – talvez melhor do que antes. A modelagem analógica é a base da indústria de plug-ins. Segundo alguns, a IA pode ser o seu futuro. Plug-ins como o TAIP da Baby Audio (emulando “uma máquina de fita européia de 1971”) e o Neural Q da Tone Empire (“um conhecido equalizador vintage alemão”) usam métodos baseados em rede neural no lugar das técnicas de modelagem tradicionais.
Baby Audio explica como isso funciona em seu site:
“Onde uma emulação DSP normal envolveria ‘estimar’ o efeito de vários componentes analógicos e suas dependências mútuas, podemos usar redes neurais/IA para decifrar com precisão as características sônicas que fazem uma máquina de fita soar e se comportar da maneira que o faz. Isso acontece alimentando um algoritmo com vários dados de treinamento de áudio seco x processado e ensinando-o a identificar as características exatas que compõem a diferença. Uma vez que essas diferenças tenham sido aprendidas pela IA, podemos aplicá-las ao novo áudio.”
Por que usar IA em vez de métodos de modelagem tradicionais? Um dos motivos são os melhores resultados. A Tone Empire afirma que a modelagem de circuito tradicional “nunca pode produzir uma emulação analógica tão autêntica” quanto as abordagens baseadas em IA.
Outra é a velocidade. A modelagem analógica usando processamento neural pode economizar muito tempo e dinheiro para empresas de plug-in. Isso significa que podemos estar diante de uma proliferação de modelos analógicos de baixo custo e alta qualidade – o que não é ruim para os produtores que gostam de brincar com brinquedos novos.
Mais radicalmente, isso significa que a modelagem pode ser colocada nas mãos dos próprios criadores de música. Isso já está acontecendo no mundo da guitarra, por meio de empresas como TONEX e Neural DSP. A unidade de modelagem de piso Quad Cortex do Neural DSP vem com um recurso de captura neural alimentado por IA que permite aos guitarristas modelar seus próprios amplificadores e pedais. É simples: o Quad Cortex envia um tom de teste através da unidade de destino e, com base no áudio de saída, cria um modelo de alta qualidade em instantes.
Isso apresenta possibilidades empolgantes. Muitos de nós temos aquele pedal velho quebrado ou peça de equipamento de rack cujo som idiossincrático amamos. E se você pudesse modelá-lo para uso posterior na caixa – e compartilhar o modelo com os amigos? Até agora, a modelagem tem sido principalmente o domínio de especialistas técnicos. É emocionante pensar no que os músicos podem fazer com isso.
Democratizando a tecnologia musical
Esse tema – trazer tarefas técnicas previamente especializadas para as mãos dos músicos – é recorrente ao explorar ferramentas de criação de música com IA. Para Steinmetz, a modelagem analógica é apenas uma aplicação da tecnologia de aprendizado profundo, e não a mais empolgante. Ele nos convida a imaginar uma ferramenta como Midjourney ou Stable Diffusion, mas em vez de produzir imagens sob comando, gera novos efeitos de áudio.
“[Isso] permite que qualquer pessoa crie um efeito, porque você não precisa ser um programador para fazer isso. Posso pesquisar um espaço generativo – exatamente como poderia pesquisar Stable Diffusion – por tons ou efeitos. Eu poderia descobrir algum novo efeito e depois compartilhar com meus amigos ou usá-lo para minha própria produção. Abre muito mais possibilidades de criatividade.”
Vimos anteriormente como certas tarefas de produção podem ser automatizadas pela IA, liberando os músicos para focar sua criatividade em outras áreas. Uma dessas áreas pode ser as ferramentas de produção que estão usando. A tecnologia AI pode permitir que todos tenham sua própria caixa de ferramentas personalizada para fazer música. Talvez tornar esta caixa de ferramentas o mais criativa e única possível seja importante da mesma forma que a equalização ou compressão é hoje.
Steinmetz prevê “o crescimento de uma raça de programadores/músicos/engenheiros de áudio, pessoas que estão tanto no lado técnico quanto no lado musical”. Essas pessoas encontrarão maneiras criativas de “quebrar” os modelos de IA disponíveis ou “construir seus próprios novos modelos para obter algum tipo de novo som especificamente para sua prática musical”. Ele vê isso como a mais recente iteração de um relacionamento de longa data entre artistas e suas ferramentas. “Sempre que um [novo] sintetizador está em cena, sempre há alguns músicos apresentando ideias para mexer nele e torná-lo seu.”
Dryhurst também vê um futuro nos artistas que constroem seus próprios modelos personalizados, assim como ele e Herndon fizeram para o PROTO e outros projetos. “Acho que está mais próximo de quantos produtores vão querer usar modelos daqui para frente, construindo seu próprio ‘equipamento’, por assim dizer, que produz resultados idiossincráticos. Acho que, com o tempo, também podemos começar a ver os próprios modelos como um novo meio de expressão a ser compartilhado e experimentado. Acho que é aí que fica muito emocionante e novo; pode parecer que interagir com um modelo de artista é tão comum quanto interagir com um álbum ou outro formato tradicional. Ainda mal arranhamos a superfície das possibilidades.”
Você já tentou fazer música com ferramentas de IA? Compartilhe seus resultados e experiências com a Comunidade Loop no Discord .
aqui tem Parte 2 da I.A. Inteligencia Artificial !
collab by Angus Finlayson e Veronika Marxer DJ Life