Top Qs
Linha do tempo
Chat
Contexto

Aprendizagem profunda

ramo da aprendizagem de máquina Da Wikipédia, a enciclopédia livre

Remove ads

No aprendizado de máquina, a aprendizagem profunda se concentra na utilização de redes neurais multicamadas para executar tarefas como classificação, regressão e aprendizagem de representação. O campo se inspira na neurociência biológica e é centrado em empilhar neurônios artificiais em camadas e "treiná-los" para processar dados. O adjetivo "profunda" se refere ao uso de múltiplas camadas (variando de três a várias centenas ou milhares) na rede. Os métodos usados podem ser supervisionados, semissupervisionados ou não serem supervisionados.[1]

Algumas arquiteturas comuns de redes de aprendizagem profunds incluem redes totalmente conectadas, redes de crenças profundas, redes neurais recorrentes, redes neurais convolucionais, redes adversárias generativas, transformadoras e campos de radiância neural. Essas arquiteturas foram aplicadas a campos como visão computacional, reconhecimento de fala, processamento de linguagem natural, tradução automática, bioinformática, design de medicamentos, análise de imagens médicas, ciência do clima, inspeção de materiais e programas de jogos de tabuleiro, onde produziram resultados comparáveis e, em alguns casos, superando o desempenho de especialistas humanos.[2][3][4]

As primeiras formas de redes neurais foram inspiradas pelo processamento de informações e nós de comunicação distribuídos em sistemas biológicos, particularmente o cérebro humano. No entanto, as redes neurais atuais não pretendem modelar a função cerebral dos organismos e são geralmente vistas como modelos de baixa qualidade para esse propósito.[5]

Remove ads

Visão geral

Resumir
Perspectiva

A maioria dos modelos modernos de aprendizagem profunda são baseados em redes neurais multicamadas, como redes neurais convolucionais e transformadoras, embora também possam incluir fórmulas proposicionais ou variáveis latentes organizadas em camadas em modelos generativos profundos, como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.[6]

Fundamentalmente, a aprendizagem profunda se refere a uma classe de algoritmos de aprendizado de máquina em que uma hierarquia de camadas é usada para transformar dados de entrada em uma representação progressivamente mais abstrata e composta. Por exemplo, em um modelo de reconhecimento de imagem, a entrada bruta pode ser uma imagem (representada como um tensor de pixels). A primeira camada representacional pode tentar identificar formas básicas, como linhas e círculos, a segunda camada pode compor e codificar arranjos de bordas, a terceira camada pode codificar um nariz e olhos, e a quarta camada pode reconhecer que a imagem contém um rosto.

É importante ressaltar que um processo de aprendizagem profunda pode aprender quais recursos posicionar de forma ideal em qual nível por conta própria. Antes da aprendizagem profunda, as técnicas de aprendizado de máquina frequentemente envolviam engenharia de recursos feita à mão para transformar os dados em uma representação mais adequada para um algoritmo de classificação operar. Na abordagem de aprendizagem profunda, os recursos não são feitos à mão e o modelo descobre representações úteis de recursos a partir dos dados automaticamente. Isso não elimina a necessidade de ajuste manual; por exemplo, números variados de camadas e tamanhos de camadas podem fornecer diferentes graus de abstração.[7][1]

A palavra "profunda" em "aprendizagem profunda" se refere ao número de camadas através das quais os dados são transformados. Mais precisamente, os sistemas de aprendizagem profunda têm uma profundidade substancial de caminho de atribuição de crédito (CAP). O caminho de atribuição de crédito é a sequência de transformações de entrada para saída. Os caminhos de atribuição de crédito descrevem conexões potencialmente causais entre entrada e saída. Para uma rede neural feedforward, a profundidade dos caminhos de atribuição de crédito é a da rede e é o número de camadas ocultas mais uma (já que a camada de saída também é parametrizada). Para redes neurais recorrentes, nas quais um sinal pode se propagar através de uma camada mais de uma vez, a profundidade do caminho de atribuição de crédito é potencialmente ilimitada.[8] Nenhum limite universalmente acordado de profundidade divide a aprendizagem superficial da aprendizagem profunda, mas a maioria dos pesquisadores concorda que a aprendizagem profunda envolve profundidade de caminho de atribuição de crédito maior que dois. O caminho de atribuição de crédito de profundidade dois demonstrou ser um aproximador universal no sentido de que pode emular qualquer função.[9] Além disso, mais camadas não aumentam a capacidade de aproximação de função da rede. Modelos profundos (caminho de atribuição de crédito maior que dois) conseguem extrair melhores características do que modelos superficiais e, portanto, camadas extras ajudam a aprender as características de forma eficaz.

Arquiteturas de aprendizagem profunda podem ser construídas com um método ganancioso camada por camada.[10] A aprendizagem profunda ajuda a desembaraçar essas abstrações e escolher quais recursos melhoram o desempenho.[7]

Algoritmos de aprendizagem profunda podem ser aplicados a tarefas de aprendizado que não são supervisionadas. Este é um benefício importante porque dados que não são rotulados são mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser treinadas de maneira que não é supervisionada são redes de crenças profundas.[7][11]

O termo aprendizagem profunda foi introduzido na comunidade de aprendizado de máquina por Rina Dechter em 1986,[12] e nas redes neurais artificiais por Igor Aizenberg e colegas em 2000, no contexto de neurônios de limiar booleano.[13][14] Embora a história de seu surgimento seja aparentemente mais complicada.[15]

Remove ads

Interpretações

Resumir
Perspectiva

Redes neurais profundas são geralmente interpretadas em termos do teorema da aproximação universal[16][17][18][19][20] ou da inferência probabilística.[21][22][7][8][23]

O teorema clássico da aproximação universal diz respeito à capacidade das redes neurais feedforward com uma única camada oculta de tamanho finito para aproximar funções contínuas.[16][17][18][19] Em 1989, a primeira prova foi publicada por George Cybenko para funções de ativação sigmoides[16] e foi generalizada para arquiteturas multicamadas feed-forward em 1991 por Kurt Hornik.[17] Trabalhos recentes também mostraram que a aproximação universal também é válida para funções de ativação que não são limitadas, como a unidade linear retificada (ReLU) de Kunihiko Fukushima.[24][25]

O teorema da aproximação universal para redes neurais profundas diz respeito à capacidade de redes com largura limitada, mas a profundidade pode crescer. Lu et al.[20] provaram que se a largura de uma rede neural profunda com ativação de unidade linear retificada (ReLU) for estritamente maior do que a dimensão de entrada, então a rede pode aproximar qualquer função integrável de Lebesgue; se a largura for menor ou igual à dimensão de entrada, então uma rede neural profunda não é um aproximador universal.

A interpretação probabilística[23] deriva do campo do aprendizado de máquina. Ela apresenta inferência,[22][6][7][8][11][23] bem como os conceitos de otimização de treinamento e teste, relacionados ao ajuste e generalização, respectivamente. Mais especificamente, a interpretação probabilística considera a não linearidade de ativação como uma função de distribuição cumulativa.[23] A interpretação probabilística levou à introdução do abandono (dropout) ou da diluição como regularizador em redes neurais. A interpretação probabilística foi introduzida por pesquisadores como Hopfield, Widrow, e Narendra e popularizada em pesquisas como a de Bishop.[26]

Remove ads

História

Resumir
Perspectiva

Antes de 1980

Existem dois tipos de redes neurais artificiais (ANNs): redes neurais feedforward (FNNs) ou perceptrons multicamadas (MLPs) e redes neurais recorrentes (RNNs). As redes neurais recorrentes têm ciclos em suas estruturas de conectividade, as redes neurais feedforward não. Na década de 1920, Wilhelm Lenz e Ernst Ising criaram o modelo de Ising[27][28] que é essencialmente uma arquitetura de rede neural recorrente que não é de aprendizagem consistindo de elementos de limiar semelhantes a neurônios. Em 1972, Shun'ichi Amari tornou essa arquitetura adaptável.[29][30] Sua rede neural recorrente de aprendizagem foi republicada por John Hopfield em 1982.[31] Outras redes neurais recorrentes anteriores foram publicadas por Kaoru Nakano em 1971.[32][33] Já em 1948, Alan Turing produziu um trabalho sobre "Maquinário Inteligente" que não foi publicado em sua vida,[34] contendo "ideias relacionadas a redes neurais recorrentes de aprendizagem e evolução artificiais".[30]

Frank Rosenblatt (1958)[35] propôs a perceptron, uma perceptron multicamadas com 3 camadas: uma camada de entrada, uma camada oculta com pesos aleatórios que não aprendiam e uma camada de saída. Mais tarde, ele publicou um livro em 1962 que também introduziu experimentos de computador e variantes, incluindo uma versão com perceptrons de quatro camadas "com redes pré-terminais adaptativas" onde as duas últimas camadas aprenderam pesos (aqui ele dá créditos a H. D. Block e B. W. Knight).[36]:secção 16 O livro cita uma rede anterior de R. D. Joseph (1960)[37] "funcionalmente equivalente a uma variação" deste sistema de quatro camadas (o livro menciona Joseph mais de 30 vezes). Joseph deve, portanto, ser considerado o criador das perceptrons multicamadas adaptativas com unidades ocultas de aprendizagem próprias? Infelizmente, o algoritmo de aprendizagem não era funcional e caiu no esquecimento.

O primeiro algoritmo de aprendizagem profunda funcional foi o método de manipulação de dados de grupo, um método para treinar redes neurais profundas arbitrariamente, publicado por Alexey Ivakhnenko e Lapa em 1965. Eles o consideraram uma forma de regressão polinomial,[38] ou uma generalização da perceptron de Rosenblatt para lidar com relacionamentos mais complexos, que não são lineares, e hierárquicos.[39] Um artigo de 1971 descreveu uma rede profunda com oito camadas treinada por este método,[40] que é baseado no treinamento de camada por camada por meio de análise de regressão. Unidades ocultas supérfluas são podadas usando um conjunto de validação separado. Como as funções de ativação dos nós são polinômios de Kolmogorov e Gabor, essas também foram as primeiras redes profundas com "portas" ou unidades multiplicativas.[30]

A primeira perceptron multicamadas de aprendizagem profunda treinada por descida de gradiente estocástica[41] foi publicada em 1967 por Shun'ichi Amari.[42] Em experimentos de computador conduzidos pelo aluno de Amari, Saito, uma perceptron multicamadas de cinco camadas com duas camadas modificáveis aprendeu representações internas para classificar classes de padrões que não são separáveis linearmente.[30] Desenvolvimentos subsequentes em ajustes de hiperparâmetros e hardware fizeram da descida de gradiente estocástica de ponta a ponta a técnica de treinamento dominante atualmente.

Em 1969, Kunihiko Fukushima introduziu a função de ativação de ReLU (unidade linear retificada).[24][30] A retificadora se tornou a função de ativação mais popular para aprendizagem profunda.[43]

As arquiteturas de aprendizagem profunda para redes neurais convolucionais (CNNs) com camadas convolucionais e camadas de redução de amostragem começaram com a Neocognitron introduzida por Kunihiko Fukushima em 1979, embora não ter sido treinada por retropropagação.[44][45]

A retropropagação é uma aplicação eficiente da regra sequencial derivada por Gottfried Wilhelm Leibniz em 1673[46] para redes de nós diferenciáveis. A terminologia "erros de retropropagação" foi realmente introduzida em 1962 por Rosenblatt,[36] mas ele não sabia como implementar isso, embora Henry J. Kelley tivesse um precursor contínuo da retropropagação em 1960 no contexto da teoria de controle.[47] A forma moderna de retropropagação foi publicada pela primeira vez na tese de mestrado de Seppo Linnainmaa (1970).[48][49][30] G.M. Ostrovski et al. republicaram em 1971.[50][51] Paul Werbos aplicou a retropropagação às redes neurais em 1982[52] (sua tese de doutorado de 1974, reimpressa em um livro de 1994,[53] ainda não descreveu o algoritmo[51]). Em 1986, David E. Rumelhart et al. popularizaram a retropropagação, mas não citaram o trabalho original.[54][55]

Décadas de 1980 a 2000

A rede neural de atraso de tempo (TDNN) foi introduzida em 1987 por Alex Waibel para aplicar rede neural convolucional ao reconhecimento de fonemas. Ela usava convoluções, compartilhamento de peso e retropropagação.[56][57] Em 1988, Wei Zhang aplicou uma rede neural convolucional treinada em retropropagação ao reconhecimento de alfabeto.[58] Em 1989, Yann LeCun et al. criaram uma rede neural convolucional chamada LeNet para reconhecer códigos postais manuscritos em correspondências. O treinamento levou 3 dias.[59] Em 1990, Wei Zhang implementou uma rede neural convolucional em hardware de computação óptica.[60] Em 1991, uma rede neural convolucional foi aplicada à segmentação de objetos de imagens médicas[61] e à detecção de câncer de mama em mamografias.[62] A LeNet-5 (1998), uma rede neural convolucional de 7 níveis de Yann LeCun et al., que classifica dígitos, foi aplicada por vários bancos para reconhecer números manuscritos em cheques digitalizados em imagens de 32x32 pixels.[63]

As redes neurais recorrentes (RNNs)[27][29] foram desenvolvidas ainda mais na década de 1980. A recorrência é usada para processamento de sequências e, quando uma rede recorrente é desenrolada, ela se assemelha matematicamente a uma camada de feedforward profunda. Consequentemente, elas têm propriedades e problemas semelhantes, e seus desenvolvimentos tiveram influências mútuas. Em redes neurais recorrentes, dois primeiros trabalhos influentes foram a rede de Jordan (1986)[64] e a rede de Elman (1990),[65] que aplicaram redes neurais recorrentes para estudar problemas em psicologia cognitiva.

Na década de 1980, a retropropagação não funcionou bem para aprendizagem profunda com longos caminhos de atribuição de crédito. Para superar esse problema, em 1991, Jürgen Schmidhuber propôs uma hierarquia de redes neurais recorrentes pré-treinadas um nível de cada vez por aprendizado autossupervisionado, onde cada rede neural recorrente tenta prever sua própria próxima entrada, que é a próxima entrada inesperada da rede neural recorrente abaixo.[66][67] Este "compressor de histórico neural" usa codificação preditiva para aprender representações internas em múltiplas escalas de tempo auto-organizadas. Isso pode facilitar substancialmente a aprendizagem profunda a jusante. A hierarquia da rede neural recorrente pode ser colapsada em uma única rede neural recorrente, destilando uma rede fragmentadora de nível superior em uma rede automatizadora de nível inferior.[66][67][30] Em 1993, um compressor de histórico neural resolveu uma tarefa de "aprendizagem muito profunda" que exigia mais de 1000 camadas subsequentes em uma rede neural recorrente desdobrada no tempo.[68] O "P" em ChatGPT se refere a esse pré-treinamento.

A tese de diploma de Sepp Hochreiter (1991)[69] implementou o compressor de história neural,[66] e identificou e analisou o problema do gradiente de desaparecimento.[69][70] Hochreiter propôs conexões residuais recorrentes para resolver o problema do gradiente de desaparecimento. Isso levou à memória de curto prazo longa (LSTM), publicada em 1995.[71] A memória de curto prazo longa pode aprender tarefas de "aprendizagem muito profunda"[8] com longos caminhos de atribuição de crédito que exigem memórias de eventos que aconteceram milhares de passos de tempo discretos antes. Essa memória de curto prazo longa ainda não era a arquitetura moderna, que exigia uma "portão de esquecimento", introduzido em 1999,[72] que se tornou a arquitetura de rede neural recorrente padrão.

Em 1991, Jürgen Schmidhuber também publicou redes neurais adversárias que competem entre si na forma de um jogo de soma zero, onde o ganho de uma rede é a perda da outra rede.[73][74] A primeira rede é um modelo generativo que modela uma distribuição de probabilidade sobre padrões de saída. A segunda rede aprende por descida do gradiente para prever as reações do ambiente a esses padrões. Isso foi chamado de "curiosidade artificial". Em 2014, esse princípio foi usado em redes adversárias generativas (GANs).[75]

Durante 1985–1995, inspirados pela mecânica estatística, várias arquiteturas e métodos foram desenvolvidos por Terry Sejnowski, Peter Dayan, Geoffrey Hinton, etc., incluindo a máquina de Boltzmann,[76] a máquina de Boltzmann restrita,[77] a máquina de Helmholtz,[78] e o algoritmo de vigília e sono.[79] Eles foram projetados para aprendizado que não é supervisionado de modelos generativos profundos. No entanto, esses eram mais caros computacionalmente em comparação com a retropropagação. O algoritmo de aprendizado de máquina de Boltzmann, publicado em 1985, foi brevemente popular antes de ser eclipsado pelo algoritmo de retropropagação em 1986. (p. 112 [80]). Uma rede de 1988 se tornou o estado da arte na predição das estruturas de proteínas, uma aplicação inicial da aprendizagem profunda à bioinformática.[81]

Tanto a aprendizagem superficial quanto a profunda (por exemplo, redes recorrentes) de redes neurais artificiais para reconhecimento de fala têm sido explorados por muitos anos.[82][83][84] Esses métodos nunca superaram a tecnologia do modelo de mistura gaussiana/modelo de Markov oculto (GMM-HMM) manual interno que não é uniforme baseada em modelos generativos de fala treinados discriminativamente.[85] As principais dificuldades foram analisadas, incluindo a diminuição de gradiente[69] e a estrutura de correlação temporal fraca em modelos preditivos neurais.[86][87] Dificuldades adicionais foram a falta de dados de treinamento e poder de computação limitado.

A maioria dos pesquisadores de reconhecimento de fala se afastou das redes neurais para buscar modelagem generativa. Uma exceção foi no SRI International no final da década de 1990. Financiado pela NSA e pela DARPA do governo dos EUA, o SRI pesquisou em reconhecimentos de fala e falante. A equipe de reconhecimento de falante liderada por Larry Heck relatou sucesso significativo com redes neurais profundas no processamento de fala no benchmark de reconhecimento de falante do NIST de 1998.[88][89] Foi implantado no Nuance Verifier, representando a primeira grande aplicação industrial da aprendizagem profunda.[90]

O princípio de elevar características "brutas" sobre otimização manual foi explorado pela primeira vez com sucesso na arquitetura do autocodificador profundo nas características de bancos de filtros lineares ou espectrogramas "brutos" no final da década de 1990,[89] mostrando sua superioridade sobre as características Mel-Cepstrais que contêm estágios de transformações fixas a partir de espectrogramas. As características brutas da fala, as formas das ondas, mais tarde produziram excelentes resultados em larga escala.[91]

Décadas de 2000

As redes neurais entraram em um período de calmaria, e modelos mais simples que usam recursos artesanais específicos para tarefas, como filtros de Gabor e máquinas de vetores de suporte (SVMs), tornaram-se as escolhas preferidas nas décadas de 1990 e 2000, devido ao custo computacional das redes neurais artificiais e à falta de compreensão de como o cérebro conecta suas redes biológicas.

Em 2003, a memória de curto prazo longa tornou-se competitiva com os reconhecedores de fala tradicionais em certas tarefas.[92] Em 2006, Alex Graves, Santiago Fernández, Faustino Gomez e Schmidhuber combinaram-na com a classificação temporal conexionista (CTC)[93] em pilhas de memórias de curto prazo longas.[94] Em 2009, tornou-se a primeira rede neural recorrente a vencer um concurso de reconhecimento de padrões, em reconhecimento de escrita manual conectada.[95][8]

Em 2006, publicações de Geoff Hinton, Ruslan Salakhutdinov, Osindero e Teh[96][97] redes de crenças profundas foram desenvolvidas para modelagem generativa. Elas são treinadas treinando uma máquina de Boltzmann restrita, então congelando-a e treinando outra em cima da primeira, e assim por diante, então opcionalmente ajustadas usando retropropagação supervisionada.[98] Elas poderiam modelar distribuições de probabilidade de alta dimensão, como a distribuição de imagens do Banco de dados do Instituto Nacional de Padrões e Tecnologia modificado (MNIST), mas a convergência era lenta.[99][100][101]

O impacto da aprendizagem profunda na indústria começou no início dos anos 2000, quando as redes neurais convolucionais já processavam cerca de 10% a 20% de todos os cheques emitidos nos EUA, de acordo com Yann LeCun.[102] As aplicações industriais da aprendizagem profunda para reconhecimento de fala em larga escala começaram por volta de 2010.

A Oficina sobre Sistemas de Processamento de Informações Neurais (NIPS) de 2009 sobre Aprendizagem Profunds para Reconhecimento de Fala foi motivada pelas limitações de modelos generativos profundos de fala e pela possibilidade de que, dado hardware mais capaz e conjuntos de dados em larga escala, as redes neurais profundas pudessem se tornar práticas. Acreditava-se que o pré-treinamento de redes neurais profundas usando modelos generativos de redes de crenças profundas superaria as principais dificuldades das redes neurais. No entanto, descobriu-se que a substituição do pré-treinamento por grandes quantidades de dados de treinamento para retropropagação direta ao usar redes neurais profundas com grandes camadas de saída dependentes do contexto produzia taxas de erros dramaticamente menores do que o modelo de mistura gaussiana/modelo de Markov oculto de então última geração e também do que sistemas baseados em modelos generativos mais avançados.[103] A natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas era caracteristicamente diferente,[104] oferecendo percepções técnicas sobre como integrar a aprendizagem profunda no sistema de decodificação de fala altamente eficiente e em tempo de execução existente, implantado por todos os principais sistemas de reconhecimento de fala.[22][105][106] A análise por volta de 2009 e 2010, contrastando o modelo de mistura gaussiana (e outros modelos de fala generativa) versus modelos de redes neurais profundas, estimulou o investimento industrial inicial em aprendizagem profunda para reconhecimento de fala.[104] Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erros) entre modelos generativos e redes neurais profundas discriminativos.[103][104][107] Em 2010, os pesquisadores estenderam a aprendizagem profunda a partir do TIMIT para o reconhecimento de fala de vocabulário grande, adotando grandes camadas de saída da rede neural profunda com base em estados do modelo de Markov oculto dependentes do contexto construídos por árvores de decisões.[108][109][110][105]

Revolução da aprendizagem profunda

Thumb
Como a aprendizagem profunda é um subconjunto do aprendizado de máquina e como o aprendizado de máquina é um subconjunto da inteligência artificial (IA)

A revolução da aprendizagem profunda começou em torno da visão computacional baseada em redes neurais convolucionais e em GPUs.

Embora as redes neurais convolucionais treinadas por retropropagação já existissem há décadas e implementações de redes neurais em GPUs há anos,[111] incluindo redes neurais convolucionais,[112] implementações mais rápidas de redes neurais convolucionais em GPUs eram necessárias para progredir na visão computacional. Mais tarde, conforme a aprendizagem profunda se tornou difundido, otimizações de algoritmo e hardware especializados foram desenvolvidos especificamente para aprendizagem profunda.[113]

Um avanço fundamental para a revolução da aprendizagem profunda foram os avanços de hardware, especialmente GPUs. Alguns trabalhos iniciais datam de 2004.[111][112] Em 2009, Raina, Madhavan e Andrew Ng relataram uma rede de crenças profundas de 100M treinada em 30 GPUs GeForce GTX 280 da Nvidia, uma demonstração inicial de aprendizagem profunda baseada em GPUs. Eles relataram um treinamento até 70 vezes mais rápido.[114]

Em 2011, uma rede neural convolucional chamada DanNet[115][116] por Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella e Jürgen Schmidhuber alcançou pela primeira vez um desempenho sobre-humano em um concurso de reconhecimento de padrões visuais, superando os métodos tradicionais por um fator de 3.[8] Em seguida, ganhou mais concursos.[117][118] Eles também mostraram como o pool máximo de redes neurais convolucionais em GPUs melhorou significativamente o desempenho.[2]

Em 2012, Andrew Ng e Jeff Dean criaram uma rede neural feedforward que aprendeu a reconhecer conceitos de nível superior, como gatos, apenas assistindo a imagens que não são rotuladas tiradas de vídeos do YouTube.[119]

Em outubro de 2012, AlexNet por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton[3] venceu a competição ImageNet em larga escala por uma margem significativa sobre métodos de aprendizado de máquina rasos. Outras melhorias incrementais incluíram a rede VGG-16 por Karen Simonyan e Andrew Zisserman[120] e a Inceptionv3 do Google.[121]

O sucesso na classificação de imagens foi então estendido para a tarefa mais desafiadora de gerar descrições (legendas) para imagens, geralmente como uma combinação de redes neurais convolucionais e memórias de curto prazo longas.[122][123][124]

Em 2014, o estado da arte era treinar "rede neural muito profunda" com 20 a 30 camadas.[125] Empilhar muitas camadas levou a uma redução acentuada na precisão do treinamento,[126] conhecida como problema de "degradação".[127] Em 2015, duas técnicas foram desenvolvidas para treinar redes muito profundas: a Highway Network foi publicada em maio de 2015, e a rede neural residual (ResNet)[128] em dezembro de 2015. A ResNet se comporta como uma Highway Net de portas abertas.

Na mesma época, a aprendizagem profunda começou a impactar o campo da arte. Os primeiros exemplos incluíram o DeepDream do Google (2015) e a transferência de estilo neural (2015),[129] ambos baseados em redes neurais de classificação de imagens pré-treinadas, como a VGG-19.

A rede adversária generativa (GAN) (de Ian Goodfellow et al., 2014)[130] (com base no princípio da curiosidade artificial de Jürgen Schmidhuber[73][75]) tornou-se o estado da arte na modelagem generativa durante o período de 2014 a 2018. Excelente qualidade de imagem é alcançada pela StyleGAN da Nvidia (2018)[131] com base na rede adversária generativa progressiva de Tero Karras et al.[132] Aqui, o gerador da rede adversária generativa é desenvolvido de pequena para grande escala de forma piramidal. A geração de imagens por rede adversária generativa alcançou sucesso popular e provocou discussões sobre deepfakes.[133] Os modelos de difusão (2015)[134] eclipsaram as redes adversárias generativas na modelagem generativa desde então, com sistemas como DALL·E 2 (2022) e Stable Diffusion (2022).

Em 2015, o reconhecimento de fala do Google melhorou em 49% por um modelo baseado em memória de curto prazo longa, que eles disponibilizaram por meio do Google Voice Search em smartphones.[135][136]

A aprendizagem profunda faz parte de sistemas de última geração em várias disciplinas, particularmente visão computacional e reconhecimento de fala automático (ASR). Os resultados em conjuntos de avaliação comumente usados, como o TIMIT (ASR) e o MNIST (classificação de imagens), bem como uma variedade de tarefas de reconhecimento de fala de vocabulário amplo, melhoraram constantemente.[103][137] As redes neurais convolucionais foram substituídas para reconhecimento automático de fala por memórias de curto prazo longas,[136][138][139][140] mas são mais bem-sucedidas em visão computacional.

Yoshua Bengio, Geoffrey Hinton e Yann LeCun receberam o Prêmio Turing de 2018 por "avanços conceituais e de engenharia que tornaram as redes neurais profundas um componente crítico da computação".[141]

Remove ads

Redes neurais

Resumir
Perspectiva
Thumb
Exemplo simplificado de treinamento de uma rede neural na detecção de objetos: A rede é treinada por várias imagens que são conhecidas por representar estrelas do mar e ouriços-do-mar, que são correlacionadas com "nós" que representam características visuais. As estrelas do mar combinam com uma textura anelada e um contorno de estrela, enquanto a maioria dos ouriços-do-mar combinam com uma textura listrada e formato oval. No entanto, a instância de um ouriço-do-mar com textura anelar cria uma associação fracamente ponderada entre eles.
Thumb
Execução subsequente da rede em uma imagem de entrada (esquerda):[142] A rede detecta corretamente a estrela-do-mar. No entanto, a associação fracamente ponderada entre textura anelada e ouriço-do-mar também confere um sinal fraco a este último de um dos dois nós intermediários. Além disso, uma concha que não foi incluída no treinamento fornece um sinal fraco para a forma oval, resultando também em um sinal fraco para a saída do ouriço-do-mar. Esses sinais fracos podem resultar em um resultado falso positivo para o ouriço-do-mar. Na realidade, texturas e contornos não seriam representados por nós únicos, mas sim por padrões de peso associados de vários nós.

Redes neurais artificiais (ANNs) ou sistemas conexionistas são sistemas de computação inspirados nas redes neurais biológicas que constituem os cérebros dos animais. Tais sistemas aprendem (melhoram progressivamente sua capacidade de) fazer tarefas considerando exemplos, geralmente sem programação específica para a tarefa. Por exemplo, no reconhecimento de imagens, eles podem aprender a identificar imagens que contêm gatos analisando imagens de exemplo que foram rotuladas manualmente como "gato" ou "sem gato" e usando os resultados analíticos para identificar gatos em outras imagens. Eles encontraram mais uso em aplicações difíceis de expressar com um algoritmo de computador tradicional usando programação baseada em regras.

Uma rede neural artificial (RNA) é baseada em uma coleção de unidades conectadas chamadas neurônios artificiais (análogos aos neurônios biológicos em um cérebro biológico). Cada conexão (sinapse) entre neurônios pode transmitir um sinal para outro neurônio. O neurônio receptor (pós-sináptico) pode processar o(s) sinal(ais) e então sinalizar os neurônios a jusante conectados a ele. Os neurônios podem ter estado, geralmente representados por números reais, tipicamente entre 0 e 1. Neurônios e sinapses também podem ter um peso que varia conforme o aprendizado prossegue, o que pode aumentar ou diminuir a força do sinal que ele envia a jusante.

Normalmente, os neurônios são organizados em camadas. Camadas diferentes podem executar diferentes tipos de transformações em suas entradas. Os sinais viajam da primeira (entrada) para a última camada (saída), possivelmente após atravessar as camadas várias vezes.

O objetivo original da abordagem da rede neural era resolver problemas da mesma forma que um cérebro humano faria. Com o tempo, a atenção se concentrou em combinar habilidades mentais específicas, levando a desvios da biologia, como retropropagação ou passagem de informações na direção reversa e ajuste da rede para refletir essas informações.

As redes neurais têm sido usadas em uma variedade de tarefas, incluindo visão computacional, reconhecimento de fala, tradução automática, filtragem de redes sociais, jogos de tabuleiro e vídeo, e diagnóstico médico.

Em 2017, as redes neurais normalmente tinham alguns milhares a alguns milhões de unidades e milhões de conexões. Apesar desse número ser várias ordens de magnitude menor do que o número de neurônios em um cérebro humano, essas redes podem executar muitas tarefas em um nível além do dos humanos (por exemplo, reconhecer rostos ou jogar "Go"[143]).

Redes neurais profundas

Uma rede neural profunda (DNN) é uma rede neural artificial com múltiplas camadas entre as camadas de entrada e saída.[6][8] Existem diferentes tipos de redes neurais, mas elas sempre consistem nos mesmos componentes: neurônios, sinapses, pesos, vieses e funções.[144] Esses componentes como um todo funcionam de uma forma que imita funções do cérebro humano e podem ser treinados como qualquer outro algoritmo de aprendizado de máquina.

Por exemplo, uma rede neural profunda treinada para reconhecer raças de cães examinará a imagem fornecida e calculará a probabilidade de que o cão na imagem seja de uma determinada raça. O usuário pode revisar os resultados e selecionar quais probabilidades a rede deve exibir (acima de um certo limite, etc.) e retornar o rótulo proposto. Cada manipulação matemática como tal é considerada uma camada,[145] e redes neurais profundas complexas têm muitas camadas, daí o nome redes "profundas".

As redes neurais profundas podem modelar relacionamentos que não são lineares complexos. As arquiteturas dad redes neurais profundas geram modelos composicionais onde o objeto é expresso como uma composição em camadas de primitivos.[146] As camadas extras permitem a composição de recursos de camadas inferiores, potencialmente modelando dados complexos com menos unidades do que uma rede rasa de desempenho semelhante.[6] Por exemplo, foi provado que polinômios multivariados esparsos são exponencialmente mais fáceis de aproximar com redes neurais profundas do que com redes rasas.[147]

As arquiteturas profundas incluem muitas variantes de algumas abordagens básicas. Cada arquitetura obteve sucesso em domínios específicos. Nem sempre é possível comparar o desempenho de múltiplas arquiteturas, a menos que tenham sido avaliadas nos mesmos conjuntos de dados.[145]

As redes neurais profundas são tipicamente redes feedforward nas quais os dados fluem da camada de entrada para a camada de saída sem fazer loopback. Primeiramente, a rede neural profunda cria um mapa de neurônios virtuais e atribui valores numéricos aleatórios, ou "pesos", às conexões entre eles. Os pesos e entradas são multiplicados e retornam uma saída entre 0 e 1. Se a rede não reconhecesse com precisão um padrão específico, um algoritmo ajustaria os pesos.[148] Dessa forma, o algoritmo pode tornar certos parâmetros mais influentes, até determinar a manipulação matemática correta para processar completamente os dados.

As redes neurais recorrentes, nas quais os dados podem fluir em qualquer direção, são usadas para aplicações como modelagem de linguagem.[149][150][151][152][153] A memória de curto prazo longa é particularmente eficaz para esse uso.[154][155]

As redes neurais convolucionais (CNNs) são usadas em visão computacional.[156] As redes neurais convolucionais também foram aplicadas à modelagem acústica para reconhecimento automático de fala (ASR).[157]

Desafios

Assim como com redes neurais artificiais, muitos problemas podem surgir com redes neurais profundas treinadas ingenuamente. Dois problemas comuns são o ajuste excessivo e o tempo de computação.

As redes neurais profundas são propensas a ajuste excessivo por causa das camadas de abstração adicionadas, que permitem que elas modelem dependências raras nos dados de treinamento. Métodos de regularização como a poda de unidade de Ivakhnenko[40] ou o decaimento de peso (regularização de ) ou esparsidade (regularização de ) podem ser aplicados durante o treinamento para combater ajuste excessivo.[158] Alternativamente, a regularização de abandono omite aleatoriamente unidades das camadas ocultas durante o treinamento. Isso ajuda a excluir dependências raras.[159] Outro desenvolvimento recente interessante é a pesquisa em modelos de complexidade suficiente por meio de uma estimativa da complexidade intrínseca da tarefa que está sendo modelada. Essa abordagem foi aplicada com sucesso para tarefas de previsão de séries temporais multivariadas, como previsão de tráfego.[160] Finalmente, os dados podem ser aumentados por meio de métodos como corte e rotação, de modo que conjuntos de treinamento menores possam ser aumentados em tamanho para reduzir as chances de ajuste excessivo.[161]

As redes neurais profundas devem considerar muitos parâmetros de treinamento, como o tamanho (número de camadas e número de unidades por camada), a taxa de aprendizado e pesos iniciais. Varrer o espaço de parâmetros para parâmetros ideais pode não ser viável devido ao custo em tempo e recursos computacionais. Vários truques, como loteamento (computação do gradiente em vários exemplos de treinamento de uma vez em vez de exemplos individuais)[162] aceleram a computação. Grandes capacidades de processamento de arquiteturas de muitos núcleos (como GPUs ou o Intel Xeon Phi) produziram acelerações significativas no treinamento, devido à adequação de tais arquiteturas de processamento para as computações de matriz e vetor.[163][164]

Alternativamente, os engenheiros podem procurar outros tipos de redes neurais com algoritmos de treinamento mais diretos e convergentes. A controladora de articulação de modelo cerebelar (CMAC) é uma desses tipos de rede neural. Ela não requer taxas de aprendizado ou pesos iniciais randomizados. O processo de treinamento pode ser garantido para convergir em uma etapa com um novo lote de dados, e a complexidade computacional do algoritmo de treinamento é linear em relação ao número de neurônios envolvidos.[165][166]

Remove ads

Hardware

Resumir
Perspectiva

Desde a década de 2010, os avanços em algoritmos de aprendizado de máquina e hardware de computador levaram a métodos mais eficientes para treinar redes neurais profundas que contêm muitas camadas de unidades ocultas que não são lineares e uma camada de saída muito grande.[167] Em 2019, unidades de processamento gráfico (GPUs), geralmente com aprimoramentos específicos de IA, substituíram as CPUs como o método dominante para treinar IA de nuvem comercial em larga escala.[168] A OpenAI estimou a computação de hardware usada nos maiores projetos de aprendizagem profunda de AlexNet (2012) a AlphaZero (2017) e encontrou um aumento de 300.000 vezes na quantidade de computação necessária, com uma linha de tendência de tempo de duplicação de 3,4 meses.[169][170]

Circuitos eletrônicos especiais chamados processadores de aprendizagem profunda foram projetados para acelerar algoritmos de aprendizagem profunda. Os processadores de aprendizagem profunda incluem unidades de processamento neural (NPUs) em celulares Huawei[171] e servidores de computação em nuvem, como unidades de processamento tensorial (TPU) na Google Cloud Platform.[172] A Cerebras Systems também construiu um sistema dedicado para lidar com grandes modelos de aprendizagem profunda, o CS-2, baseado no maior processador do setor, o Wafer Scale Engine de segunda geração (WSE-2).[173][174]

Semicondutores atomicamente finos são considerados promissores para hardware de aprendizagem profunda com eficiência energética, onde a mesma estrutura básica do dispositivo é usada para operações lógicas e armazenamento de dados. Em 2020, Marega et al. publicaram experimentos com um material de canal ativo de grande área para desenvolver dispositivos e circuitos lógicos na memória baseados em transistores de efeito de campo de porta flutuante (FGFETs).[175]

Em 2021, J. Feldmann et al. propuseram um acelerador de hardware fotônico integrado para processamento convolucional paralelo.[176] Os autores identificam duas vantagens principais da fotônica integrada sobre suas contrapartes eletrônicas: (1) transferência de dados massivamente paralela por meio de multiplexação por divisão de comprimento de onda em conjunto com pentes de frequência e (2) velocidades de modulação de dados extremamente altas.[176] Seu sistema pode executar trilhões de operações de multiplicação e acumulação por segundo, indicando o potencial da fotônica integrada em aplicações de IA com muitos dados.[176]

Remove ads

Aplicações

Resumir
Perspectiva

Reconhecimento automático de fala

O reconhecimento automático de fala em larga escala é o primeiro e mais convincente caso bem-sucedido de aprendizado profundo. Redes neurais recorrentes de memórias de curto prazo longas podem aprender tarefas de "Aprendizado Muito Profundo"[8] que envolvem intervalos de vários segundos contendo eventos de fala separados por milhares de passos de tempo discretos, onde um passo de tempo corresponde a cerca de 10 milissegundos. Memórias de curto prazo longas com portas de esquecimento[155] são competitivas com reconhecedores de fala tradicionais em certas tarefas.[92]

O sucesso inicial no reconhecimento de fala foi baseado em tarefas de reconhecimento em pequena escala baseadas no TIMIT. O conjunto de dados contém 630 falantes de oito dialetos principais do inglês americano, onde cada falante lê 10 frases.[177] Seu pequeno tamanho permite que muitas configurações sejam tentadas. Mais importante, a tarefa TIMIT diz respeito ao reconhecimento de sequência de fonemas, que, diferentemente do reconhecimento de sequência de palavras, permite modelos de linguagem de bigramas de fonemas fracos. Isso permite que a força dos aspectos de modelagem acústica do reconhecimento de fala seja mais facilmente analisada. As taxas de erro listadas abaixo, incluindo esses resultados iniciais e medidas como taxas de erro de fonemas percentuais (PER), foram resumidas desde 1991.

Mais informação Método, Taxa de erro de fonemas percentual (PER) (%) ...

A estreia das redes neurais profundas para reconhecimento de falantes no final da década de 1990 e do reconhecimento de fala por volta de 2009 a 2011 e da memória de curto prazo longa por volta de 2003 a 2007, acelerou o progresso em oito áreas principais:[22][107][105]

  • Treinamento e decodificação de rede neural profunda de aceleração e expansão vertical/horizontal
  • Treinamento discriminativo de sequência
  • Processamento de recursos por modelos profundos com sólida compreensão dos mecanismos subjacentes
  • Adaptação de redes neurais profundas e modelos profundos relacionados
  • Aprendizado multitarefa e de transferência por redes neurais profundas e modelos profundos relacionados
  • Redes neurais convolucionais e como projetá-las para melhor explorar o conhecimento de domínio da fala
  • Rede neural recorrente e suas ricas variantes de memória de curto prazo longa
  • Modelos mais recentes de reconhecimento de fala usam transformadoras ou redes convolucionais temporais (TCN) com aplicações generalizadas e sucesso significativos.[182][183][184] Outros tipos de modelos profundos, incluindo modelos baseados em tensores e modelos discriminativos/generativos profundos integrados.

Todos os principais sistemas comerciais de reconhecimento de fala (por exemplo, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu e pesquisa por voz da iFlyTek e uma variedade de produtos de fala da Nuance, etc.) são baseados em aprendizado profundo.[22][185][186]

Reconhecimento de imagens

Um conjunto de avaliação comum para classificação de imagens é o conjunto de dados do banco de dados do MNIST. O MNIST é composto de dígitos manuscritos e inclui 60.000 exemplos de treinamento e 10.000 exemplos de teste. Assim como o TIMIT, seu tamanho pequeno permite que os usuários testem várias configurações. Uma lista abrangente de resultados neste conjunto está disponível.[187]

O reconhecimento de imagens baseado em aprendizagem profunda se tornou "super-humano", produzindo resultados mais precisos do que concorrentes humanos. Isso ocorreu pela primeira vez em 2011 no reconhecimento de sinais de trânsito e, em 2014, com o reconhecimento de rostos humanos.[188][189]

Veículos treinados em aprendizado profundo agora interpretam visualizações de câmera de 360°.[190] Outro exemplo é a Análise de Novas Dismorfologias Faciais (FDNA), usada para analisar casos de malformações humanas conectados a um grande banco de dados de síndromes genéticas.

Processamento de artes visuais

Thumb
Processamento de arte visual de Jimmy Wales na França, com o estilo de "O Grito" de Munch aplicado usando transferência de estilo neural

Estreitamente relacionada ao progresso que foi feito no reconhecimento de imagens está a aplicação crescente de técnicas de aprendizado profundo a várias tarefas de artes visuais. As redes neurais profundas provaram ser capazes, por exemplo, de

  • identificar o período de estilo de uma determinada pintura[191][192]
  • Transferência de estilo neural – capturar o estilo de uma determinada obra de arte e aplicá-lo de uma maneira visualmente agradável a uma fotografia ou vídeo arbitrário[191][192]
  • gerar imagens impressionantes com base em campos de entrada visual aleatórios.[191][192]

Processamento de linguagem natural

As redes neurais têm sido usadas para implementar modelos de linguagem desde o início dos anos 2000.[149] A memória de curto prazo longa ajudou a melhorar a tradução automática e a modelagem de linguagem.[150][151][152]

Outras técnicas-chave neste campo são a amostragem negativa[193] e a incorporação de palavras. A incorporação de palavras, como word2vec, pode ser considerada uma camada representacional em uma arquitetura de aprendizagem profunda que transforma uma palavra atômica em uma representação posicional da palavra em relação a outras palavras no conjunto de dados; a posição é representada como um ponto em um espaço vetorial. Usar a incorporação de palavras como uma camada de entrada da rede neural recorrente permite que a rede analise sentenças e frases usando uma gramática vetorial composicional eficaz. Uma gramática vetorial composicional pode ser considerada uma gramática livre de contexto probabilística (PCFG) implementada por uma rede neural recorrente.[194] Os autocodificadores recursivos construídos sobre incorporações de palavras podem avaliar a similaridade de sentenças e detectar paráfrases.[194] Arquiteturas neurais profundas fornecem os melhores resultados para análise de constituintes,[195] análise de sentimentos,[196] recuperação de informações,[197][198] compreensão de linguagem falada,[199] tradução automática,[150][200] vinculação de entidades contextuais,[200] reconhecimento de estilo de escrita,[201] reconhecimento de entidades nomeadas (classificação de tokens),[202] classificação de texto e outros.[203]

Desenvolvimentos recentes generalizam a incorporação de palavras para a incorporação de frases.

O Google Translate (GT) usa uma grande rede de memória de curto prazo longa (LSTM) de ponta a ponta.[204][205][206][207] A Google Neural Machine Translation (GNMT) usa um método de tradução automática baseada em exemplos no qual o sistema "aprende com milhões de exemplos".[205] Ela traduz "frases inteiras de uma vez, em vez de partes". O Google Translate oferece suporte a mais de cem idiomas.[205] A rede codifica a "semântica da frase em vez de simplesmente memorizar traduções frase a frase".[205][208] O Google Translate usa o inglês como intermediário entre a maioria dos pares de idiomas.[208]

Descoberta de medicamentos e toxicologia

 Nota: Para mais informações, veja Toxicologia.

Uma grande porcentagem de medicamentos candidatos não consegue obter aprovação regulatória. Essas falhas são causadas por eficácia insuficiente (efeito no alvo), interações indesejadas (efeitos fora do alvo) ou efeitos tóxicos imprevistos.[209][210] A pesquisa explorou o uso de aprendizagem profunda para prever os alvos biomoleculares,[211][212] alvos fora do alvo e efeitos tóxicos de produtos químicos ambientais em nutrientes, produtos domésticos e medicamentos.[213][214][215]

A AtomNet é um sistema de aprendizagem profunda para design de medicamentos racional baseado em estrutura.[216] A AtomNet foi usada para prever novas biomoléculas candidatas para alvos de doenças como o vírus Ebola[217] e esclerose múltipla.[218][217]

Em 2017, redes neurais de grafos foram usadas pela primeira vez para prever várias propriedades de moléculas em um grande conjunto de dados de toxicologia.[219] Em 2019, redes neurais generativas foram usadas para produzir moléculas que foram validadas experimentalmente em camundongos.[220][221]

Gestão de relacionamento com o cliente

A aprendizagem de reforço profunda tem sido usada para aproximar o valor de possíveis ações de marketing direto, definidas em termos de variáveis de recenticidade, frequência, e valor monetário (RFM). A função de valor estimado demonstrou ter uma interpretação natural como valor de vida útil do cliente.[222]

Sistemas de recomendações

Os sistemas de recomendações têm usado o aprendizagem profunda para extrair recursos significativos para um modelo de fator latente para recomendações de músicas e periódicos baseadas em conteúdo.[223][224] A aprendizagem profunda multivisualização foi aplicada para aprender as preferências dos usuários de vários domínios.[225] O modelo usa uma abordagem híbrida colaborativa e baseada em conteúdo e aprimora as recomendações em várias tarefas.

Bioinformática

Uma rede neural artificial autocodificadora foi usada em bioinformática para prever relações entre funções genéticas e anotações de ontologia genética.[226]

Na informática médica, a aprendizagem profunda foi usada para prever a qualidade do sono com base em dados de wearables[227] e previsões de complicações de saúde a partir de dados de registros de saúde eletrônicos.[228]

Redes neurais profundas têm mostrado desempenho incomparável na previsão de estruturas de proteínas, de acordo com a sequência dos aminoácidos que as compõem. Em 2020, a AlphaFold, um sistema baseado em aprendizagem profunda, atingiu um nível de precisão significativamente maior do que todos os métodos computacionais anteriores.[229][230]

Estimativas de redes neurais profundas

Redes neurais profundas podem ser usadas para estimar a entropia de um processo estocástico e chamadas de estimadora de entropia conjunta neural (NJEE).[231] Tal estimativa fornece percepções sobre os efeitos de variáveis aleatórias de entrada em uma variável aleatória independente. Praticamente, a rede neural profunda é treinada como uma classificadora que mapeia um vetor ou uma matriz X de entrada para uma distribuição de probabilidade de saída sobre as classes possíveis da variável aleatória Y, dada a entrada X. Por exemplo, em tarefas de classificação de imagens, a estimadora de entropia conjunta neural mapeia um vetor de valores de cores de pixels para probabilidades sobre possíveis classes de imagens. Na prática, a distribuição de probabilidade de Y é obtida por uma camada de Softmax com número de nós que é igual ao tamanho do alfabeto de Y. A estimadora de entropia conjunta neural usa funções de ativação continuamente diferenciáveis, de modo que as condições para o teorema de aproximação universal sejam mantidas. É mostrado que este método fornece uma estimadora consistente fortemente e supera outros métodos no caso de tamanhos de alfabetos grandes.[231]

Análise de imagens médicas

Foi demonstrado que a aprendizagem profunda produz resultados competitivos em aplicações médicas, como classificação de células cancerígenas, detecção de lesões, segmentação de órgãos e aprimoramento de imagens.[232][233] As ferramentas modernas de aprendizagem profunda demonstram a alta precisão na detecção de várias doenças e a utilidade de seu uso por especialistas para melhorar a eficiência do diagnóstico.[234][235]

Publicidade móvel

Encontrar o público móvel apropriado para publicidade móvel é sempre desafiador, pois muitos pontos de dados devem ser considerados e analisados antes que um segmento alvo possa ser criado e usado na veiculação de anúncios por qualquer servidor de anúncios.[236] A aprendizagem profunda tem sido usada para interpretar grandes conjuntos de dados de publicidade multidimensionais. Muitos pontos de dados são coletados durante o ciclo de solicitação/veiculação/clique de publicidade na Internet. Essas informações podem formar a base do aprendizado de máquina para melhorar a seleção de anúncios.

Restauração de imagens

A aprendizagem profunda foi aplicada com sucesso a problemas inversos, como redução de ruído, super-resolução, pintura interna e colorização de filmes.[237] Essas aplicações incluem métodos de aprendizado como "campos de encolhimento para restauração eficaz de imagens"[238], que treina em um conjunto de dados de imagens, e Deep Image Prior, que treina na imagem que precisa de restauração.

Detecção de fraudes financeiras

A aprendizagem profunda está sendo aplicada com sucesso à detecção de fraudes financeiras, à detecção de evasão fiscal[239] e ao combate à lavagem de dinheiro.[240]

Ciência dos materiais

Em novembro de 2023, pesquisadores da Google DeepMind e do Lawrence Berkeley National Laboratory anunciaram que desenvolveram um sistema de IA conhecido como GNoME. Este sistema contribuiu para a ciência dos materiais ao descobrir mais de 2 milhões de novos materiais em um período de tempo relativamente curto. O GNoME emprega técnicas de aprendizagem profunda para explorar com eficiência potenciais estruturas de materiais, alcançando um aumento significativo na identificação de estruturas cristalinas inorgânicas estáveis. As previsões do sistema foram validadas por meio de experimentos robóticos autônomos, demonstrando uma notável taxa de sucesso de 71%. Os dados de materiais recém-descobertos estão disponíveis publicamente por meio do banco de dados do Materials Project, oferecendo aos pesquisadores a oportunidade de identificar materiais com propriedades desejadas para várias aplicações. Este desenvolvimento tem implicações para o futuro da descoberta científica e a integração da IA na pesquisa de ciência dos materiais, potencialmente agilizando a inovação de materiais e reduzindo custos no desenvolvimento de produtos. O uso de IA e aprendizagem profunda sugere a possibilidade de minimizar ou eliminar experimentos manuais de laboratório e permitir que os cientistas se concentrem mais no design e na análise de compostos exclusivos.[241][242][243]

Militar

O Departamento de Defesa dos Estados Unidos aplicou o aprendizagem profunda para treinar robôs em novas tarefas por meio da observação.[244]

Equações diferenciais parciais

Redes neurais informadas por física têm sido usadas para resolver equações diferenciais parciais em problemas diretos e inversos de uma maneira orientada por dados.[245] Um exemplo é a reconstrução do fluxo de fluido governado pelas equações de Navier e Stokes. Usar redes neurais informadas por física não requer a geração de malha frequentemente cara da qual os métodos de fluidodinâmica computacional (CFD) convencionais dependem.[246][247]

Método de equação diferencial estocástica regressiva profundo

O método de equação diferencial estocástica regressiva profunda é um método numérico que combina aprendizagem profunda com equação diferencial estocástica regressiva (BSDE). Este método é particularmente útil para resolver problemas de alta dimensão em matemática financeira. Ao alavancar os poderosos recursos de aproximação de função de redes neurais profundas, a equação diferencial estocástica regressiva profunda aborda os desafios computacionais enfrentados por métodos numéricos tradicionais em configurações de altas dimensões. Especificamente, métodos tradicionais como métodos de diferença finita ou simulações de Monte Carlo frequentemente lutam com a maldição da dimensionalidade, onde o custo computacional aumenta exponencialmente com o número de dimensões. Os métodos de equação diferencial estocástica regressiva profunda, no entanto, empregam redes neurais profundas para aproximar soluções de equações diferenciais parciais (PDEs) de altas dimensões, reduzindo efetivamente a carga computacional.[248]


Além disso, a integração de redes neurais informadas por física (PINNs) na estrutura de equação diferencial estocástica regressiva profunda aumenta sua capacidade ao incorporar as leis físicas subjacentes diretamente na arquitetura da rede neural. Isso garante que as soluções não apenas se ajustem aos dados, mas também adiram às equações diferenciais estocásticas governantes. As redes neurais informadas por física alavancam o poder da aprendizagem profunda, respeitando as restrições impostas pelos modelos físicos, resultando em soluções mais precisas e confiáveis para problemas de matemática financeira.

Reconstrução de imagens

A reconstrução de imagens é a reconstrução das imagens subjacentes a partir das medições relacionadas às imagens. Vários trabalhos mostraram o desempenho melhor e superior dos métodos de aprendizagem profunda em comparação aos métodos analíticos para várias aplicações, por exemplo, imagens espectrais [249] e imagens de ultrassom.[250]

Previsão do tempo

Os sistemas tradicionais de previsão do tempo resolvem um sistema muito complexo de equações diferenciais parciais. O GraphCast é um modelo baseado em aprendizagem profunda, treinado em um longo histórico de dados meteorológicos para prever como os padrões climáticos mudam ao longo do tempo. Ele é capaz de prever as condições climáticas por até 10 dias globalmente, em um nível muito detalhado e em menos de um minuto, com precisão semelhante aos sistemas de última geração.[251][252]

Relógio epigenético

Um relógio epigenético é um teste bioquímico que pode ser usado para medir a idade. Galkin et al. usaram redes neurais profundas para treinar um relógio de envelhecimento epigenético de precisão sem precedentes usando mais de 6.000 amostras de sangue.[253] O relógio usa informações de 1000 sítios CpG e prevê pessoas com certas condições mais velhas do que controles saudáveis: doença inflamatória intestinal (DII), demência frontotemporal, câncer ovariano, obesidade. O relógio de envelhecimento foi planejado para ser lançado para uso público em 2021 por uma empresa subproduto da Insilico Medicine, a Deep Longevity.

Remove ads

Relação com o desenvolvimento cerebral e cognitivo humano

Resumir
Perspectiva

A aprendizagem profunda está intimamente relacionado a uma classe de teorias de desenvolvimento cerebral (especificamente, desenvolvimento neocortical) propostas por neurocientistas cognitivos no início da década de 1990.[254][255][256][257] Essas teorias de desenvolvimento foram instanciadas em modelos computacionais, tornando-as predecessoras de sistemas de aprendizagem profunda. Esses modelos de desenvolvimento compartilham a propriedade de que várias dinâmicas de aprendizado propostas no cérebro (por exemplo, uma onda de fator de crescimento nervoso) suportam a auto-organização de forma um tanto análoga às redes neurais utilizadas em modelos de aprendizagem profunda. Como o neocórtex, as redes neurais empregam uma hierarquia de filtros em camadas em que cada camada considera informações de uma camada anterior (ou do ambiente operacional) e, em seguida, passa sua saída (e possivelmente a entrada original) para outras camadas. Esse processo produz uma pilha auto-organizada de transdutores, bem ajustada ao seu ambiente operacional. Uma descrição de 1995 declarou: "...o cérebro do bebê parece se organizar sob a influência de ondas dos chamados fatores tróficos... diferentes regiões do cérebro se conectam sequencialmente, com uma camada de tecido amadurecendo antes da outra e assim por diante até que todo o cérebro esteja maduro".[258]

Uma variedade de abordagens tem sido usada para investigar a plausibilidade de modelos de aprendizagem profunda de uma perspectiva neurobiológica. Por um lado, várias variantes do algoritmo de retropropagação foram propostas para aumentar seu realismo de processamento.[259][260] Outros pesquisadores argumentaram que formas não supervisionadas de aprendizagem profunda, como aquelas baseadas em modelos generativos hierárquicos e redes de crenças profundas, podem estar mais próximas da realidade biológica.[261][262] A esse respeito, modelos de rede neural generativa têm sido relacionados a evidências neurobiológicas sobre processamento baseado em amostragem no córtex cerebral.[263]

Embora uma comparação sistemática entre a organização do cérebro humano e a codificação neuronal em redes profundas ainda não tenha sido estabelecida, várias analogias foram relatadas. Por exemplo, as computações realizadas por unidades de aprendizagem profunda podem ser semelhantes às de neurônios reais[264] e populações neurais.[265] Da mesma forma, as representações desenvolvidas por modelos de aprendizagem profunda são semelhantes às medidas no sistema visual de primatas[266] tanto nos níveis de unidade única[267] quanto nos níveis de população.[268]

Remove ads

Atividade comercial

Resumir
Perspectiva

O laboratório de IA do Facebook realiza tarefas como marcar automaticamente fotos carregadas com os nomes das pessoas nelas.[269]

A DeepMind Technologies do Google desenvolveu um sistema capaz de aprender a jogar videogames Atari usando apenas pixels como entrada de dados. Em 2015, eles demonstraram seu sistema AlphaGo, que aprendeu o jogo Go bem o suficiente para vencer um jogador profissional de Go.[270][271][272] O Google Translate usa uma rede neural para traduzir entre mais de 100 idiomas.

Em 2017, foi lançado o Covariant.ai, que se concentra na integração da aprendizagem profunda em fábricas.[273]

Em 2008,[274] pesquisadores da Universidade do Texas em Austin (UT) desenvolveram uma estrutura de aprendizado de máquina chamada Treinando um Agente Manualmente via Reforço Avaliativo, ou TAMER, que propôs novos métodos para robôs ou programas de computador aprenderem a executar tarefas interagindo com um instrutor humano.[244] Desenvolvido inicialmente como TAMER, um novo algoritmo chamado Deep TAMER foi posteriormente introduzido em 2018 durante uma colaboração entre o Laboratório de Pesquisa do Exército dos EUA (ARL) e pesquisadores da UT. O Deep TAMER usou a aprendizagem profunda para fornecer a um robô a capacidade de aprender novas tarefas por meio da observação.[244] Usando o Deep TAMER, um robô aprendeu uma tarefa com um treinador humano, assistindo a transmissões de vídeo ou observando um humano executar uma tarefa pessoalmente. O robô posteriormente praticou a tarefa com a ajuda de algum treinamento do treinador, que forneceu feedback como "bom trabalho" e "trabalho ruim".[275]

Remove ads

Críticas e comentários

Resumir
Perspectiva

A aprendizagem profunda atraiu críticas e comentários, em alguns casos de fora do campo da ciência da computação.

Teoria

Uma crítica principal diz respeito à falta de teoria em torno de alguns métodos.[276] A aprendizagem nas arquiteturas profundas mais comuns é implementada usando a descida de gradiente bem compreendida. No entanto, a teoria em torno de outros algoritmos, como a divergência contrastiva, é menos clara. (por exemplo, Converge? Se sim, quão rápido? O que está se aproximando?) Os métodos de aprendizagem profunda são frequentemente vistos como uma caixa-preta, com a maioria das confirmações feitas empiricamente, em vez de teoricamente.[277]

Em referência adicional à ideia de que a sensibilidade artística pode ser inerente a níveis relativamente baixos da hierarquia cognitiva, uma série publicada de representações gráficas dos estados internos de redes neurais profundas (20-30 camadas) tentando discernir dentro de dados essencialmente aleatórios as imagens nas quais foram treinadas[278] demonstra um apelo visual: o aviso de pesquisa original recebeu bem mais de 1.000 comentários e foi o assunto do que foi por um tempo o artigo mais acessado no site do The Guardian.[279]

Além disso, alguns pesquisadores argumentam que arquiteturas diferenciáveis e funções de perda padrão em aprendizagem profunda podem limitar a descoberta de mecanismos generativos ou causais mais profundos.[280] Com base na Teoria da Informação Algorítmica (AIT), Hernández e Orozco et al. (2021)[281] propuseram uma função de perda algorítmica para medir a discrepância entre o comportamento previsto e observado do sistema. Sua abordagem integra a Teoria da Informação Algorítmica (AIT) com aprendizado de máquina para formular uma estrutura para aprender regras generativas em espaços que não são diferenciáveis, conectando a teoria algorítmica discreta com técnicas de otimização contínua. Essa estrutura fornece uma nova perspectiva sobre interpretabilidade de modelos e generalização ao fundamentar a dinâmica da aprendizagem na complexidade algorítmica.[282][283]

Erros

Algumas arquiteturas de aprendizagem profunda apresentam comportamentos problemáticos,[284] como classificar com segurança imagens irreconhecíveis como pertencentes a uma categoria familiar de imagens comuns (2014)[285] e classificar incorretamente perturbações minúsculas de imagens classificadas corretamente (2013).[286] Goertzel levantou a hipótese de que esses comportamentos são devidos a limitações em suas representações internas e que essas limitações inibiriam a integração em arquiteturas heterogêneas de inteligência artificial geral (AGI) multicomponente.[284] Essas questões podem ser possivelmente abordadas por arquiteturas de aprendizagem profunda que formam internamente estados homólogos às decomposições de gramática de imagem[287] de entidades e eventos observados.[284] Aprender uma gramática (visual ou linguística) a partir de dados de treinamento seria equivalente a restringir o sistema ao raciocínio de senso comum que opera em conceitos em termos de regras de produção gramatical e é um objetivo básico tanto da aquisição da linguagem humana[288] quanto da inteligência artificial (IA).[289]

Ameaça cibernética

À medida que a aprendizagem profunda sai do laboratório para o mundo, pesquisas e experiências mostram que redes neurais artificiais são vulneráveis a hacks e enganos.[290] Ao identificar os padrões que esses sistemas usam para funcionar, os invasores podem modificar entradas para as redes neurais artificiais de tal forma que a rede neural artificial encontre uma correspondência que observadores humanos não reconheceriam. Por exemplo, um invasor pode fazer mudanças sutis em uma imagem de tal forma que a rede neural artificial encontre uma correspondência, mesmo que a imagem não pareça nada com o alvo da pesquisa para um humano. Tal manipulação é denominada "ataque adversário".[291]

Em 2016, pesquisadores usaram uma rede neural artificial para manipular imagens por tentativa e erro, identificar os pontos focais de outra e, assim, gerar imagens que a enganassem. As imagens modificadas não pareciam diferentes aos olhos humanos. Outro grupo mostrou que impressões de imagens manipuladas e depois fotografadas enganaram com sucesso um sistema de classificação de imagens.[292] Uma defesa é a busca reversa de imagens, na qual uma possível imagem falsa é enviada a um site como o TinEye, que pode então encontrar outras instâncias dela. Um refinamento é pesquisar usando apenas partes da imagem, para identificar imagens das quais aquela parte pode ter sido retirada.[293]

Outro grupo mostrou que certos espetáculos psicodélicos poderiam enganar um sistema de reconhecimento facial, fazendo-o pensar que pessoas comuns eram celebridades, potencialmente permitindo que uma pessoa se passasse por outra. Em 2017, pesquisadores adicionaram adesivos a placas de pare e fizeram com que uma rede neural artificial as classificasse incorretamente.[292]

As redes neurais artificiais podem, no entanto, ser mais treinadas para detectar tentativas de engano, potencialmente levando atacantes e defensores a uma corrida armamentista semelhante ao tipo que já define a indústria de defesa contra malware. As redes neurais artificiais foram treinadas para derrotar software antimalware baseado em rede neural artificial, atacando repetidamente uma defesa com malware que foi continuamente alterado por um algoritmo genético até enganar o antimalware, mantendo sua capacidade de danificar o alvo.[292]

Em 2016, outro grupo demonstrou que certos sons poderiam fazer o sistema de comando de voz do Google Now abrir um endereço da web específico e levantou a hipótese de que isso poderia "servir como um trampolim para novos ataques (por exemplo, abrir uma página da web que hospeda malware drive-by)".[292]

No "envenenamento de dados", dados falsos são continuamente contrabandeados para o conjunto de treinamento de um sistema de aprendizado de máquina para evitar que ele alcance a maestria.[292]

Ética na coleta de dados

Os sistemas de aprendizagem profunda que são treinados usando aprendizagem supervisionada geralmente dependem de dados criados ou anotados por humanos, ou ambos.[294] Foi argumentado que não apenas o trabalho de clique mal pago (como no Amazon Mechanical Turk) é regularmente implantado para esse propósito, mas também formas implícitas de microtrabalho humano que muitas vezes não são reconhecidas como tal.[295] O filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" do microtrabalho humano para gerar dados de treinamento: (1) gamificação (a incorporação de tarefas de anotação ou computação no fluxo de um jogo), (2) "captura e rastreamento" (por exemplo, CAPTCHAs para reconhecimento de imagem ou rastreamento de cliques nas páginas de resultados de pesquisas do Google), (3) exploração de motivações sociais (por exemplo, marcar rostos no Facebook para obter imagens faciais rotuladas), (4) mineração de informações (por exemplo, alavancando dispositivos de autoquantificação, como rastreadores de atividade) e (5) trabalho de clique.[295]

Remove ads

Ver também

Referências

  1. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). «Deep Learning» (PDF). Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. PMID 26017442. doi:10.1038/nature14539
  2. Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). «Multi-column deep neural networks for image classification». 2012 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.] pp. 3642–3649. ISBN 978-1-4673-1228-8. arXiv:1202.2745Acessível livremente. doi:10.1109/cvpr.2012.6248110
  3. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). «ImageNet Classification with Deep Convolutional Neural Networks» (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Consultado em 24 de maio de 2017. Cópia arquivada (PDF) em 10 de janeiro de 2017
  4. «Study urges caution when comparing neural networks to the brain». MIT News | Massachusetts Institute of Technology (em inglês). 2 de novembro de 2022. Consultado em 6 de dezembro de 2023
  5. Bengio, Yoshua (2009). «Learning Deep Architectures for AI» (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. CiteSeerX 10.1.1.701.9550Acessível livremente. doi:10.1561/2200000006. Consultado em 3 de setembro de 2015. Arquivado do original (PDF) em 4 de março de 2016
  6. Bengio, Y.; Courville, A.; Vincent, P. (2013). «Representation Learning: A Review and New Perspectives». IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. PMID 23787338. arXiv:1206.5538Acessível livremente. doi:10.1109/tpami.2013.50
  7. Schmidhuber, J. (2015). «Deep Learning in Neural Networks: An Overview». Neural Networks. 61: 85–117. PMID 25462637. arXiv:1404.7828Acessível livremente. doi:10.1016/j.neunet.2014.09.003
  8. Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Greedy layer-wise training of deep networks (PDF). Advances in neural information processing systems. pp. 153–160. Consultado em 6 de outubro de 2019. Cópia arquivada (PDF) em 20 de outubro de 2019
  9. Hinton, G.E. (2009). «Deep belief networks». Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947Acessível livremente
  10. Rina Dechter (1986). Learning while searching in constraint-satisfaction problems (em inglês). University of California, Computer Science Department, Cognitive Systems Laboratory.Online Arquivado em 2016-04-19 no Wayback Machine
  11. Aizenberg, I.N.; Aizenberg, N.N.; Vandewalle, J. (2000). Multi-Valued and Universal Binary Neurons. [S.l.]: Science & Business Media. ISBN 978-0-7923-7824-2. doi:10.1007/978-1-4757-3115-6. Consultado em 27 de dezembro de 2023
  12. Co-evolving recurrent neurons learn deep memory POMDPs (em inglês). Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
  13. Fradkov, Alexander L. (1 de janeiro de 2020). «Early History of Machine Learning». IFAC-PapersOnLine. 21st IFAC World Congress. 53 (2): 1385–1390. ISSN 2405-8963. doi:10.1016/j.ifacol.2020.12.1888Acessível livremente
  14. Cybenko (1989). «Approximations by superpositions of sigmoidal functions» (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. Bibcode:1989MCSS....2..303C. doi:10.1007/bf02551274. Arquivado do original (PDF) em 10 de outubro de 2015
  15. Hornik, Kurt (1991). «Approximation Capabilities of Multilayer Feedforward Networks». Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t
  16. Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation. [S.l.]: Prentice Hall. ISBN 978-0-13-273350-2
  17. Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks. [S.l.]: MIT Press. p. 48. ISBN 978-0-262-08239-6
  18. Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (em inglês) Arquivado em 2019-02-13 no Wayback Machine. Neural Information Processing Systems, 6231-6239.
  19. Deng, L.; Yu, D. (2014). «Deep Learning: Methods and Applications» (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. Consultado em 18 de outubro de 2014. Cópia arquivada (PDF) em 14 de março de 2016
  20. Murphy, Kevin P. (24 de agosto de 2012). Machine Learning: A Probabilistic Perspective. [S.l.]: MIT Press. ISBN 978-0-262-01802-9
  21. Fukushima, K. (1969). «Visual feature extraction by a multilayered network of analog threshold elements». IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322–333. doi:10.1109/TSSC.1969.300225
  22. Sonoda, Sho; Murata, Noboru (2017). «Neural network with unbounded activation functions is universal approximator». Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654Acessível livremente. doi:10.1016/j.acha.2015.12.005
  23. Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). [S.l.]: Springer. ISBN 978-0-387-31073-2. Consultado em 6 de agosto de 2017. Cópia arquivada (PDF) em 11 de janeiro de 2017
  24. «bibliotheca Augustana». www.hs-augsburg.de
  25. Brush, Stephen G. (1967). «History of the Lenz-Ising Model». Reviews of Modern Physics. 39 (4): 883–893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883
  26. Amari, Shun-Ichi (1972). «Learning patterns and pattern sequences by self-organizing nets of threshold elements». IEEE Transactions. C (21): 1197–1206
  27. Schmidhuber, Jürgen (2022). «Annotated History of Modern AI and Deep Learning». arXiv:2212.11279Acessível livremente [cs.NE]
  28. Nakano, Kaoru (1971). «Learning Process in a Model of Associative Memory». Pattern Recognition and Machine Learning. [S.l.: s.n.] pp. 172–186. ISBN 978-1-4615-7568-9. doi:10.1007/978-1-4615-7566-5_15
  29. Nakano, Kaoru (1972). «Associatron-A Model of Associative Memory». IEEE Transactions on Systems, Man, and Cybernetics. SMC-2 (3): 380–388. doi:10.1109/TSMC.1972.4309133
  30. Turing, Alan (1992). «Intelligent Machinery». In: Ince, D.C. Collected Works of AM Turing: Mechanical Intelligence. 1. [S.l.]: Elsevier Science Publishers. p. 107. ISBN 0-444-88058-5 Parâmetro desconhecido |orig-date= ignorado (ajuda)
  31. Rosenblatt, Frank (1962). Principles of Neurodynamics. [S.l.]: Spartan, New York
  32. Joseph, R. D. (1960). Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo. [S.l.: s.n.]
  33. Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques. [S.l.]: American Elsevier Publishing Co. ISBN 978-0-444-00020-0
  34. Ivakhnenko, A.G. (março de 1970). «Heuristic self-organization in problems of engineering cybernetics». Automatica (em inglês). 6 (2): 207–219. doi:10.1016/0005-1098(70)90092-0
  35. Ivakhnenko, Alexey (1971). «Polynomial theory of complex systems» (PDF). IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. Consultado em 5 de novembro de 2019. Cópia arquivada (PDF) em 29 de agosto de 2017
  36. Robbins, H.; Monro, S. (1951). «A Stochastic Approximation Method». The Annals of Mathematical Statistics. 22 (3). 400 páginas. doi:10.1214/aoms/1177729586Acessível livremente
  37. Amari, Shun'ichi (1967). «A theory of adaptive pattern classifier». IEEE Transactions. EC (16): 279–307
  38. Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de outubro de 2017). «Searching for Activation Functions». arXiv:1710.05941Acessível livremente [cs.NE]
  39. Fukushima, K. (1979). «Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron». Trans. IECE (em japonês). J62-A (10): 658–665. PMID 7370364. doi:10.1007/bf00344251
  40. Fukushima, K. (1980). «Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position». Biol. Cybern. 36 (4): 193–202. PMID 7370364. doi:10.1007/bf00344251
  41. Kelley, Henry J. (1960). «Gradient theory of optimal flight paths». ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282
  42. Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (em finlandês). University of Helsinki. p. 6–7
  43. Linnainmaa, Seppo (1976). «Taylor expansion of the accumulated rounding error». BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367
  44. Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives (em inglês). Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
  45. Schmidhuber, Juergen (25 de outubro de 2014). «Who Invented Backpropagation?». IDSIA, Switzerland. Consultado em 14 de setembro de 2024. Cópia arquivada em 30 de julho de 2024
  46. Werbos, Paul (1982). «Applications of advances in nonlinear sensitivity analysis» (PDF). System modeling and optimization. [S.l.]: Springer. pp. 762–770. Consultado em 2 de julho de 2017. Cópia arquivada (PDF) em 14 de abril de 2016
  47. Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6
  48. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (outubro de 1986). «Learning representations by back-propagating errors». Nature (em inglês). 323 (6088): 533–536. Bibcode:1986Natur.323..533R. ISSN 1476-4687. doi:10.1038/323533a0
  49. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation (em inglês ) Arquivado em 2022-10-13 no Wayback Machine". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition (em inglês), Volume 1: Foundation. MIT Press, 1986.
  50. Waibel, Alex (dezembro de 1987). Phoneme Recognition Using Time-Delay Neural Networks (PDF). Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan
  51. Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 03-1989.
  52. Zhang, Wei (1988). «Shift-invariant pattern recognition neural network and its optical architecture». Proceedings of Annual Conference of the Japan Society of Applied Physics
  53. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989.
  54. LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). «Gradient-based learning applied to document recognition» (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552Acessível livremente. doi:10.1109/5.726791. Consultado em 7 de outubro de 2016
  55. Jordan, Michael I. (1986). «Attractor dynamics and parallelism in a connectionist sequential machine». Proceedings of the Annual Meeting of the Cognitive Science Society (em inglês). 8
  56. Elman, Jeffrey L. (março de 1990). «Finding Structure in Time». Cognitive Science (em inglês). 14 (2): 179–211. ISSN 0364-0213. doi:10.1207/s15516709cog1402_1
  57. Schmidhuber, Jürgen (abril de 1991). «Neural Sequence Chunkers» (PDF). TR FKI-148, TU Munich
  58. Schmidhuber, Jürgen (1993). Habilitation thesis: System modeling and optimization (PDF). [S.l.: s.n.] Arquivado do original (PDF) em 16 de maio de 2022 As páginas 150 e seguintes demonstram a atribuição de crédito em um equivalente a 1.200 camadas em uma rede neural recorrente desdobrada.
  59. S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Arquivado em 2015-03-06 no Wayback Machine. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
  60. Hochreiter, S.; et al. (15 de janeiro de 2001). «Gradient flow in recurrent nets: the difficulty of learning long-term dependencies». In: Kolen, John F.; Kremer, Stefan C. A Field Guide to Dynamical Recurrent Networks. [S.l.]: John Wiley & Sons. ISBN 978-0-7803-5369-5
  61. Sepp Hochreiter; Jürgen Schmidhuber (21 de agosto de 1995), Long Short Term Memory, Wikidata Q98967430
  62. Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). «Learning to forget: Continual prediction with LSTM». 9th International Conference on Artificial Neural Networks: ICANN '99. 1999. [S.l.: s.n.] pp. 850–855. ISBN 0-85296-721-7. doi:10.1049/cp:19991218
  63. Schmidhuber, Jürgen (1991). «A possibility for implementing curiosity and boredom in model-building neural controllers». Proc. SAB'1991. MIT Press/Bradford Books. pp. 222–227
  64. Schmidhuber, Jürgen (2010). «Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)». IEEE Transactions on Autonomous Mental Development. 2 (3): 230–247. doi:10.1109/TAMD.2010.2056368
  65. Schmidhuber, Jürgen (2020). «Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)». Neural Networks (em inglês). 127: 58–66. PMID 32334341. arXiv:1906.04493Acessível livremente. doi:10.1016/j.neunet.2020.04.008
  66. Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1 de janeiro de 1985). «A learning algorithm for boltzmann machines». Cognitive Science. 9 (1): 147–169. ISSN 0364-0213. doi:10.1016/S0364-0213(85)80012-4
  67. Peter, Dayan; Hinton, Geoffrey E.; Neal, Radford M.; Zemel, Richard S. (1995). «The Helmholtz machine.». Neural Computation. 7 (5): 889–904. PMID 7584891. doi:10.1162/neco.1995.7.5.889. hdl:21.11116/0000-0002-D6D3-EAcessível livremente Acesso fechado
  68. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 de maio de 1995). «The wake-sleep algorithm for unsupervised neural networks». Science. 268 (5214): 1158–1161. Bibcode:1995Sci...268.1158H. PMID 7761831. doi:10.1126/science.7761831
  69. Sejnowski, Terrence J. (2018). The Deep Learning Revolution. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03803-4
  70. Qian, Ning; Sejnowski, Terrence J. (20 de agosto de 1988). «Predicting the secondary structure of globular proteins using neural network models». Journal of Molecular Biology. 202 (4): 865–884. ISSN 0022-2836. PMID 3172241. doi:10.1016/0022-2836(88)90564-5
  71. Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1 de agosto de 1993). «Hybrid neural network/hidden markov model systems for continuous speech recognition». International Journal of Pattern Recognition and Artificial Intelligence. 07 (4): 899–916. ISSN 0218-0014. doi:10.1142/s0218001493000455
  72. Robinson, T. (1992). «A real-time recurrent error propagation network word recognition system». ICASSP. Icassp'92: 617–620. ISBN 9780780305328. Consultado em 12 de junho de 2017. Cópia arquivada em 9 de maio de 2021
  73. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (março de 1989). «Phoneme recognition using time-delay neural networks» (PDF). IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. ISSN 0096-3518. doi:10.1109/29.21701. hdl:10338.dmlcz/135496. Consultado em 24 de setembro de 2019. Cópia arquivada (PDF) em 27 de abril de 2021
  74. Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). «Research Developments and Directions in Speech Recognition and Understanding, Part 1». IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM...26...75B. doi:10.1109/msp.2009.932166. hdl:1721.1/51891
  75. Bengio, Y. (1991). «Artificial Neural Networks and their Application to Speech/Sequence Recognition». McGill University Ph.D. thesis. Consultado em 12 de junho de 2017. Cópia arquivada em 9 de maio de 2021
  76. Deng, L.; Hassanein, K.; Elmasry, M. (1994). «Analysis of correlation structure for a neural predictive model with applications to speech recognition». Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2
  77. Doddington, G.; Przybocki, M.; Martin, A.; Reynolds, D. (2000). «The NIST speaker recognition evaluation ± Overview, methodology, systems, results, perspective». Speech Communication. 31 (2): 225–254. doi:10.1016/S0167-6393(99)00080-1
  78. Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). «Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design». Speech Communication. 31 (2): 181–192. doi:10.1016/s0167-6393(99)00077-1
  79. L.P Heck and R. Teunen. "Secure and Convenient Transactions with Nuance Verifier". Nuance Users Conference, April 1998.
  80. Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). «Biologically Plausible Speech Recognition with LSTM Neural Nets» (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. pp. 175–184. Consultado em 9 de abril de 2016. Arquivado do original (PDF) em 6 de julho de 2017
  81. Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). «Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks». Proceedings of the International Conference on Machine Learning, ICML 2006: 369–376. CiteSeerX 10.1.1.75.6306Acessível livremente
  82. Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting Arquivado em 2018-11-18 no Wayback Machine. Proceedings of ICANN (2), pp. 220–229.
  83. Graves, Alex; & Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
  84. Hinton, Geoffrey E. (1 de outubro de 2007). «Learning multiple layers of representation». Trends in Cognitive Sciences. 11 (10): 428–434. ISSN 1364-6613. PMID 17921042. doi:10.1016/j.tics.2007.09.004. Consultado em 12 de junho de 2017. Cópia arquivada em 11 de outubro de 2013
  85. Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). «A Fast Learning Algorithm for Deep Belief Nets» (PDF). Neural Computation. 18 (7): 1527–1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527. Consultado em 20 de julho de 2011. Cópia arquivada (PDF) em 23 de dezembro de 2015
  86. G. E. Hinton., "Learning multiple layers of representation". Arquivado em 2018-05-22 no Wayback Machine. Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
  87. Hinton, Geoffrey E. (outubro de 2007). «Learning multiple layers of representation». Trends in Cognitive Sciences (em inglês). 11 (10): 428–434. PMID 17921042. doi:10.1016/j.tics.2007.09.004
  88. Hinton, Geoffrey E.; Osindero, Simon; Teh, Yee-Whye (julho de 2006). «A Fast Learning Algorithm for Deep Belief Nets». Neural Computation (em inglês). 18 (7): 1527–1554. ISSN 0899-7667. PMID 16764513. doi:10.1162/neco.2006.18.7.1527
  89. Hinton, Geoffrey E. (31 de maio de 2009). «Deep belief networks». Scholarpedia (em inglês). 4 (5). 5947 páginas. Bibcode:2009SchpJ...4.5947H. ISSN 1941-6016. doi:10.4249/scholarpedia.5947Acessível livremente
  90. Yann LeCun (2016). Slides on Deep Learning Online Arquivado em 2016-04-23 no Wayback Machine
  91. Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). «Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups». IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597
  92. Yu, D.; Deng, L. (2010). «Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition». NIPS Workshop on Deep Learning and Unsupervised Feature Learning. Consultado em 14 de junho de 2017. Cópia arquivada em 12 de outubro de 2017
  93. Seide, F.; Li, G.; Yu, D. (2011). «Conversational speech transcription using context-dependent deep neural networks». Interspeech 2011. [S.l.: s.n.] pp. 437–440. doi:10.21437/Interspeech.2011-169. Consultado em 14 de junho de 2017. Cópia arquivada em 12 de outubro de 2017
  94. Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1 de maio de 2013). «Recent Advances in Deep Learning for Speech Research at Microsoft». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 12 de outubro de 2017
  95. Oh, K.-S.; Jung, K. (2004). «GPU implementation of neural networks». Pattern Recognition. 37 (6): 1311–1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013
  96. Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing, consultado em 14 de fevereiro de 2021, cópia arquivada em 18 de maio de 2020
  97. Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). «Efficient Processing of Deep Neural Networks: A Tutorial and Survey». arXiv:1703.09039Acessível livremente [cs.CV]
  98. Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (14 de junho de 2009). «Large-scale deep unsupervised learning using graphics processors». Proceedings of the 26th Annual International Conference on Machine Learning. Col: ICML '09. New York, NY, USA: Association for Computing Machinery. pp. 873–880. ISBN 978-1-60558-516-1. doi:10.1145/1553374.1553486
  99. Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 de setembro de 2010). «Deep, Big, Simple Neural Nets for Handwritten Digit Recognition». Neural Computation. 22 (12): 3207–3220. ISSN 0899-7667. PMID 20858131. arXiv:1003.0358Acessível livremente. doi:10.1162/neco_a_00052
  100. Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L.M.; Schmidhuber, J. (2011). «Flexible, High Performance Convolutional Neural Networks for Image Classification» (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 29 de setembro de 2014
  101. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q., eds. Advances in Neural Information Processing Systems 25 (PDF). [S.l.]: Curran Associates, Inc. pp. 2843–2851. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 9 de agosto de 2017
  102. Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). «Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks». Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Col: Lecture Notes in Computer Science. 7908. [S.l.: s.n.] pp. 411–418. ISBN 978-3-642-38708-1. PMID 24579167. doi:10.1007/978-3-642-40763-5_51
  103. Ng, Andrew; Dean, Jeff (2012). «Building High-level Features Using Large Scale Unsupervised Learning». arXiv:1112.6209Acessível livremente [cs.LG]
  104. Simonyan, Karen; Andrew, Zisserman (2014). «Very Deep Convolution Networks for Large Scale Image Recognition». arXiv:1409.1556Acessível livremente [cs.CV]
  105. Szegedy, Christian (2015). «Going deeper with convolutions» (PDF). Cvpr2015. arXiv:1409.4842Acessível livremente
  106. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). «Show and Tell: A Neural Image Caption Generator». arXiv:1411.4555Acessível livremente [cs.CV].
  107. Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). «From Captions to Visual Concepts and Back». arXiv:1411.4952Acessível livremente [cs.CV].
  108. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). «Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models». arXiv:1411.2539Acessível livremente [cs.LG]
  109. Simonyan, Karen; Zisserman, Andrew (10 de abril de 2015), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556Acessível livremente
  110. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification». arXiv:1502.01852Acessível livremente [cs.CV]
  111. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 de dezembro de 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385Acessível livremente
  112. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Deep Residual Learning for Image Recognition». 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770–778. ISBN 978-1-4673-8851-1. arXiv:1512.03385Acessível livremente. doi:10.1109/CVPR.2016.90
  113. Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (26 de agosto de 2015). «A Neural Algorithm of Artistic Style». arXiv:1508.06576Acessível livremente [cs.CV]
  114. Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680. Consultado em 20 de agosto de 2019. Cópia arquivada (PDF) em 22 de novembro de 2019
  115. «GAN 2.0: NVIDIA's Hyperrealistic Face Generator». SyncedReview.com. 14 de dezembro de 2018. Consultado em 3 de outubro de 2019
  116. Karras, T.; Aila, T.; Laine, S.; Lehtinen, J. (26 de fevereiro de 2018). «Progressive Growing of GANs for Improved Quality, Stability, and Variation». arXiv:1710.10196Acessível livremente [cs.NE]
  117. Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (1 de junho de 2015). «Deep Unsupervised Learning using Nonequilibrium Thermodynamics» (PDF). PMLR. Proceedings of the 32nd International Conference on Machine Learning (em inglês). 37: 2256–2265. arXiv:1503.03585Acessível livremente
  118. Google Research Blog. The neural networks behind Google Voice transcription. 11-08-2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
  119. Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (setembro de 2015). «Google voice search: faster and more accurate». Consultado em 9 de abril de 2016. Cópia arquivada em 9 de março de 2016
  120. Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). «Non-linear frequency warping using constant-Q transformation for speech emotion recognition». 2021 International Conference on Computer Communication and Informatics (ICCCI). [S.l.: s.n.] pp. 1–4. ISBN 978-1-7281-5875-4. arXiv:2102.04029Acessível livremente. doi:10.1109/ICCCI50826.2021.9402569
  121. Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). «Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling» (PDF). Arquivado do original (PDF) em 24 de abril de 2018
  122. Li, Xiangang; Wu, Xihong (2014). «Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition». arXiv:1410.4281Acessível livremente [cs.CL]
  123. «2018 ACM A.M. Turing Award Laureates». awards.acm.org (em inglês). Consultado em 7 de agosto de 2024
  124. Ferrie, C., & Kaiser, S. (2019). Neural Networks for Babies. [S.l.]: Sourcebooks. ISBN 978-1492671206
  125. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (janeiro de 2016). «Mastering the game of Go with deep neural networks and tree search». Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. ISSN 1476-4687. PMID 26819042. doi:10.1038/nature16961
  126. Kumar, Nishant; Raubal, Martin (2021). «Applications of deep learning in congestion detection, prediction and alleviation: A survey». Transportation Research Part C: Emerging Technologies. 133. Bibcode:2021TRPC..13303432K. arXiv:2102.09759Acessível livremente. doi:10.1016/j.trc.2021.103432Acessível livremente. hdl:10230/42143Acessível livremente Parâmetro desconhecido |article-number= ignorado (ajuda)
  127. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). «Deep neural networks for object detection». Advances in Neural Information Processing Systems: 2553–2561. Consultado em 13 de junho de 2017. Cópia arquivada em 29 de junho de 2017
  128. Rolnick, David; Tegmark, Max (2018). «The power of deeper networks for expressing natural functions». International Conference on Learning Representations. ICLR 2018. Consultado em 5 de janeiro de 2021. Cópia arquivada em 7 de janeiro de 2021
  129. Hof, Robert D. «Is Artificial Intelligence Finally Coming into Its Own?». MIT Technology Review. Consultado em 10 de julho de 2018. Cópia arquivada em 31 de março de 2019
  130. Gers, Felix A.; Schmidhuber, Jürgen (2001). «LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages». IEEE Transactions on Neural Networks. 12 (6): 1333–1340. PMID 18249962. doi:10.1109/72.963769. Consultado em 25 de fevereiro de 2020. Cópia arquivada em 26 de janeiro de 2020
  131. Sutskever, L.; Vinyals, O.; Le, Q. (2014). «Sequence to Sequence Learning with Neural Networks» (PDF). Proc. NIPS. Bibcode:2014arXiv1409.3215S. arXiv:1409.3215Acessível livremente. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 9 de maio de 2021
  132. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). «Exploring the Limits of Language Modeling». arXiv:1602.02410Acessível livremente [cs.CL]
  133. Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). «Multilingual Language Processing from Bytes». arXiv:1512.00103Acessível livremente [cs.CL]
  134. Mikolov, T.; et al. (2010). «Recurrent neural network based language model» (PDF). Interspeech: 1045–1048. doi:10.21437/Interspeech.2010-343. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 16 de maio de 2017
  135. Hochreiter, Sepp; Schmidhuber, Jürgen (1 de novembro de 1997). «Long Short-Term Memory». Neural Computation. 9 (8): 1735–1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735
  136. LeCun, Y.; et al. (1998). «Gradient-based learning applied to document recognition». Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791
  137. Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). «Deep convolutional neural networks for LVCSR». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 8614–8618. ISBN 978-1-4799-0356-6. doi:10.1109/icassp.2013.6639347
  138. Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). «Advances in optimizing recurrent networks». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 8624–8628. CiteSeerX 10.1.1.752.9151Acessível livremente. ISBN 978-1-4799-0356-6. arXiv:1212.0901Acessível livremente. doi:10.1109/icassp.2013.6639349
  139. Kumar, Nishant; Martin, Henry; Raubal, Martin (2024). «Enhancing Deep Learning-Based City-Wide Traffic Prediction Pipelines Through Complexity Analysis». Data Science for Transportation. 6 (3). doi:10.1007/s42421-024-00109-xAcessível livremente. hdl:20.500.11850/695425Acessível livremente Parâmetro desconhecido |article-number= ignorado (ajuda)
  140. Hinton, G. E. (2010). «A Practical Guide to Training Restricted Boltzmann Machines». Tech. Rep. UTML TR 2010-003. Consultado em 13 de junho de 2017. Cópia arquivada em 9 de maio de 2021
  141. Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). «CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi». The Journal of Supercomputing. 75: 197–227. Bibcode:2017arXiv170207908V. arXiv:1702.07908Acessível livremente. doi:10.1007/s11227-017-1994-x
  142. Ting Qin, et al. "A learning algorithm of CMAC based on RLS" (em inglês). Neural Processing Letters 19.1 (2004): 49-61.
  143. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array" (em inglês). Arquivado em 2018-11-18 no Wayback Machine. Neural Processing Letters 22.1 (2005): 1-16.
  144. Research, AI (23 de outubro de 2015). «Deep Neural Networks for Acoustic Modeling in Speech Recognition». airesearch.com. Consultado em 23 de outubro de 2015. Cópia arquivada em 1 de fevereiro de 2016
  145. «GPUs Continue to Dominate the AI Accelerator Market for Now». InformationWeek (em inglês). Dezembro de 2019. Consultado em 11 de junho de 2020. Cópia arquivada em 10 de junho de 2020
  146. Ray, Tiernan (2019). «AI is changing the entire nature of computation». ZDNet (em inglês). Consultado em 11 de junho de 2020. Cópia arquivada em 25 de maio de 2020
  147. «AI and Compute». OpenAI (em inglês). 16 de maio de 2018. Consultado em 11 de junho de 2020. Cópia arquivada em 17 de junho de 2020
  148. P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (24 de junho de 2017). «In-Datacenter Performance Analysis of a Tensor Processing Unit». ACM SIGARCH Computer Architecture News (em inglês). 45 (2): 1–12. arXiv:1704.04760Acessível livremente. doi:10.1145/3140659.3080246Acessível livremente
  149. Woodie, Alex (1 de novembro de 2021). «Cerebras Hits the Accelerator for Deep Learning Workloads». Datanami. Consultado em 3 de agosto de 2022
  150. «Cerebras launches new AI supercomputing processor with 2.6 trillion transistors». VentureBeat (em inglês). 20 de abril de 2021. Consultado em 3 de agosto de 2022
  151. Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). «Logic-in-memory based on an atomically thin semiconductor». Nature. 587 (2): 72–77. Bibcode:2020Natur.587...72M. PMC 7116757Acessível livremente. PMID 33149289. doi:10.1038/s41586-020-2861-0
  152. Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). «Parallel convolutional processing using an integrated photonic tensor». Nature. 589 (2): 52–58. PMID 33408373. arXiv:2002.00281Acessível livremente. doi:10.1038/s41586-020-03070-1
  153. Garofolo, J.S.; Lamel, L.F.; Fisher, W.M.; Fiscus, J.G.; Pallett, D.S.; Dahlgren, N.L.; Zue, V. (1993). TIMIT Acoustic-Phonetic Continuous Speech Corpus. [S.l.]: Linguistic Data Consortium. ISBN 1-58563-019-5. doi:10.35111/17gk-bn40. Consultado em 27 de dezembro de 2023
  154. Robinson, Tony (30 de setembro de 1991). «Several Improvements to a Recurrent Error Propagation Network Phone Recognition System». Cambridge University Engineering Department Technical Report. CUED/F-INFENG/TR82. doi:10.13140/RG.2.2.15418.90567
  155. Abdel-Hamid, O.; et al. (2014). «Convolutional Neural Networks for Speech Recognition». IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533–1545. doi:10.1109/taslp.2014.2339736. Consultado em 20 de abril de 2018. Cópia arquivada em 22 de setembro de 2020
  156. Deng, L.; Platt, J. (2014). «Ensemble Deep Learning for Speech Recognition». Proc. Interspeech: 1915–1919. doi:10.21437/Interspeech.2014-433
  157. Tóth, Laszló (2015). «Phone Recognition with Hierarchical Convolutional Deep Maxout Networks» (PDF). EURASIP Journal on Audio, Speech, and Music Processing. 2015. doi:10.1186/s13636-015-0068-3Acessível livremente. Consultado em 1 de abril de 2019. Cópia arquivada (PDF) em 24 de setembro de 2020 Parâmetro desconhecido |article-number= ignorado (ajuda)
  158. Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (19 de setembro de 2016), WaveNet: A Generative Model for Raw Audio, arXiv, doi:10.48550/arXiv.1609.03499, arXiv:1609.03499, consultado em 31 de julho de 2025
  159. «WaveNet: A generative model for raw audio». Google DeepMind (em inglês). 8 de setembro de 2016. Consultado em 31 de julho de 2025
  160. Latif, Siddique; Zaidi, Aun; Cuayahuitl, Heriberto; Shamshad, Fahad; Shoukat, Moazzam; Usama, Muhammad; Qadir, Junaid (4 de junho de 2025), Transformers in Speech Processing: A Survey, arXiv, doi:10.48550/arXiv.2303.11607, arXiv:2303.11607, consultado em 31 de julho de 2025
  161. McMillan, Robert (17 de dezembro de 2014). «How Skype Used AI to Build Its Amazing New Language Translator | WIRED». Wired. Consultado em 14 de junho de 2017. Cópia arquivada em 8 de junho de 2017
  162. Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y (2014). «Deep Speech: Scaling up end-to-end speech recognition». arXiv:1412.5567Acessível livremente [cs.CL]
  163. Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (agosto de 2012). «Multi-column deep neural network for traffic sign classification». Neural Networks. Selected Papers from IJCNN 2011. 32: 333–338. CiteSeerX 10.1.1.226.8219Acessível livremente. PMID 22386783. doi:10.1016/j.neunet.2012.02.023
  164. Chaochao Lu; Xiaoou Tang (2014). «Surpassing Human Level Face Recognition». arXiv:1404.3840Acessível livremente [cs.CV]
  165. G. W. Smith; Frederic Fol Leymarie (10 de abril de 2017). «The Machine as Artist: An Introduction». Arts. 6 (4). 5 páginas. doi:10.3390/arts6020005Acessível livremente
  166. Blaise Agüera y Arcas (29 de setembro de 2017). «Art in the Age of Machine Intelligence». Arts. 6 (4). 18 páginas. doi:10.3390/arts6040018Acessível livremente
  167. Goldberg, Yoav; Levy, Omar (2014). «word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method». arXiv:1402.3722Acessível livremente [cs.CL]
  168. Socher, Richard; Manning, Christopher. «Deep Learning for NLP» (PDF). Consultado em 26 de outubro de 2014. Cópia arquivada (PDF) em 6 de julho de 2014
  169. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). «Parsing With Compositional Vector Grammars» (PDF). Proceedings of the ACL 2013 Conference. Consultado em 3 de setembro de 2014. Cópia arquivada (PDF) em 27 de novembro de 2014
  170. Socher, R.; Perelygin, A.; Wu, J.; Chuang, J.; Manning, C.D.; Ng, A.; Potts, C. (outubro de 2013). «Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank» (PDF). Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. [S.l.]: Association for Computational Linguistics. pp. 1631–1642. doi:10.18653/v1/D13-1170. Consultado em 21 de dezembro de 2023. Cópia arquivada (PDF) em 28 de dezembro de 2016
  171. Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 de novembro de 2014). «A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de outubro de 2017
  172. Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1 de outubro de 2013). «Learning Deep Structured Semantic Models for Web Search using Clickthrough Data». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de outubro de 2017
  173. Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). «Using recurrent neural networks for slot filling in spoken language understanding». IEEE Transactions on Audio, Speech, and Language Processing. 23 (3): 530–539. doi:10.1109/taslp.2014.2383614
  174. Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 de junho de 2014). «Learning Continuous Phrase Representations for Translation Modeling». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de outubro de 2017
  175. Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). «Authorship verification using deep belief network systems». International Journal of Communication Systems. 30 (12): e3259. doi:10.1002/dac.3259
  176. Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). «Precision information extraction for rare disease epidemiology at scale». Journal of Translational Medicine (em inglês). 21 (1): 157. PMC 9972634Acessível livremente. PMID 36855134. doi:10.1186/s12967-023-04011-yAcessível livremente
  177. Turovsky, Barak (15 de novembro de 2016). «Found in translation: More accurate, fluent sentences in Google Translate». The Keyword Google Blog. Consultado em 23 de março de 2017. Cópia arquivada em 7 de abril de 2017
  178. Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 de novembro de 2016). «Zero-Shot Translation with Google's Multilingual Neural Machine Translation System». Google Research Blog. Consultado em 23 de março de 2017. Cópia arquivada em 10 de julho de 2017
  179. Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Kudo, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Young, Cliff; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg; et al. (2016). «Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation». arXiv:1609.08144Acessível livremente [cs.CL]
  180. Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). «MT on and for the Web» (PDF). Consultado em 1 de dezembro de 2016. Arquivado do original (PDF) em 29 de março de 2017
  181. Arrowsmith, J; Miller, P (2013). «Trial watch: Phase II and phase III attrition rates 2011-2012». Nature Reviews Drug Discovery. 12 (8). 569 páginas. PMID 23903212. doi:10.1038/nrd4090Acessível livremente
  182. Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). «Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project». Drug Discovery Today. 20 (5): 505–513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014Acessível livremente. hdl:1942/18723Acessível livremente
  183. "Toxicology in the 21st century Data Challenge"
  184. «NCATS Announces Tox21 Data Challenge Winners». Consultado em 5 de março de 2015. Arquivado do original em 28 de fevereiro de 2015
  185. Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9 de outubro de 2015). «AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery». arXiv:1510.02855Acessível livremente [cs.LG]
  186. «Startup Harnesses Supercomputers to Seek Cures». KQED Future of You. 27 de maio de 2015. Consultado em 9 de novembro de 2015. Cópia arquivada em 24 de dezembro de 2015
  187. Gilmer, Justin; Schoenholz, Samuel S.; Riley, Patrick F.; Vinyals, Oriol; Dahl, George E. (12 de junho de 2017). «Neural Message Passing for Quantum Chemistry». arXiv:1704.01212Acessível livremente [cs.LG]
  188. Zhavoronkov, Alex (2019). «Deep learning enables rapid identification of potent DDR1 kinase inhibitors». Nature Biotechnology. 37 (9): 1038–1040. PMID 31477924. doi:10.1038/s41587-019-0224-x
  189. Tkachenko, Yegor (8 de abril de 2015). «Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space». arXiv:1504.01840Acessível livremente [cs.LG]
  190. van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q., eds. Advances in Neural Information Processing Systems 26 (PDF). [S.l.]: Curran Associates, Inc. pp. 2643–2651. Consultado em 14 de junho de 2017. Cópia arquivada (PDF) em 16 de maio de 2017
  191. Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (1 de maio de 2015). «A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 25 de janeiro de 2018
  192. Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 de janeiro de 2014). «Deep autoencoder neural networks for gene ontology annotation predictions». Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics. [S.l.]: ACM. pp. 533–540. ISBN 9781450328944. doi:10.1145/2649387.2649442. hdl:11311/964622. Consultado em 23 de novembro de 2015. Cópia arquivada em 9 de maio de 2021
  193. Sathyanarayana, Aarti (1 de janeiro de 2016). «Sleep Quality Prediction From Wearable Data Using Deep Learning». JMIR mHealth and uHealth. 4 (4): e125. PMC 5116102Acessível livremente. PMID 27815231. doi:10.2196/mhealth.6562Acessível livremente
  194. Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13 de agosto de 2016). «Using recurrent neural network models for early detection of heart failure onset». Journal of the American Medical Informatics Association. 24 (2): 361–370. ISSN 1067-5027. PMC 5391725Acessível livremente. PMID 27521897. doi:10.1093/jamia/ocw112
  195. «DeepMind's protein-folding AI has solved a 50-year-old grand challenge of biology». MIT Technology Review (em inglês). Consultado em 10 de maio de 2024
  196. Shead, Sam (30 de novembro de 2020). «DeepMind solves 50-year-old 'grand challenge' with protein folding A.I.». CNBC (em inglês). Consultado em 10 de maio de 2024
  197. Shalev, Y.; Painsky, A.; Ben-Gal, I. (2022). «Neural Joint Entropy Estimation» (PDF). IEEE Transactions on Neural Networks and Learning Systems (em inglês). PP (4): 5488–5500. PMID 36155469. arXiv:2012.11197Acessível livremente. doi:10.1109/TNNLS.2022.3204919
  198. Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen A.W.M.; van Ginneken, Bram; Sánchez, Clara I. (dezembro de 2017). «A survey on deep learning in medical image analysis». Medical Image Analysis. 42: 60–88. Bibcode:2017arXiv170205747L. PMID 28778026. arXiv:1702.05747Acessível livremente. doi:10.1016/j.media.2017.07.005
  199. Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). «Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy». 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). [S.l.: s.n.] pp. 82–89. ISBN 9781538610343. doi:10.1109/ICCVW.2017.18. Consultado em 12 de novembro de 2019. Cópia arquivada em 9 de maio de 2021
  200. Dong, Xin; Zhou, Yizhao; Wang, Lantian; Peng, Jingfeng; Lou, Yanbo; Fan, Yiqun (2020). «Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework». IEEE Access. 8: 129889–129898. Bibcode:2020IEEEA...8l9889D. ISSN 2169-3536. doi:10.1109/ACCESS.2020.3006362Acessível livremente
  201. Lyakhov, Pavel Alekseevich; Lyakhova, Ulyana Alekseevna; Nagornov, Nikolay Nikolaevich (3 de abril de 2022). «System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network». Cancers (em inglês). 14 (7). 1819 páginas. ISSN 2072-6694. PMC 8997449Acessível livremente. PMID 35406591. doi:10.3390/cancers14071819Acessível livremente
  202. De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). «Predicting the popularity of instagram posts for a lifestyle magazine using deep learning». 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA). [S.l.: s.n.] pp. 174–177. ISBN 978-1-5090-4381-1. doi:10.1109/CSCITA.2017.8066548
  203. «Colorizing and Restoring Old Images with Deep Learning». FloydHub Blog (em inglês). 13 de novembro de 2018. Consultado em 11 de outubro de 2019. Cópia arquivada em 11 de outubro de 2019
  204. Schmidt, Uwe; Roth, Stefan. Shrinkage Fields for Effective Image Restoration (PDF). Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. Consultado em 1 de janeiro de 2018. Cópia arquivada (PDF) em 2 de janeiro de 2018
  205. Kleanthous, Christos; Chatzis, Sotirios (2020). «Gated Mixture Variational Autoencoders for Value Added Tax audit case selection». Knowledge-Based Systems. 188. doi:10.1016/j.knosys.2019.105048 Parâmetro desconhecido |article-number= ignorado (ajuda)
  206. Czech, Tomasz (28 de junho de 2018). «Deep learning: the next frontier for money laundering detection». Global Banking and Finance Review. Consultado em 15 de julho de 2018. Cópia arquivada em 16 de novembro de 2018
  207. Nuñez, Michael (29 de novembro de 2023). «Google DeepMind's materials AI has already discovered 2.2 million new crystals». VentureBeat (em inglês). Consultado em 19 de dezembro de 2023
  208. Merchant, Amil; Batzner, Simon; Schoenholz, Samuel S.; Aykol, Muratahan; Cheon, Gowoon; Cubuk, Ekin Dogus (dezembro de 2023). «Scaling deep learning for materials discovery». Nature (em inglês). 624 (7990): 80–85. Bibcode:2023Natur.624...80M. ISSN 1476-4687. PMC 10700131Acessível livremente. PMID 38030720. doi:10.1038/s41586-023-06735-9Acessível livremente
  209. Raissi, M.; Perdikaris, P.; Karniadakis, G. E. (1 de fevereiro de 2019). «Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations». Journal of Computational Physics (em inglês). 378: 686–707. Bibcode:2019JCoPh.378..686R. ISSN 0021-9991. OSTI 1595805. doi:10.1016/j.jcp.2018.10.045Acessível livremente
  210. Mao, Zhiping; Jagtap, Ameya D.; Karniadakis, George Em (1 de março de 2020). «Physics-informed neural networks for high-speed flows». Computer Methods in Applied Mechanics and Engineering (em inglês). 360. Bibcode:2020CMAME.360k2789M. ISSN 0045-7825. doi:10.1016/j.cma.2019.112789Acessível livremente Parâmetro desconhecido |article-number= ignorado (ajuda)
  211. Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (28 de fevereiro de 2020). «Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations». Science. 367 (6481): 1026–1030. Bibcode:2020Sci...367.1026R. PMC 7219083Acessível livremente. PMID 32001523. doi:10.1126/science.aaw4741
  212. Han, J.; Jentzen, A.; E, W. (2018). «Solving high-dimensional partial differential equations using deep learning». Proceedings of the National Academy of Sciences. 115 (34): 8505–8510. Bibcode:2018PNAS..115.8505H. PMC 6112690Acessível livremente. PMID 30082389. arXiv:1707.02568Acessível livremente. doi:10.1073/pnas.1718942115Acessível livremente
  213. Oktem, Figen S.; Kar, Oğuzhan Fatih; Bezek, Can Deniz; Kamalabadi, Farzad (2021). «High-Resolution Multi-Spectral Imaging With Diffractive Lenses and Learned Reconstruction». IEEE Transactions on Computational Imaging. 7: 489–504. ISSN 2333-9403. arXiv:2008.11625Acessível livremente. doi:10.1109/TCI.2021.3075349
  214. Bernhardt, Melanie; Vishnevskiy, Valery; Rau, Richard; Goksel, Orcun (dezembro de 2020). «Training Variational Networks With Multidomain Simulations: Speed-of-Sound Image Reconstruction». IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control. 67 (12): 2584–2594. ISSN 1525-8955. PMID 32746211. arXiv:2006.14395Acessível livremente. doi:10.1109/TUFFC.2020.3010186
  215. Lam, Remi; Sanchez-Gonzalez, Alvaro; Willson, Matthew; Wirnsberger, Peter; Fortunato, Meire; Alet, Ferran; Ravuri, Suman; Ewalds, Timo; Eaton-Rosen, Zach; Hu, Weihua; Merose, Alexander; Hoyer, Stephan; Holland, George; Vinyals, Oriol; Stott, Jacklynn (22 de dezembro de 2023). «Learning skillful medium-range global weather forecasting». Science (em inglês). 382 (6677): 1416–1421. Bibcode:2023Sci...382.1416L. ISSN 0036-8075. PMID 37962497. arXiv:2212.12794Acessível livremente. doi:10.1126/science.adi2336Acessível livremente
  216. Sivakumar, Ramakrishnan (27 de novembro de 2023). «GraphCast: A breakthrough in Weather Forecasting». Medium (em inglês). Consultado em 19 de maio de 2024
  217. Galkin, F.; Mamoshina, P.; Kochetov, K.; Sidorenko, D.; Zhavoronkov, A. (2020). «DeepMAge: A Methylation Aging Clock Developed with Deep Learning». Aging and Disease. doi:10.14336/ADAcessível livremente
  218. Utgoff, P. E.; Stracuzzi, D. J. (2002). «Many-layered learning». Neural Computation. 14 (10): 2497–2529. PMID 12396572. doi:10.1162/08997660260293319
  219. Shrager, J.; Johnson, MH (1996). «Dynamic plasticity influences the emergence of function in a simple cortical array». Neural Networks. 9 (7): 1119–1129. PMID 12662587. doi:10.1016/0893-6080(96)00033-0
  220. Quartz, SR; Sejnowski, TJ (1997). «The neural basis of cognitive development: A constructivist manifesto». Behavioral and Brain Sciences. 20 (4): 537–556. CiteSeerX 10.1.1.41.7854Acessível livremente. PMID 10097006. doi:10.1017/s0140525x97001581
  221. S. Blakeslee, "In brain's early growth, timetable may be critical" (em inglês), The New York Times, Science Section, pp. B5–B6, 1995.
  222. Mazzoni, P.; Andersen, R. A.; Jordan, M. I. (15 de maio de 1991). «A more biologically plausible learning rule for neural networks.». Proceedings of the National Academy of Sciences. 88 (10): 4433–4437. Bibcode:1991PNAS...88.4433M. ISSN 0027-8424. PMC 51674Acessível livremente. PMID 1903542. doi:10.1073/pnas.88.10.4433Acessível livremente
  223. O'Reilly, Randall C. (1 de julho de 1996). «Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm». Neural Computation. 8 (5): 895–938. ISSN 0899-7667. doi:10.1162/neco.1996.8.5.895
  224. Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (setembro de 2017). «Letter perception emerges from unsupervised deep learning and recycling of natural image features». Nature Human Behaviour. 1 (9): 657–664. ISSN 2397-3374. PMID 31024135. doi:10.1038/s41562-017-0186-2
  225. Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 de novembro de 2011). «Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons». PLOS Computational Biology. 7 (11): e1002211. Bibcode:2011PLSCB...7E2211B. ISSN 1553-7358. PMC 3207943Acessível livremente. PMID 22096452. doi:10.1371/journal.pcbi.1002211Acessível livremente
  226. Cash, S.; Yuste, R. (fevereiro de 1999). «Linear summation of excitatory inputs by CA1 pyramidal neurons». Neuron. 22 (2): 383–394. ISSN 0896-6273. PMID 10069343. doi:10.1016/s0896-6273(00)81098-3Acessível livremente
  227. Olshausen, B; Field, D (1 de agosto de 2004). «Sparse coding of sensory inputs». Current Opinion in Neurobiology. 14 (4): 481–487. ISSN 0959-4388. PMID 15321069. doi:10.1016/j.conb.2004.07.007
  228. Yamins, Daniel L K; DiCarlo, James J (março de 2016). «Using goal-driven deep learning models to understand sensory cortex». Nature Neuroscience. 19 (3): 356–365. ISSN 1546-1726. PMID 26906502. doi:10.1038/nn.4244
  229. Zorzi, Marco; Testolin, Alberto (19 de fevereiro de 2018). «An emergentist perspective on the origin of number sense». Phil. Trans. R. Soc. B. 373 (1740). 20170043 páginas. ISSN 0962-8436. PMC 5784047Acessível livremente. PMID 29292348. doi:10.1098/rstb.2017.0043
  230. Güçlü, Umut; van Gerven, Marcel A. J. (8 de julho de 2015). «Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream». Journal of Neuroscience. 35 (27): 10005–10014. PMC 6605414Acessível livremente. PMID 26157000. arXiv:1411.6422Acessível livremente. doi:10.1523/jneurosci.5023-14.2015
  231. Metz, C. (12 de dezembro de 2013). «Facebook's 'Deep Learning' Guru Reveals the Future of AI». Wired. Consultado em 26 de agosto de 2017. Cópia arquivada em 28 de março de 2014
  232. Gibney, Elizabeth (2016). «Google AI algorithm masters ancient game of Go». Nature. 529 (7587): 445–446. Bibcode:2016Natur.529..445G. PMID 26819021. doi:10.1038/529445aAcessível livremente
  233. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya; Lillicrap, Timothy; Leach, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 de janeiro de 2016). «Mastering the game of Go with deep neural networks and tree search». Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. ISSN 0028-0836. PMID 26819042. doi:10.1038/nature16961Acesso fechado
  234. «A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review». MIT Technology Review. Consultado em 30 de janeiro de 2016. Arquivado do original em 1 de fevereiro de 2016
  235. Metz, Cade (6 de novembro de 2017). «A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up». The New York Times. Consultado em 5 de julho de 2019. Cópia arquivada em 7 de julho de 2019
  236. Bradley Knox, W.; Stone, Peter (2008). «TAMER: Training an Agent Manually via Evaluative Reinforcement». 2008 7th IEEE International Conference on Development and Learning. [S.l.: s.n.] pp. 292–297. ISBN 978-1-4244-2661-4. doi:10.1109/devlrn.2008.4640845
  237. «Talk to the Algorithms: AI Becomes a Faster Learner». governmentciomedia.com (em inglês). 16 de maio de 2018. Consultado em 29 de agosto de 2018. Cópia arquivada em 28 de agosto de 2018
  238. Marcus, Gary (14 de janeiro de 2018). «In defense of skepticism about deep learning». Gary Marcus. Consultado em 11 de outubro de 2018. Cópia arquivada em 12 de outubro de 2018
  239. Knight, Will (14 de março de 2017). «DARPA is funding projects that will try to open up AI's black boxes». MIT Technology Review. Consultado em 2 de novembro de 2017. Cópia arquivada em 4 de novembro de 2019
  240. Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 de junho de 2015). «Inceptionism: Going Deeper into Neural Networks». Google Research Blog. Consultado em 20 de junho de 2015. Cópia arquivada em 3 de julho de 2015
  241. Alex Hern (18 de junho de 2015). «Yes, androids do dream of electric sheep». The Guardian. Consultado em 20 de junho de 2015. Cópia arquivada em 19 de junho de 2015
  242. Zenil, Hector; Kiani, Narsis A.; Zea, Allan A.; Tegnér, Jesper (2019). «Causal deconvolution by algorithmic generative models». Nature Machine Intelligence. 1 (1): 58–66. doi:10.1038/s42256-018-0005-0
  243. Hernández-Orozco, Santiago; Zenil, Hector; Riedel, Jürgen; Uccello, Adam; Kiani, Narsis A.; Tegnér, Jesper (2021). «Algorithmic Probability-Guided Machine Learning on Non-Differentiable Spaces». Frontiers in Artificial Intelligence. 3: 1–20. PMC 7944352Acessível livremente. PMID 33733213. doi:10.3389/frai.2020.567356Acessível livremente
  244. Zenil, Hector (25 de julho de 2020). «Algorithmic Information Dynamics». Scholarpedia. 15 (7). Bibcode:2020SchpJ..1553143Z. doi:10.4249/scholarpedia.53143Acessível livremente. hdl:10754/666314Acessível livremente
  245. Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). «Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images». arXiv:1412.1897Acessível livremente [cs.CV]
  246. Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). «Intriguing properties of neural networks». arXiv:1312.6199Acessível livremente [cs.CV]
  247. Zhu, S.C.; Mumford, D. (2006). «A stochastic grammar of images». Found. Trends Comput. Graph. Vis. 2 (4): 259–362. CiteSeerX 10.1.1.681.2190Acessível livremente. doi:10.1561/0600000018
  248. Miller, G. A., and N. Chomsky. "Pattern conception" (em inglês). Paper for Conference on pattern detection, University of Michigan. 1957.
  249. Eisner, Jason. «Deep Learning of Recursive Structure: Grammar Induction». Consultado em 10 de maio de 2015. Arquivado do original em 30 de dezembro de 2017
  250. «How hackers can force AI to make dumb mistakes». The Daily Dot (em inglês). 18 de junho de 2018. Consultado em 11 de outubro de 2019. Cópia arquivada em 11 de outubro de 2019
  251. «AI Is Easy to Fool—Why That Needs to Change». Singularity Hub. 10 de outubro de 2017. Consultado em 11 de outubro de 2017. Cópia arquivada em 11 de outubro de 2017
  252. Gibney, Elizabeth (2017). «The scientist who spots fake videos». Nature. doi:10.1038/nature.2017.22784. Consultado em 11 de outubro de 2017. Cópia arquivada em 10 de outubro de 2017
  253. Tubaro, Paola (2020). «Whose intelligence is artificial intelligence?». Global Dialogue (em inglês): 38–39
Remove ads

Leitura adicional

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads