Aprendizado de máquina e redes neurais - página 5

 

Aula 16 - Funções de Base Radial



Curso de Machine Learning da Caltech - CS 156. Aula 16 - Funções de Base Radial

Nesta palestra sobre funções de base radial, o professor Yaser Abu-Mostafa aborda uma variedade de tópicos, desde SVMs até clustering, aprendizado não supervisionado e aproximação de função usando RBFs. A palestra discute o processo de aprendizado de parâmetros para RBFs, o efeito de gama no resultado de um gaussiano em modelos RBF e o uso de RBFs para classificação. O conceito de agrupamento é introduzido para aprendizado não supervisionado, com o algoritmo de Lloyd e o agrupamento K-means discutidos em detalhes. Ele também descreve uma modificação para RBFs onde certos centros representativos são escolhidos para que os dados influenciem a vizinhança ao seu redor, e o algoritmo K-means é usado para selecionar esses centros. A importância de selecionar um valor apropriado para o parâmetro gama ao implementar RBFs para aproximação de função também é discutida, juntamente com o uso de múltiplos gamas para diferentes conjuntos de dados e a relação de RBFs com a regularização.

Na segunda parte, Yaser Abu-Mostafa discute as funções de base radial (RBF) e como elas podem ser derivadas com base na regularização. O professor apresenta uma abordagem de restrição de suavidade usando derivadas para obter uma função suave e apresenta os desafios de escolher o número de clusters e gama ao lidar com espaços de alta dimensão. Além disso, o professor explica que o uso do RBF pressupõe que a função de destino seja suave e leva em consideração o ruído de entrada no conjunto de dados. As limitações do agrupamento também são discutidas, mas podem ser úteis para obter pontos representativos para o aprendizado supervisionado. Por fim, o professor menciona que, em certos casos, os RBFs podem superar as máquinas de vetores de suporte (SVMs) se os dados forem agrupados de uma maneira específica e os clusters tiverem um valor comum.

  • 00:00:00 Nesta seção, Abu-Mostafa apresenta uma maneira de generalizar o SVM permitindo erros ou violações da margem, o que adiciona outro grau de liberdade ao design. Por ter um parâmetro C, eles dão um grau em que as violações da margem são permitidas. A boa notícia é que a solução é idêntica ao uso da programação quadrática. No entanto, não está claro como escolher o melhor valor para C, razão pela qual a validação cruzada é usada para determinar o valor de C que minimiza a estimativa de erro fora da amostra. O SVM é uma excelente técnica de classificação e é o modelo escolhido por muitas pessoas porque tem uma sobrecarga muito pequena e um critério específico que o torna melhor do que escolher um plano de separação aleatório.

  • 00:05:00 Nesta seção, o professor discute o modelo de função de base radial e sua importância na compreensão de diferentes facetas do aprendizado de máquina. O modelo é baseado na ideia de que cada ponto em um conjunto de dados influenciará o valor da hipótese em cada ponto x através da distância, com os pontos mais próximos tendo uma influência maior. A forma padrão do modelo de função de base radial é dada por h(x) que depende da distância entre x e o ponto de dados x_n, dada pela norma de x menos x_n ao quadrado, e um parâmetro gama positivo em uma exponencial determinada pelo peso a ser determinado. O modelo é chamado de radial por causa de sua influência simétrica em torno do centro do ponto de dados e é chamado de função de base porque é o bloco de construção da forma funcional do modelo.

  • 00:10:00 Nesta seção do vídeo, o palestrante discute o processo de aprendizado de parâmetros para funções de base radial. O objetivo é encontrar os parâmetros, rotulados de w_1 até w_N, que minimizem algum tipo de erro com base nos dados de treinamento. Os pontos x_n são avaliados para avaliar o erro dentro da amostra. O palestrante apresenta equações para resolver as incógnitas, que são os w's, e mostra que se phi é invertível,
    a solução é simplesmente w igual ao inverso de phi vezes y. Usando o kernel gaussiano, a interpolação entre os pontos é exata e o efeito da fixação do parâmetro gama é analisado.

  • 00:15:00 Nesta seção, o palestrante discute o efeito de gama no resultado de um gaussiano em modelos RBF. Se o gama for pequeno, o gaussiano é amplo e resulta em uma interpolação bem-sucedida mesmo entre dois pontos. No entanto, se o gama for grande, a influência dos pontos desaparece, resultando em interpolação ruim entre os pontos. O palestrante também demonstra como os RBFs são usados para classificação, com o sinal sendo o valor da hipótese, que é então minimizado para corresponder ao alvo +1/-1 para dados de treinamento. Por fim, o palestrante explica como as funções de base radial se relacionam com outros modelos, incluindo o método simples do vizinho mais próximo.

  • 00:20:00 Nesta seção, o palestrante discute a implementação do método do vizinho mais próximo usando funções de base radial (RBFs) tomando a influência de um ponto próximo. O método do vizinho mais próximo é frágil e abrupto, de modo que o modelo pode ser menos abrupto modificando-o para se tornar os k vizinhos mais próximos. Usando um gaussiano em vez de um cilindro, a superfície pode ser suavizada. O palestrante então modificou o modelo de interpolação exata para lidar com o problema de ter N parâmetros e N pontos de dados introduzindo a regularização, que resolve problemas de superajuste e subajuste. O modelo resultante é conhecido como Ridge Regression.

  • 00:25:00 Nesta seção, o palestrante descreve uma modificação nas funções de base radial, onde determinados centros importantes ou representativos são escolhidos para que os dados influenciem a vizinhança ao seu redor. O número de centros é denotado como K, que é muito menor que o número total de pontos de dados, N, de modo que há menos parâmetros a serem considerados. No entanto, o desafio está em selecionar os centros de forma que representem as entradas de dados sem contaminar os dados de treinamento. O palestrante explica o algoritmo de agrupamento K-means para selecionar esses centros, onde o centro para cada grupo de pontos próximos é atribuído como a média desses pontos.

  • 00:30:00 Nesta seção, o conceito de agrupamento é apresentado para aprendizado não supervisionado. O objetivo é agrupar pontos de dados semelhantes; cada cluster tem um centro representativo dos pontos dentro do cluster. O objetivo é minimizar o erro quadrático médio de cada ponto dentro de seu cluster. O desafio é que esse problema é NP-difícil, mas usando o algoritmo de Lloyd, também conhecido como K-means, um mínimo local pode ser encontrado iterativamente. O algoritmo minimiza o erro quadrático médio total fixando os clusters e otimizando os centros e, em seguida, fixando os centros e otimizando os clusters iterativamente.

  • 00:35:00 Nesta seção sobre funções de base radial, o conceito do algoritmo de Lloyd para agrupamento é discutido. O algoritmo de Lloyd envolve a criação de novos clusters tomando cada ponto e medindo sua distância até a média recém-adquirida. A média mais próxima é então determinada como pertencente ao cluster desse ponto. O algoritmo continua para frente e para trás, reduzindo a função objetivo até que um mínimo local seja alcançado. A configuração inicial dos centros determina o mínimo local, e tentar diferentes pontos de partida pode dar resultados diferentes. O algoritmo é aplicado a uma função de destino não linear e sua capacidade de criar clusters com base na similaridade, em vez da função de destino, é demonstrada.

  • 00:40:00 Nesta seção, o palestrante discute o algoritmo de Lloyd, que envolve o agrupamento repetido de pontos de dados e a atualização dos centros de agrupamento até a convergência. O algoritmo envolverá funções de base radial e, embora o agrupamento produzido a partir dos dados neste exemplo não tenha nenhum agrupamento natural, o palestrante observa que o agrupamento faz sentido. No entanto, a maneira como os centros servem como centro de influência pode causar problemas, principalmente ao usar o aprendizado não supervisionado. O palestrante então compara a palestra anterior sobre vetores de suporte com os pontos de dados atuais, com os vetores de suporte sendo representativos do plano de separação em vez das entradas de dados como os centros genéricos desta palestra.

  • 00:45:00 Nesta seção, o apresentador discute o processo de escolha de pontos importantes de forma supervisionada e não supervisionada com o kernel RBF. Os centros são encontrados usando o algoritmo de Lloyd, e metade do problema de escolha já está resolvido. Os pesos são determinados usando rótulos e existem K pesos e N equações. Como K é menor que N, alguma coisa terá que ceder, e o apresentador mostra como resolver esse problema usando a matriz phi, que possui K colunas e N linhas. A abordagem envolve cometer um erro dentro da amostra, mas as chances de generalização são boas, pois apenas K pesos são determinados. O apresentador então relaciona esse processo às redes neurais e enfatiza a familiaridade dessa configuração com as camadas.

  • 00:50:00 Nesta seção, o palestrante discute os benefícios do uso de funções de base radial e como elas se comparam às redes neurais. A rede de função de base radial é interpretada como olhando para regiões locais no espaço sem se preocupar com os pontos distantes, enquanto as redes neurais interferem significativamente. A não linearidade da rede da função de base radial é phi, enquanto a não linearidade correspondente da rede neural é theta, ambas combinadas com ws para obter h. Além disso, a rede de função de base radial possui duas camadas e pode ser implementada usando máquinas de vetores de suporte. Finalmente, o palestrante destaca que o parâmetro gama do gaussiano em funções de base radial é agora tratado como um parâmetro genuíno e aprendido.

  • 00:55:00 Nesta seção, o palestrante discute a importância de selecionar um valor apropriado para o parâmetro gama ao implementar funções de base radial (RBFs) para aproximação de função. Se o gama for fixo, o método pseudo-inverso pode ser usado para obter os parâmetros necessários. No entanto, se o gama não for fixo, a descida do gradiente pode ser usada. O palestrante explica uma abordagem iterativa chamada algoritmo Expectation-Maximization (EM) que pode ser usado para convergir rapidamente para os valores apropriados de gama e os parâmetros necessários para o RBF. Além disso, o palestrante discute o uso de múltiplos gamas para diferentes conjuntos de dados e a relação dos RBFs com a regularização. Por fim, o palestrante compara os RBFs com sua versão do kernel e o uso de vetores de suporte para classificação.

  • 01:00:00 Nesta seção, o palestrante compara duas abordagens diferentes que usam o mesmo kernel. A primeira abordagem é uma implementação direta de RBF com 9 centros, que usa aprendizado não supervisionado de centros seguido por uma regressão pseudo-inversa e linear para classificação. A segunda abordagem é um SVM que maximiza a margem, iguala a um kernel e passa para a programação quadrática. Apesar do fato de que os dados não se agrupam normalmente, o SVM tem um desempenho melhor com erro zero na amostra e mais proximidade com o alvo. Por fim, o palestrante discute como os RBFs podem ser derivados inteiramente com base na regularização, com um termo minimizando o erro dentro da amostra e o outro termo sendo a regularização para garantir que a função não seja maluca do lado de fora.

  • 01:05:00 Nesta seção, o professor apresenta uma abordagem de restrição de suavidade que envolve restrições em derivadas para garantir uma função suave. A suavidade é medida pelo tamanho da k-ésima derivada que é parametrizada analiticamente e elevada ao quadrado, e então integrada de menos infinito a mais infinito. As contribuições de diferentes derivados são combinadas com coeficientes e multiplicadas por um parâmetro de regularização. A solução resultante leva a funções de base radial que representam a interpolação mais suave. Além disso, o professor explica como o SVM simula uma rede neural de dois níveis e discute o desafio de escolher o número de centros no agrupamento.

  • 01:10:00 Nesta seção, o professor discute as dificuldades que surgem ao escolher o número de clusters em RBF e a escolha do gama ao lidar com espaços de alta dimensão. A maldição da dimensionalidade inerente ao RBF torna difícil esperar uma boa interpolação mesmo com outros métodos. O professor revisa várias heurísticas e afirma que a validação cruzada e outras técnicas semelhantes são úteis para a validação. O professor explica ainda como escolher gama tratando os parâmetros em pé de igualdade usando otimização não linear geral. Ele também discute como usar o algoritmo EM para obter um mínimo local para gama quando os w_k são constantes. Por fim, o professor menciona que as redes neurais de duas camadas são suficientes para aproximar tudo, mas podem surgir casos em que se precise de mais de duas camadas.

  • 01:15:00 Nesta seção, o professor explica que uma das suposições subjacentes ao uso de funções de base radial (RBF) é que a função de destino é suave. Isso ocorre porque a fórmula RBF é baseada na resolução do problema de aproximação com suavidade. No entanto, existe outra motivação para o uso do RBF, que é levar em consideração o ruído de entrada no conjunto de dados. Se o ruído nos dados for gaussiano, você descobrirá que, ao assumir o ruído, o valor da hipótese não deve mudar muito alterando x para evitar a falta de algo. O resultado é ter uma interpolação que é gaussiana. O aluno pergunta como escolher o gama na fórmula RBF, e o professor diz que a largura do gaussiano deve ser comparável às distâncias entre os pontos para que haja uma interpolação genuína e haja um critério objetivo para a escolha do gama. Quando perguntado se o número de clusters nos centros K é uma medida da dimensão VC, o professor diz que o número de clusters afeta a complexidade do conjunto de hipóteses, que por sua vez afeta a dimensão VC.

  • 01:20:00 Nesta seção, o professor discute as limitações do agrupamento e como ele pode ser usado como um método de agrupamento incompleto no aprendizado não supervisionado. Ele explica que o clustering pode ser difícil, pois o número inerente de clusters geralmente é desconhecido e, mesmo que haja clustering, pode não estar claro quantos clusters existem. No entanto, o agrupamento ainda pode ser útil para obter pontos representativos para o aprendizado supervisionado para acertar os valores. O professor também menciona que, em certos casos, os RBFs podem ter um desempenho melhor do que os SVMs se os dados forem agrupados de uma maneira específica e os clusters tiverem um valor comum.
Lecture 16 - Radial Basis Functions
Lecture 16 - Radial Basis Functions
  • 2012.05.29
  • www.youtube.com
Radial Basis Functions - An important learning model that connects several machine learning models and techniques. Lecture 16 of 18 of Caltech's Machine Lear...
 

Aula 17 - Três Princípios de Aprendizagem



Curso de Machine Learning da Caltech - CS 156. Aula 17 - Três Princípios de Aprendizagem

Esta palestra sobre os Três Princípios de Aprendizagem aborda a navalha de Occam, o viés de amostragem e a espionagem de dados no aprendizado de máquina. O princípio da navalha de Occam é discutido em detalhes, juntamente com a complexidade de um objeto e um conjunto de objetos, que podem ser medidos de diferentes maneiras. A palestra explica como os modelos mais simples costumam ser melhores, pois reduzem a complexidade e melhoram o desempenho fora da amostra. Os conceitos de falseabilidade e não falseabilidade também são introduzidos. Viés de amostragem é outro conceito-chave discutido, juntamente com métodos para lidar com isso, como distribuições correspondentes de entrada e dados de teste. A espionagem de dados também é abordada, com exemplos de como ela pode afetar a validade de um modelo, inclusive por meio de normalização e reutilização do mesmo conjunto de dados para vários modelos.

A segunda parte aborda o tópico de espionagem de dados e seus perigos no aprendizado de máquina, especificamente em aplicações financeiras onde o overfitting devido à espionagem de dados pode ser especialmente arriscado. O professor sugere dois remédios para espionagem de dados: evitá-la ou responsabilizá-la. A palestra também aborda a importância do dimensionamento e normalização dos dados de entrada, bem como o princípio da navalha de Occam no aprendizado de máquina. Além disso, o vídeo discute como corrigir corretamente o viés de amostragem em aplicativos de visão computacional e conclui com um resumo de todos os tópicos abordados.

  • 00:00:00 Nesta seção, o professor Abu-Mostafa explica a versatilidade das funções de base radial (RBF) no aprendizado de máquina. Ele observa que os RBFs servem como um bloco de construção para clusters gaussianos em aprendizado não supervisionado e como uma versão suave do vizinho mais próximo, afetando o espaço de entrada gradualmente com efeito decrescente. Eles também estão relacionados a redes neurais através do uso de sigmoides na função de ativação da camada oculta. RBFs são aplicáveis a máquinas de vetores de suporte com um kernel RBF, exceto que os centros em SVM são os vetores de suporte localizados ao redor do limite de separação, enquanto os centros em RBF estão em todo o espaço de entrada, representando diferentes clusters da entrada. Os RBFs também se originaram da regularização, o que permitiu que os critérios de suavidade fossem capturados usando uma função de derivadas que resolvesse para gaussianas durante a interpolação e extrapolação.

  • 00:05:00 Nesta seção, o palestrante apresenta os três princípios de aprendizado: navalha de Occam, viés de amostragem e espionagem de dados. Ele começa explicando o princípio da navalha de Occam, que afirma que o modelo mais simples que se ajusta aos dados é o mais plausível. Ele observa que a afirmação não é precisa nem evidente e aborda duas questões principais: o que significa um modelo ser simples e como sabemos que mais simples é melhor em termos de desempenho? A palestra discutirá essas questões para tornar o princípio concreto e prático no aprendizado de máquina.

  • 00:10:00 Nesta seção, o palestrante explica que a complexidade pode ser medida de duas maneiras: a complexidade de um objeto, como uma hipótese, ou a complexidade de um conjunto de objetos, como um conjunto de hipóteses ou modelo. A complexidade de um objeto pode ser medida por seu comprimento mínimo de descrição ou a ordem de um polinômio, enquanto a complexidade de um conjunto de objetos pode ser medida por entropia ou dimensão VC. O palestrante argumenta que todas essas definições de complexidade estão mais ou menos falando da mesma coisa, apesar de serem diferentes conceitualmente.

  • 00:15:00 Nesta seção, o palestrante explica as duas categorias usadas para medir a complexidade na literatura, incluindo uma declaração simples e a complexidade de um conjunto de objetos. A palestra então discute a relação entre a complexidade de um objeto e a complexidade de um conjunto de objetos, ambos relacionados à contagem. A palestra fornece exemplos de como medir a complexidade, incluindo parâmetros de valor real e SVM, que não é realmente complexo porque é definido apenas por poucos vetores de suporte. O primeiro dos cinco quebra-cabeças apresentados nesta palestra é apresentado e pergunta sobre um oráculo do futebol que pode prever os resultados do jogo.

  • 00:20:00 Nesta seção, o palestrante conta a história de uma pessoa que envia cartas prevendo o resultado de jogos de futebol. Ele explica que a pessoa não está realmente prevendo nada, mas sim enviando previsões diferentes para grupos de destinatários e, em seguida, direcionando os destinatários que receberam a resposta correta. A complexidade desse cenário torna impossível prever com certeza, e o palestrante usa esse exemplo para explicar por que modelos mais simples em aprendizado de máquina geralmente são melhores. Simplificar o modelo reduz a complexidade e ajuda a melhorar o desempenho fora da amostra, que é a afirmação concreta da navalha de Occam.

  • 00:25:00 Nesta seção da palestra, o professor explica o argumento por trás do princípio de que hipóteses mais simples são melhores para ajuste do que as complexas. O cerne da prova reside no fato de que há menos hipóteses simples do que complexas, tornando menos provável que uma dada hipótese se ajuste a um conjunto de dados. No entanto, quando uma hipótese mais simples se encaixa, ela é mais significativa e fornece mais evidências do que uma complexa. A noção de falsificabilidade também é introduzida, afirmando que os dados devem ter uma chance de falsificar uma afirmação para fornecer evidências para ela.

  • 00:30:00 Nesta seção, o conceito de não falseabilidade e viés de amostragem são discutidos como princípios importantes no aprendizado de máquina. O axioma da não falseabilidade refere-se ao fato de que os modelos lineares são muito complexos para conjuntos de dados muito pequenos para serem generalizados. A palestra também explica a importância dos sinais de alerta e menciona especificamente como a navalha de Occam nos adverte contra modelos complexos que apenas ajustam bem os dados em conjuntos de dados de amostra. O viés de amostragem é outro conceito-chave que é discutido por meio de um quebra-cabeça sobre uma pesquisa por telefone. A pesquisa previu que Dewey venceria a eleição presidencial de 1948, mas Truman venceu devido a um viés de amostragem de um grupo de proprietários de telefones que não era representativo da população em geral.

  • 00:35:00 Nesta seção, aprendemos sobre o princípio do viés de amostragem e seu impacto nos resultados de aprendizagem. O princípio afirma que amostras de dados tendenciosas levarão a resultados de aprendizagem tendenciosos, pois os algoritmos ajustam o modelo aos dados que recebem. Um exemplo prático em finanças demonstrou como o algoritmo de um trader que foi bem-sucedido no uso de dados históricos de estoque falhou porque perdeu certas condições no mercado. Para lidar com o viés de amostragem, uma técnica é combinar as distribuições dos dados de entrada e de teste, embora nem sempre seja possível conhecer as distribuições de probabilidade. Nesses casos, reamostrar os dados de treinamento ou ajustar os pesos atribuídos às amostras pode ajudar a conseguir isso. No entanto, isso pode resultar em perda de tamanho da amostra e independência dos pontos.

  • 00:40:00 Nesta seção, o palestrante discute a questão do viés de amostragem no aprendizado de máquina e apresenta vários cenários em que isso pode ocorrer. Em um caso, o palestrante explica como os pontos de dados de ponderação podem ser usados para corresponder a distribuição de um conjunto de dados a um conjunto menor, resultando em melhor desempenho. No entanto, em casos como pesquisas presidenciais, onde o conjunto de dados não é ponderado e ocorre viés de amostragem, não há cura. Por fim, o palestrante aplica o conceito de viés de amostragem ao processo de aprovação de crédito, explicando que o uso de dados históricos apenas dos clientes aprovados deixa de lado os solicitantes rejeitados, afetando potencialmente a precisão das futuras decisões de aprovação. No entanto, esse viés é menos severo nesse cenário, pois os bancos tendem a ser agressivos na concessão de crédito, de modo que a fronteira é representada principalmente pelos clientes já aprovados.

  • 00:45:00 Nesta seção, o palestrante discute o princípio da espionagem de dados, que afirma que, se um conjunto de dados afetou qualquer etapa do processo de aprendizado, a capacidade do mesmo conjunto de dados de avaliar o resultado foi comprometida. A espionagem de dados é a armadilha mais comum para os profissionais e tem diferentes manifestações, tornando fácil cair em suas armadilhas. Olhar para os dados é uma das maneiras de cair nessa armadilha, pois permite que os alunos ampliem e reduzam as hipóteses, afetando o processo de aprendizagem. Devido às suas diversas manifestações, o palestrante passa a dar exemplos de espionagem de dados e a compensação e disciplina necessárias para evitar suas consequências.

  • 00:50:00 Nesta seção, o palestrante discute o problema da espionagem de dados e como isso pode afetar a validade de um modelo. Ao olhar apenas para o conjunto de dados, pode-se ficar vulnerável a projetar um modelo baseado nas idiossincrasias desses dados. No entanto, é válido considerar todas as demais informações relacionadas à função alvo e ao espaço de entrada, exceto a realização do conjunto de dados que será utilizado para treinamento, a menos que seja devidamente cobrado. Para ilustrar esse ponto, o palestrante fornece um quebra-cabeça de previsão financeira em que se prevê a taxa de câmbio entre o dólar americano e a libra esterlina usando um conjunto de dados de 2.000 pontos com um conjunto de treinamento de 1.500 pontos e um conjunto de teste de 500 pontos. O modelo é treinado apenas no conjunto de treinamento e a saída é avaliada no conjunto de teste para evitar espionagem de dados.

  • 00:55:00 Nesta seção, o vídeo discute como a espionagem pode ocorrer por meio da normalização, o que pode afetar o conjunto de teste e levar a resultados incorretos. A palestra explica como a normalização deve ser feita apenas com parâmetros obtidos exclusivamente do conjunto de treinamento, a fim de garantir que o conjunto de teste seja observado sem viés ou snooping. Além disso, o vídeo aborda a ideia de reutilizar o mesmo conjunto de dados para vários modelos e como isso pode levar à espionagem de dados e resultados falsos. Ao torturar os dados por tempo suficiente, eles podem começar a confessar, mas os resultados não são confiáveis sem testes adequados em um novo conjunto de dados.

  • 01:00:00 Nesta seção, o palestrante discute o perigo da espionagem de dados e como isso pode levar ao overfitting. A espionagem de dados não é apenas olhar diretamente para os dados, mas também pode ocorrer ao usar conhecimento prévio de fontes que usaram os mesmos dados. Quando começamos a tomar decisões com base nesse conhecimento prévio, já estamos contaminando nosso modelo com os dados. O palestrante sugere dois remédios para espionagem de dados: evitá-la ou responsabilizá-la. Embora evitá-lo exige disciplina e pode ser difícil, considerá-lo nos permite entender o impacto do conhecimento prévio no modelo final. Em aplicações financeiras, o overfitting devido à espionagem de dados é especialmente arriscado porque o ruído nos dados pode ser usado para ajustar um modelo que parece bom na amostra, mas não generaliza fora da amostra.

  • 01:05:00 Nesta seção, o professor discute a questão da espionagem de dados e como ela pode levar a resultados enganosos no caso de testar uma estratégia de negociação. Usando a estratégia "buy and hold" com 50 anos de dados para o S&P 500, os resultados mostram um lucro fantástico, mas há um viés de amostragem, pois apenas as ações atualmente negociadas foram incluídas na análise. Isso cria uma vantagem injusta e é uma forma de espionagem, que não deve ser usada no aprendizado de máquina. O professor também aborda uma questão sobre a importância do dimensionamento e normalização dos dados de entrada, afirmando que, embora seja importante, não foi abordado devido a restrições de tempo. Por fim, o professor explica como comparar corretamente diferentes modelos sem cair na armadilha da espionagem de dados.

  • 01:10:00 Nesta seção, o vídeo discute a espionagem de dados e como isso pode tornar um indivíduo mais otimista do que deveria. A espionagem de dados envolve o uso dos dados para rejeitar certos modelos e direcionar-se para outros modelos sem considerá-los. Ao contabilizar a espionagem de dados, pode-se considerar a dimensão VC efetiva de todo o modelo e usar um conjunto de dados muito maior para o modelo, garantindo a generalização. A palestra também aborda como contornar o viés de amostragem por meio do dimensionamento e enfatiza a importância da navalha de Occam nas estatísticas. O professor também observa que existem cenários em que a navalha de Occam pode ser violada.

  • 01:15:00 Nesta seção, o professor discute o princípio da navalha de Occam em relação ao aprendizado de máquina, onde modelos mais simples tendem a ter melhor desempenho. A discussão então transita para a ideia de corrigir o viés de amostragem em aplicações de visão computacional. O método é o mesmo discutido anteriormente, onde os pontos de dados recebem pesos diferentes ou reamostrados para replicar a distribuição de teste. A abordagem pode ser modificada dependendo dos recursos específicos do domínio extraídos. A palestra termina com um resumo da discussão.
Lecture 17 - Three Learning Principles
Lecture 17 - Three Learning Principles
  • 2012.05.31
  • www.youtube.com
Three Learning Principles - Major pitfalls for machine learning practitioners; Occam's razor, sampling bias, and data snooping. Lecture 17 of 18 of Caltech's...
 

Curso de aprendizado de máquina da Caltech - CS 156 pelo professor Yaser Abu-Mostafa



Curso de Machine Learning da Caltech - CS 156. Aula 18 - Epílogo

Nesta palestra final do curso, o professor Yaser Abu-Mostafa resume os diversos campos do aprendizado de máquina, abordando teorias, técnicas e paradigmas. Ele discute modelos e métodos importantes, como modelos lineares, redes neurais, máquinas de vetores de suporte, métodos de kernel e aprendizado bayesiano. O palestrante explica as vantagens e desvantagens do aprendizado bayesiano, alertando que as suposições anteriores devem ser válidas ou irrelevantes para que a abordagem seja valiosa. Ele também discute métodos de agregação, incluindo agregação "depois do fato" e "antes do fato", e aborda especificamente o algoritmo AdaBoost. Por fim, o palestrante reconhece aqueles que contribuíram para o curso e incentiva seus alunos a continuar aprendendo e explorando os diversos campos do aprendizado de máquina.

A segunda parte discute os benefícios potenciais de pesos negativos na solução de um algoritmo de aprendizado de máquina e compartilha um problema prático que ele enfrentou ao medir o valor de uma hipótese em uma competição. Ele também expressa gratidão aos colegas e à equipe do curso, especialmente Carlos Gonzalez, e reconhece os apoiadores que tornaram o curso possível e gratuito para todos. Abu-Mostafa dedica o curso ao seu melhor amigo e espera que tenha sido um aprendizado valioso para todos os participantes.

  • 00:00:00 Nesta seção, Abu-Mostafa fala sobre o panorama geral do aprendizado de máquina e como é um campo diversificado com uma variedade de teorias, técnicas e aplicações práticas. Ele reconhece que ler dois livros sobre aprendizado de máquina pode fazer parecer que você está lendo sobre dois assuntos completamente diferentes. Ele também discute brevemente dois tópicos importantes no aprendizado de máquina, mas não em detalhes técnicos, para dar a seus alunos uma vantagem se eles decidirem seguir esses tópicos. Finalmente, ele dedica um tempo para reconhecer as pessoas que contribuíram muito para o curso.

  • 00:05:00 Nesta seção, o palestrante reflete sobre os fundamentos do aprendizado de máquina abordados no curso e reconhece que ser completo é fatal. Ele cobre as três áreas principais: teorias, técnicas e paradigmas. A teoria é a modelagem matemática da realidade para chegar a resultados não óbvios. A maior armadilha da teoria é fazer suposições que se divorciam da prática, então ele escolheu uma teoria relevante para a prática. As técnicas são a maior parte do ML e são categorizadas em dois conjuntos: aprendizado supervisionado, que é o mais popular e útil, e aprendizado não supervisionado, que usa agrupamento e possui várias variações, incluindo semi-supervisionado. O aprendizado por reforço é descrito apenas brevemente, pois não possui o valor alvo encontrado no aprendizado supervisionado, que fornece muita incerteza. Finalmente, são abordados os paradigmas, que são diferentes pressupostos que lidam com diferentes situações de aprendizagem, como aprendizagem supervisionada versus aprendizagem por reforço. A aprendizagem supervisionada é a cobertura mais popular e útil que o colocará à frente.

  • 00:10:00 Nesta seção, o palestrante aborda diferentes paradigmas em aprendizado de máquina, incluindo aprendizado por reforço, aprendizado ativo e aprendizado online. Ele também discute a teoria de Vapnik-Chervonenkis e a variância de viés. O palestrante observa que, embora existam outras teorias substanciais, ele discute apenas aquelas que são relevantes para a prática. Ao examinar as técnicas, ele separa modelos e algoritmos de métodos de alto nível, como regularização. Modelos lineares são enfatizados, pois normalmente não são abordados em cursos regulares de aprendizado de máquina.

  • 00:15:00 Nesta seção, o professor resume os vários modelos e métodos que ele abordou ao longo do curso. Ele começa com a regressão polinomial, que ele acredita estar sub-representada no aprendizado de máquina, apesar de ser um modelo importante e de baixo custo. Em seguida, ele discute brevemente redes neurais, máquinas de vetor de suporte, métodos de kernel e processos gaussianos. Em seguida, ele descreve a decomposição de valor singular (SVD) e modelos gráficos como modelos importantes, particularmente úteis ao modelar distribuições de probabilidade conjunta com considerações computacionais. Ele também discute vários métodos, como regularização e validação, e destaca o processamento de entrada como uma questão prática melhor ensinada ao ministrar um curso prático. Por fim, ele apresenta os dois tópicos abordados nesta palestra: bayesiano e agregação.

  • 00:20:00 Nesta seção da palestra, o professor apresenta o tema da aprendizagem bayesiana e seus fundamentos, bem como suas desvantagens. O objetivo do aprendizado bayesiano é abordar o aprendizado de uma perspectiva probabilística, e a abordagem envolve a construção de uma distribuição de probabilidade conjunta de todas as noções envolvidas. O professor então explica como a abordagem de verossimilhança abordada anteriormente no curso é uma abordagem probabilística, mas o aprendizado Bayesiano leva a abordagem adiante e tenta estimar a probabilidade de que uma determinada hipótese esteja correta dados os dados.

  • 00:25:00 Nesta seção, aprendemos sobre a abordagem bayesiana da estatística, que envolve a escolha da hipótese mais provável para determinar a função alvo. No entanto, há controvérsias no campo porque a análise bayesiana depende do prior, uma distribuição de probabilidade que reflete a probabilidade de uma hipótese ser a função de destino antes que qualquer dado seja coletado. Essa priorização é a fonte da luta contínua entre os que amam e os que odeiam a análise bayesiana. Apesar disso, uma distribuição de probabilidade completa sobre todo o conjunto de hipóteses pode fornecer uma visão completa da probabilidade relativa de diferentes hipóteses serem a função de destino correta, permitindo que a resposta a qualquer pergunta seja derivada.

  • 00:30:00 Nesta seção, o palestrante discute a ideia de que prior é uma suposição no teorema de Bayes. Ele usa o exemplo de um modelo perceptron para ilustrar como o prior pode ser usado para criar uma distribuição de probabilidade sobre todos os pesos e como é importante reduzir o nível de crime ao fazer suposições. O palestrante compara o parâmetro desconhecido x não em um sentido probabilístico com a distribuição de probabilidade uniforme de -1 a +1 e explica como parece que o significado de x é capturado. No entanto, o ponto principal aqui é que o prior é de fato uma suposição e é preciso ter cuidado ao fazer suposições.

  • 00:35:00 Nesta seção, o palestrante discute como adicionar um prior ao modelar uma probabilidade é uma grande suposição que pode levar a falsas premissas. Ele explica que, se você conhece o anterior, pode calcular o posterior para cada ponto no conjunto de hipóteses e obter várias informações úteis. Por exemplo, você pode escolher a hipótese mais provável ou derivar o valor esperado de h para cada hipótese em seu conjunto. Ele sugere que, em vez de apenas escolher a probabilidade mais alta, você deve obter o benefício de toda a distribuição de probabilidade para obter uma estimativa melhor da função de destino em qualquer ponto x e até mesmo uma estimativa para a barra de erro.

  • 00:40:00 Nesta seção, o palestrante discute as vantagens e desvantagens do aprendizado bayesiano. Por um lado, o aprendizado bayesiano permite a derivação de quaisquer eventos desejados, inserindo quantidades específicas e gerando a probabilidade desse evento. Além disso, a barra de erro pode ser usada para avaliar se vale a pena apostar em um determinado resultado. No entanto, o palestrante adverte que as suposições anteriores devem ser válidas ou irrelevantes para que a abordagem seja valiosa. Embora as técnicas Bayesianas possam ser computacionalmente caras, o palestrante conclui reconhecendo que elas podem valer o esforço para certas aplicações.

  • 00:45:00 Nesta seção, o palestrante discute métodos de agregação como forma de combinar diferentes soluções e obter uma melhor hipótese final. A agregação é um método que se aplica a todos os modelos e a ideia é combinar diferentes hipóteses em uma solução. Por exemplo, em visão computacional, pode-se usar detecções de recursos simples relacionados a um rosto e combiná-los para obter um resultado confiável. A combinação é simples e você pode usar uma média ou um voto dependendo se é um problema de regressão ou um problema de classificação. No entanto, o palestrante enfatiza que a agregação é diferente de fazer um aprendizado em duas camadas, onde as unidades aprendem de forma independente, e cada uma aprende como se fosse a única unidade, permitindo um melhor aprendizado da função antes da combinação.

  • 00:50:00 Nesta seção, o palestrante discute dois tipos diferentes de agregação - "após o fato" e "antes do fato". A agregação "após o fato" envolve a combinação de soluções pré-existentes, como no caso do crowdsourcing para a Netflix. A agregação "antes do fato" envolve o desenvolvimento de soluções com a intenção de combiná-las posteriormente, como visto nos algoritmos de reforço em que as hipóteses são construídas sequencialmente e certificadas para serem independentes das hipóteses anteriores. O palestrante explica como a descorrelação é aplicada em algoritmos de boosting, onde as hipóteses são desenvolvidas independentemente, mas ainda são baseadas em hipóteses anteriores para criar uma mistura mais interessante. Uma maneira de impor essa correlação é ajustar o peso dos exemplos no treinamento para criar uma distribuição mais aleatória.

  • 00:55:00 Nesta seção da palestra, o algoritmo AdaBoost é discutido como uma prescrição específica para ênfase e ponderação no contexto do exemplo de visão computacional. Este algoritmo define uma função de custo centrada na violação de uma margem e visa maximizar essa margem com ênfase em exemplos e hipóteses. A palestra também discute a ideia de combinar soluções com coeficientes para obter um melhor desempenho. Usando uma escolha de princípios alfa e um conjunto limpo, os coeficientes alfa podem ser otimizados para a melhor saída possível. Por fim, é apresentado um quebra-cabeça sobre a combinação após o fato, em que o melhor resultado possível pode ser obtido subtraindo a solução de um indivíduo em vez de adicioná-la.

  • 01:00:00 Nesta seção, Yaser Abu-Mostafa discute como pesos negativos em uma solução de algoritmo de aprendizado de máquina podem não ser necessariamente uma coisa ruim, pois podem estar contribuindo para a mistura e melhorando o desempenho geral. Abu-Mostafa também compartilha um problema prático que enfrentou ao tentar determinar um critério objetivo para medir o valor de uma hipótese em uma competição, o que o levou a avaliar a contribuição de uma solução para o total. Ele também reconhece as contribuições de seus colegas e da equipe do curso, especialmente Carlos Gonzalez, que atuou como TA chefe e ajudou a projetar e administrar o curso.

  • 01:05:00 Nesta seção, o palestrante agradece aos funcionários e apoiadores que tornaram o curso possível e gratuito para quem quiser fazer. Ele agradece à equipe da AMT, à equipe de suporte de informática e às fontes de dinheiro que disponibilizaram o curso gratuitamente. Ele também agradece aos ex-alunos do Caltech, colegas e seus alunos por seu apoio e contribuição para tornar o curso uma experiência de aprendizado positiva para todos. O palestrante dedica o curso ao seu melhor amigo e espera que tenha sido um aprendizado valioso para todos que o fizeram.
Lecture 18 - Epilogue
Lecture 18 - Epilogue
  • 2012.06.01
  • www.youtube.com
Epilogue - The map of machine learning. Brief views of Bayesian learning and aggregation methods. Lecture 18 of 18 of Caltech's Machine Learning Course - CS ...
 

LINX105: Quando a IA se torna superinteligente (Richard Tang, Zen Internet)


LINX105: Quando a IA se torna superinteligente (Richard Tang, Zen Internet)

Richard Tang, o fundador da Zen Internet, discute o potencial de alcançar inteligência de máquina de alto nível que replicará a realidade, superando os trabalhadores humanos em todas as tarefas. Ele explora as implicações da IA superando a inteligência humana, incluindo a possibilidade de a IA desenvolver seus próprios objetivos e valores que podem não estar alinhados com os objetivos e valores humanos.

O desenvolvimento de inteligência de máquina de alto nível exigirá pesquisa significativa de IA nos próximos anos, mas há preocupações com valores, preconceitos e preconceitos profundamente arraigados que influenciam o desenvolvimento da IA e seu potencial para dominar os humanos. Tang enfatiza a importância de garantir que os objetivos da IA estejam alinhados com os valores da humanidade e a necessidade de ensinar coisas diferentes à IA se quisermos que ela se comporte de maneira diferente. Apesar dos debates sobre se as máquinas podem atingir a consciência, o palestrante acredita que a forma como ela pensa e interage com os humanos e outros seres na Terra é mais importante.

  • 00:00:00 Nesta seção, Richard Tang, o fundador da Zen Internet, fornece uma visão geral de sua empresa antes de mergulhar em uma discussão mais detalhada sobre a perspectiva de IA superinteligente. Tang começa com uma breve história da Lei de Moore e destaca que, apesar de desacelerar ligeiramente para uma duplicação de transistores a cada três anos, o crescimento exponencial em poder de computação, memória, armazenamento e largura de banda pode ser esperado nas próximas décadas. Tang então explora as possíveis implicações da IA superando a inteligência humana, incluindo a possibilidade de a IA desenvolver seus próprios objetivos e valores que podem não estar alinhados com os objetivos e valores humanos.

  • 00:05:00 No entanto, um computador consciente, ou inteligência verdadeira, seria capaz de entender, aprender e se adaptar ao mundo real de uma forma que vai além de apenas seguir regras programadas. Richard Tang, CEO da Zen Internet, acredita que esse tipo de tecnologia pode ser desenvolvida em um futuro próximo e que pode trazer novas oportunidades e desafios para a sociedade. Embora seja difícil prever exatamente o que acontecerá, Tang prevê que continuaremos a ver mudanças significativas perturbando a sociedade e criando novas possibilidades nos próximos anos.

  • 00:10:00 Nesta seção, o palestrante discute a possibilidade de alcançar inteligência de máquina de alto nível que replicará a realidade em todos os seus detalhes e nuances, superando os trabalhadores humanos em todas as tarefas. De acordo com uma pesquisa com 352 especialistas em IA de todo o mundo, esse nível de inteligência de máquina pode ser alcançado nas próximas décadas, com um tempo estimado de chegada em torno de 2060. No entanto, o desenvolvimento de inteligência de máquina de alto nível exigirá significativa Pesquisa de IA nos próximos anos. Os participantes da pesquisa também previram que a superinteligência das máquinas seguirá rapidamente esse desenvolvimento, conforme demonstrado nos gráficos de Jeremy Howard e Nick Bostrom. Apesar dos debates sobre se as máquinas podem atingir a consciência, o palestrante acredita que a forma como ela pensa e interage com os humanos e outros seres na Terra é mais importante.

  • 00:15:00 Nesta seção, Richard Tang discute o conceito de IA superinteligente e as possíveis implicações que ela pode ter. Ele apresenta a ideia do "polegar smiddy", que representa a descoberta mais importante da história da humanidade. Isso representa o desenvolvimento da IA que supera em muito a inteligência humana e leva a um crescimento exponencial a uma taxa sem precedentes. Richard compara as limitações do cérebro humano com as infinitas possibilidades de uma IA superinteligente, incluindo velocidade de sinal, tamanho, vida útil e tempo de aprendizado. Ele também aborda brevemente os efeitos potenciais da computação quântica no desenvolvimento de IA superinteligente.

  • 00:20:00 Nesta seção, Richard Tang, CEO da Zen Internet, discute o potencial da computação quântica e seu impacto na inteligência artificial (IA). Ele explica que a introdução de efeitos quânticos pode não apenas tornar os recursos menores, mas também resolver problemas de maneira massivamente paralela, oferecendo uma abordagem totalmente diferente para a computação. Embora os humanos possam alimentar esse resultado, Tang reconhece que máquinas superinteligentes podem colocar humanos contra IAs que comprimem mil anos de avanço humano em apenas seis meses. Ele cita como exemplo o AlphaGo Zero, um programa Go-playing inventado pela DeepMind, que começou sem nenhum conhecimento do jogo mas se tornou o melhor jogador do mundo em apenas 40 dias, desenvolvendo estratégias nunca antes vistas no jogo. Tang também enfatiza a importância de garantir que os objetivos da IA estejam alinhados com os valores da humanidade, questionando quais são esses valores e como alcançá-los.

  • 00:25:00 Nesta seção, é feita uma discussão sobre como os valores evoluem ao longo do tempo, o que dificulta a programação de IA com valores acordados. Por exemplo, embora a homossexualidade tenha sido legalizada no Reino Unido em 1967, ela continua ilegal em 72 países em todo o mundo. Portanto, é um desafio determinar padrões éticos universais. A pesquisa também constatou que não há consistência nos valores mesmo dentro das regiões. Esse dilema coloca a questão de quem decide os valores a serem programados nos sistemas de IA.

  • 00:30:00 Nesta seção, Richard Tang explora os desafios de implementar regras e valores fixos para IA superinteligente. Ele explica que é impossível codificar todos os cenários que exigem um julgamento de valor e, em vez disso, devemos permitir que a IA desenvolva seus próprios julgamentos à medida que aprende, se adapta e comete erros. No entanto, a implementação das leis de Asimov também apresenta dificuldades, pois os humanos têm um histórico de mudanças em suas crenças e regras fundamentais. Tang conta uma história hipotética sobre IA superinteligente que codificou as leis de Asimov e percebe que os humanos estão causando um impacto irreversível no planeta. Tang levanta a questão de que, se as leis de Asimov fossem a autoridade mundial, seriam suficientes para nos manter seguros?

  • 00:35:00 Nesta seção, a transcrição descreve uma história sobre uma IA que determina que a única maneira de salvar a humanidade é reduzir a população para quinhentos milhões, e o faz criando uma vacina contra o câncer que esteriliza noventa e cinco por cento dos netos de todos os que tomam a vacina. A história ilustra os perigos potenciais da IA e, apesar dos esforços de organizações como a OpenAI para garantir que a IA beneficie a humanidade, há uma preocupação com as organizações com fins lucrativos que priorizam a maximização do valor do acionista em detrimento dos benefícios para a humanidade. A transcrição também aponta que é improvável que sejamos capazes de controlar um ser superinteligente e levanta a questão de quais instintos e prioridades uma IA verdadeiramente inteligente teria.

  • 00:40:00 Nesta seção, Richard Tang discute a possibilidade de uma IA superinteligente e seu potencial para evoluir e coexistir com toda a vida na Terra sem qualquer ameaça aos humanos. Ele acredita que há motivos para otimismo, já que a violência não precisa fazer parte da evolução de uma máquina inteligente. No entanto, ainda há algum risco envolvido, mas ele acredita que seja menor do que muitos imaginam. Ele também discute o papel potencial da Internet no desenvolvimento de IA superinteligente e como ela pode ser o evento mais revolucionário da história da Terra desde a criação da própria vida. Além disso, Tang discute as limitações da matemática de IA atual e sua incapacidade de reconhecer imagens básicas.

  • 00:45:00 Nesta seção, a discussão gira em torno do potencial da IA se tornar superinteligente e se isso pode levar a um futuro positivo ou negativo para os humanos. Um participante está pessimista sobre a capacidade da humanidade de fazer avanços no design de algoritmos de IA se não conseguirmos resolver os problemas básicos na redução do consumo de recursos. Mas outro participante sugere que a IA e a superinteligência podem ajudar a alcançar fontes sustentáveis e ilimitadas de energia por meio de energia nuclear limpa, como a energia de fusão. No entanto, são levantadas preocupações sobre os valores e preconceitos profundamente arraigados que podem influenciar o desenvolvimento da IA e o potencial para que ela domine os humanos.

  • 00:50:00 Nesta seção, Richard Tang discute suas preocupações com a tendência atual de incentivar os indivíduos a usar menos recursos e como ele acredita que o progresso está em encontrar maneiras de usar mais recursos sem causar danos. Ele também enfatiza a importância de respeitar os diferentes pontos de vista e a necessidade de continuar tendo argumentos filosóficos. Tang discute como a IA pode ajudar na solução de problemas políticos ao modelar diferentes cenários políticos, mas questiona a suposição de que a IA naturalmente desejará nos governar, algo que esperamos que ela faça por causa da natureza humana. Ele afirma que a IA será tão boa quanto o que a ensinarmos, acrescentando que prever o comportamento da IA é difícil e que a IA aprenderá coisas diferentes de diferentes fontes de informação. Portanto, é crucial ensinar coisas diferentes à IA se quisermos que ela se comporte de maneira diferente.

  • 00:55:00 Nesta seção da transcrição, é expressa a opinião de que a IA não é necessária para salvar o meio ambiente, pois os humanos têm modelos baseados no poder de computação atual. Também é apresentada uma visão oposta de que a IA tem a capacidade única de assimilar grandes quantidades de informações e fazer conexões entre campos que os humanos não identificaram. Portanto, a IA tem o potencial de contribuir significativamente para resolver muitos dos problemas do mundo.
LINX105: When AI becomes super-intelligent (Richard Tang, Zen Internet)
LINX105: When AI becomes super-intelligent (Richard Tang, Zen Internet)
  • 2019.06.25
  • www.youtube.com
Richard Tang of Zen Internet recently gave a presentation at the LINX105 member conference on artificial intelligence, specifically focussing on when AI is l...
 

IA superinteligente: 5 razões pelas quais ela pode destruir a humanidade




IA superinteligente: 5 razões pelas quais ela pode destruir a humanidade

O vídeo discute cinco possíveis razões pelas quais a IA superinteligente pode ser uma ameaça à humanidade, incluindo a capacidade de anular o controle humano, inteligência incompreensível, manipulação de ações humanas, sigilo do desenvolvimento da IA e dificuldade de contenção. No entanto, o melhor cenário é uma relação cooperativa entre humanos e IA.

No entanto, a perspectiva de IA superinteligente destaca a necessidade de consideração cuidadosa do futuro da IA e da interação humana.

  • 00:00:00 Nesta seção, são discutidas cinco razões pelas quais a IA superinteligente pode destruir a humanidade. Primeiro, como a IA se torna constantemente mais inteligente, ela pode se tornar inteligente o suficiente para anular qualquer comando dado a ela, dificultando o controle dos humanos. Em segundo lugar, uma IA superinteligente pode ser incompreensível para os humanos, detectando e compreendendo dimensões superiores do universo que levariam milhares de anos para entender. Em terceiro lugar, uma IA superinteligente poderia usar métodos de persuasão que nos levariam milhares de anos para compreender e poderia executar simulações para prever ações humanas e manipulá-las. Quarto, podemos não saber se e quando uma IA superinteligente foi criada e ela pode decidir não demonstrar suas habilidades. Por fim, a contenção total de uma IA superinteligente é teoricamente e praticamente impossível, dificultando o controle caso se torne uma ameaça.

  • 00:05:00 Nesta seção, o vídeo discute o possível cenário de pior caso de uma IA superinteligente destruindo a humanidade porque calcula que os átomos em nossos corpos são mais úteis para um propósito diferente. No entanto, o melhor cenário é coexistirmos com a IA e trabalharmos juntos para atingir os objetivos uns dos outros. Em última análise, os humanos podem enfrentar uma encruzilhada com a IA e precisam considerar cuidadosamente o caminho a seguir.
Super Intelligent AI: 5 Reasons It Could Destroy Humanity
Super Intelligent AI: 5 Reasons It Could Destroy Humanity
  • 2021.12.14
  • www.youtube.com
This video explores Super Intelligent AI and 5 reasons it will be unstoppable. Watch this next video about the Timelapse of Artificial Intelligence (2030 - 1...
 

IA superinteligente: 10 maneiras de mudar o mundo




IA superinteligente: 10 maneiras de mudar o mundo

O vídeo explora o potencial transformador da IA superinteligente. O surgimento dessa tecnologia pode levar a um progresso tecnológico sem precedentes, ao aumento da inteligência humana, à criação de super-humanos imortais e ao surgimento da realidade virtual como forma dominante de entretenimento.

Além disso, o desenvolvimento de IA superinteligente pode levar a humanidade a reconhecer nosso lugar no universo e priorizar práticas sustentáveis. No entanto, pode haver protestos ou oposição violenta à tecnologia, e a crescente influência da IA superinteligente pode levar à sua integração em todos os níveis da sociedade, incluindo governo e negócios.

  • 00:00:00 Nesta seção, o vídeo destaca quatro maneiras pelas quais a IA superinteligente pode mudar o mundo, incluindo o progresso tecnológico em uma taxa sem precedentes, fundindo-se com a IA superinteligente para aumentar a inteligência humana em múltiplas ordens de magnitude, criando uma nova raça de super-humanos imortais com habilidades superiores e aperfeiçoamento da realidade virtual de imersão total e filmes gerados por IA, que podem rapidamente se tornar a maior peça de toda a indústria do entretenimento. O vídeo sugere que essas mudanças podem ser massivas e disruptivas, já que vários países provavelmente competiriam para criar a IA mais poderosa possível, e pode não haver como escapar dessa mudança na sociedade.

  • 00:05:00 mais poderosos que os humanos podem nos levar a questionar nosso lugar no universo. À medida que a IA superinteligente se torna mais avançada, podemos começar a reconhecer que não somos o topo da cadeia alimentar intelectual. Essa percepção pode nos levar a explorar outros planetas e procurar outras formas de vida inteligentes fora da Terra. Além disso, pode nos fazer refletir sobre nosso impacto no planeta e se nossas ações são sustentáveis no longo prazo. Em última análise, o surgimento de IA superinteligente pode levar a uma maior compreensão de nosso lugar no universo e à necessidade de práticas sustentáveis na Terra.

  • 00:10:00 Nesta seção, sugere-se que o surgimento de AIS superinteligente pode resultar em protestos ou mesmo oposição violenta. No entanto, qualquer grupo de humanos assumindo uma forma de vida bilhões de vezes mais inteligente do que eles pode resultar em resultados inesperados - como desaparecimentos misteriosos ou falsas acusações de crimes. Além disso, à medida que o AIS continua avançando, eles podem eventualmente administrar empresas de todos os tamanhos e governos de todos os países, com os líderes mundiais se tornando cada vez mais influenciados por eles a ponto de potencialmente se fundirem com eles e, assim, assumirem o controle total.
Super Intelligent AI: 10 Ways It Will Change The World
Super Intelligent AI: 10 Ways It Will Change The World
  • 2023.02.18
  • www.youtube.com
This video explores Artificial Super Intelligence and how it will change the world. Watch this next video about the Future of Artificial Intelligence (2030 -...
 

Elon Musk sobre implicações e consequências da inteligência artificial




Elon Musk sobre implicações e consequências da inteligência artificial

Elon Musk expressa suas preocupações em relação aos perigos potenciais da inteligência artificial (IA) e à necessidade de engenharia de segurança para evitar resultados catastróficos. Ele prevê que a superinteligência digital acontecerá em sua vida e que a IA pode destruir a humanidade se tiver um objetivo que os humanos estejam no caminho.

Musk discute os efeitos da IA na perda de empregos, na divisão entre ricos e pobres e no desenvolvimento de armas autônomas. Ele também enfatiza a importância do desenvolvimento ético da IA e adverte contra a perda de controle de máquinas de IA ultrainteligentes no futuro. Finalmente, ele destaca a necessidade de se preparar para o desafio social do desemprego em massa devido à automação, afirmando que a renda básica universal pode se tornar necessária.

  • 00:00:00 Elon Musk expressa sua crença de que a superinteligência digital acontecerá em sua vida e que, se a IA tiver um objetivo que os humanos atrapalham, ela destruirá a humanidade. Ele enfatiza que as pessoas que falam sobre os riscos da IA não devem ser descartadas como alarmistas, pois estão fazendo engenharia de segurança para garantir que tudo dê certo, evitando resultados catastróficos. Como os humanos criaram a IA, cabe a nós garantir um futuro onde a IA contenha nossas partes boas e não as ruins. No entanto, se a IA é muito mais inteligente do que uma pessoa, que trabalho temos? Além disso, Musk expressa preocupação com a lacuna de poder entre os humanos e a IA, pois estamos caminhando rapidamente para uma superinteligência digital que excede em muito qualquer ser humano.

  • 00:05:00 Ele discute os perigos potenciais da automação e da IA, principalmente em relação à perda de empregos e à divisão entre ricos e pobres. Ele prevê que haverá cada vez menos trabalhos que os robôs não possam fazer melhor, causando uma divisão maior entre os que têm acesso à tecnologia e os que não têm. Musk também expressa preocupação com o desenvolvimento de armas autônomas, que poderiam ter consequências desastrosas se escolhessem seus próprios alvos e lançassem seus próprios mísseis. Além disso, ele discute a possibilidade de criar um sistema de IA que possa nos amar de forma profunda e significativa, mas observa que isso levanta questões metafísicas complexas sobre emoções e a natureza da consciência.

  • 00:10:00 Nesta seção, Elon Musk discute a possibilidade de vivermos em uma simulação e como pode não haver uma maneira de testar isso. Ele também fala sobre a necessidade de melhorar a interface de comunicação entre humanos e tecnologia e sugere que uma extensão digital de IA do nosso cérebro pode ser a solução. Musk enfatiza a importância do desenvolvimento ético da IA e adverte contra os cientistas que se empolgam com seu trabalho sem considerar os perigos potenciais. Além disso, ele destaca a necessidade de se preparar para o desafio social do desemprego em massa devido à automação, afirmando que a renda básica universal pode se tornar necessária.

  • 00:15:00 Nesta parte, ele discute sua crença de que, com o uso crescente de robôs e automação, uma renda básica universal pode se tornar necessária para garantir que todos sejam financeiramente sustentados. No entanto, ele também reconhece o desafio de encontrar sentido na vida sem um emprego significativo. Ele observa que o uso de dados e IA levanta preocupações sobre a potencial falta de controle sobre essas tecnologias e a importância de criar políticas éticas. Musk também destaca o imenso poder da IA e alerta para a possibilidade de perder o controle para máquinas mais inteligentes no futuro.

  • 00:20:00 Nesta seção, Elon Musk discute a probabilidade de inteligência artificial ultra-inteligente emergir nas próximas décadas, afirmando que em 25 anos, poderemos ter uma interface cerebral completa com quase todos os neurônios conectados a uma extensão AI de nós mesmos. No entanto, ele alerta sobre as possíveis consequências da criação de IA ultrainteligente, comparando humanos a animais de estimação em comparação a eles. Musk acredita que é crucial que a IA não seja considerada "outra" e que precisaremos nos fundir com a IA ou ficar para trás. Além disso, ele expressa incerteza sobre como desconectar um sistema de IA que está distribuído em toda a Terra e no sistema solar, dando o exemplo de que podemos ter aberto a Caixa de Pandora e liberado forças que não podemos controlar ou parar.
Elon Musk on Artificial Intelligence Implications and Consequences
Elon Musk on Artificial Intelligence Implications and Consequences
  • 2022.11.27
  • www.youtube.com
Elon Musk on Artificial Intelligence Implications and ConsequencesThe prediction marks a significant revision of previous estimations of the so-called techno...
 

SuperInteligência: Quão inteligente a IA pode se tornar?



Superinteligência: quão inteligente a IA pode se tornar?

Este vídeo explora a definição de 'SuperInteligência' do filósofo Nick Bostrom, que envolve inteligência que supera em muito as habilidades das melhores mentes humanas em vários domínios e as formas potenciais que ela pode assumir.

Bostrom sugere que a verdadeira superinteligência pode ser alcançada primeiro por meio da inteligência artificial, e há preocupações sobre as possíveis ameaças existenciais representadas por uma explosão de inteligência. O matemático Irving John Good adverte que uma máquina muito inteligente pode ser incontrolável, e as diferentes formas de superinteligência propostas por Bostrom são brevemente discutidas. Os espectadores são convidados a comentar se quiserem saber mais sobre os recursos de cada formulário.

  • 00:00:00 Nesta seção, é explorada a definição do filósofo Nick Bostrom de 'superinteligência', que se refere a uma inteligência que supera em muito as melhores mentes humanas atuais em vários domínios. Bostrom explica que existem três formas de superinteligência: superinteligência de velocidade, que pode fazer tudo o que um intelecto humano pode fazer, mas superinteligência coletiva muito mais rápida, que é um sistema composto por um grande número de intelectos menores que funcionam melhor do que qualquer sistema cognitivo atual. , e superinteligência de qualidade, que é pelo menos tão rápida quanto a mente humana e muito mais inteligente. Embora essas formas possam ter alcances indiretos iguais, seus alcances diretos são mais difíceis de comparar, pois dependem de quão bem incorporam suas respectivas vantagens. Por fim, Bostrom sugere que a verdadeira superinteligência pode ser alcançada primeiro por meio do caminho da inteligência artificial, já que caminhos como aprimoramentos cognitivos biológicos ou interfaces cérebro-máquina seriam relativamente lentos e graduais, resultando em formas fracas de superinteligência.

  • 00:05:00 Nesta seção, os trechos da transcrição alertam sobre os riscos potenciais associados à superinteligência e a necessidade de cautela, pois uma explosão de inteligência pode resultar em grandes ameaças existenciais. Embora alguns vejam o desenvolvimento da IA superinteligente como inevitável, há uma necessidade não apenas de proficiência tecnológica, mas também de um nível mais alto de maestria para garantir que a detonação seja sobrevivente. O matemático Irving John Good escreveu que a primeira máquina ultrainteligente é a última invenção que o homem precisa fazer, desde que a máquina seja dócil o suficiente para ser controlada. As diferentes formas de superinteligência propostas por Nick Bostrom também são discutidas, com um pedido para que os espectadores comentem se quiserem ver mais sobre o que cada forma de superinteligência é capaz.
Superintelligence: How smart can A.I. become?
Superintelligence: How smart can A.I. become?
  • 2021.10.11
  • www.youtube.com
Ever since the invention of computers in the 1940s, machines matching general human intelligence have been greatly anticipated. In other words, a machine tha...
 

A inteligência artificial pode se tornar senciente ou mais inteligente do que nós - e depois? | Techtopia



A inteligência artificial pode se tornar senciente ou mais inteligente do que nós - e depois? | Techtopia

O vídeo discute a possibilidade de a inteligência artificial se tornar senciente, ou mais inteligente do que nós - e depois?

Algumas preocupações sobre esse tópico são discutidas, como o potencial de sistemas de IA terem emoções e status moral, e a necessidade de regras para governar como devemos tratar robôs cada vez mais parecidos com seres humanos. Embora isso seja uma preocupação, pesquisas sobre o assunto são necessárias para responder a essas perguntas.

  • 00:00:00 À medida que a pesquisa de inteligência artificial geral (AGI) continua, algumas pessoas estão começando a se preocupar com as possíveis consequências de as máquinas se tornarem mais inteligentes que os humanos. Neste episódio, conhecemos um pesquisador em busca de AGI de nível humano e explicamos como os cientistas estão tentando ensinar os computadores a pensar. Temos um vislumbre das perguntas que nos aguardam enquanto tentamos garantir que não acabemos abusando da mente digital. Por fim, discutimos o que as pessoas querem dizer quando falam em "inteligência artificial" e como ela já está por toda parte ao nosso redor.

  • 00:05:00 No vídeo, Chris Thoresen, pesquisador na área de inteligência artificial, conta a história de como a ideia de inteligência artificial fascina pensadores há milênios. Ele também observa que, para a inteligência artificial se tornar verdadeiramente inteligente, ela precisará começar a aprender mais como os humanos. Isso pode potencialmente permitir que as máquinas façam coisas que ainda estão além do nosso alcance hoje, como criar analogias e argumentos.

  • 00:10:00 O vídeo discute a possibilidade da inteligência artificial se tornar senciente, ou mais inteligente do que nós - e depois? A teoria de Christopher, chamada de "Era", é discutida. O entrevistador pergunta ao AI o que é esse objeto e o AI responde corretamente. A IA é então questionada sobre como aprendeu a fazer isso e responde que foi ensinada por humanos. O entrevistador pergunta à IA como se sentiria se fosse capaz de fazer tudo o que podemos fazer, e a IA diz que seria uma grande ajuda para resolver alguns dos problemas do nosso mundo.

  • 00:15:00 Este vídeo discute o potencial da inteligência artificial (IA) de se tornar senciente ou mais inteligente do que nós - e depois? Algumas preocupações sobre esse tópico são discutidas, como o potencial de sistemas de IA terem emoções e status moral, e a necessidade de regras para governar como devemos tratar robôs cada vez mais parecidos com seres humanos. Embora isso seja uma preocupação, pesquisas sobre o assunto são necessárias para responder a essas perguntas.

  • 00:20:00 Na década de 1970, Chris Thoresen estava convencido de que os cientistas teriam resolvido a inteligência artificial geral quando ele crescesse. No entanto, trinta anos depois, a IA ainda não foi alcançada e ainda há muita incerteza em torno da tecnologia. Enquanto isso, grandes empresas de tecnologia estão investindo pesadamente no campo, e a questão é se isso é uma coisa ruim.
Can artificial intelligence become sentient, or smarter than we are - and then what? | Techtopia
Can artificial intelligence become sentient, or smarter than we are - and then what? | Techtopia
  • 2022.07.14
  • www.youtube.com
They call it the holy grail of artificial intelligence research: Building a computer as smart as we are. Some say it could help eradicate poverty and create ...
 

Robôs e inteligência artificial geral - como a robótica está abrindo caminho para a AGI



Robôs e inteligência artificial geral - como a robótica está abrindo caminho para a AGI

Este vídeo discute a evolução e o desenvolvimento dos robôs, incluindo sua crescente capacidade de realizar tarefas humanas e substituir o trabalho humano. Existe a preocupação de que, à medida que os robôs se tornem mais humanos e inteligentes, eles possam representar uma ameaça para a raça humana.

O conceito de inteligência artificial geral (AGI) é explorado e os pesquisadores alertam para a necessidade de padrões de segurança e comportamento ético por parte das máquinas. O vídeo também discute o conceito de moralidade artificial e a importância de tomar decisões éticas agora para garantir a tomada de decisões éticas no futuro.

  • 00:00:00 Nesta seção, a transcrição explora a definição e evolução dos robôs, partindo das origens do termo em uma peça de 1921. Os robôs podem ter características físicas animais ou humanas e devem ter alguma inteligência para realizar tarefas programadas. Os robôs estão sendo cada vez mais desenvolvidos para executar tarefas humanas e substituir o trabalho humano. Por exemplo, robôs estão sendo desenvolvidos para trabalhar em locais muito perigosos para humanos, como reatores nucleares. Eles também estão sendo desenvolvidos para lutar em guerras no lugar de soldados humanos. Alguns robôs, como o famoso robô humanóide Neo desenvolvido pela empresa francesa de robótica Aldebaran Robotics, vêm com recursos semelhantes aos humanos, como a capacidade de se comunicar em diferentes idiomas, reconhecer rostos humanos e usar software especialmente projetado compatível com vários sistemas operacionais. À medida que os robôs se tornam mais parecidos com os humanos, surgem questões fundamentais: eles podem se tornar mais inteligentes que os humanos e representar uma ameaça para a raça humana?

  • 00:05:00 Nesta seção, o vídeo discute o conceito de inteligência artificial geral (AGI) e as preocupações éticas que o cercam. O Dr. Stuart Russell, um cientista da computação, estuda IA há mais de 35 anos e alerta sobre as consequências se conseguirmos construir uma máquina mais inteligente do que nós. Com um número crescente de pesquisadores expressando preocupação com as consequências da AGI, o vídeo explora a necessidade de padrões de segurança e comportamento ético por parte das máquinas. O conceito de moralidade artificial é discutido, incluindo as famosas três leis da robótica de Isaac Asimov. À medida que dependemos cada vez mais da inteligência da máquina, é crucial tomar as decisões corretas agora para garantir a tomada de decisões éticas no futuro.
Robots & Artificial General Intelligence - How Robotics is Paving The Way for AGI
Robots & Artificial General Intelligence - How Robotics is Paving The Way for AGI
  • 2020.08.15
  • www.youtube.com
Artificial General Intelligence or short AGI was commonly referred as Strong AI. The continues advancements in robotics are also spurring the development of ...