머신 러닝 및 신경망 - 페이지 24

 

MIT 6.S192 - 강의 8: Rebecca Fiebrink의 "기계 학습이 인간 창조자에게 혜택을 주는 방법"



MIT 6.S192 - 강의 8: Rebecca Fiebrink의 "기계 학습이 인간 창조자에게 혜택을 주는 방법"

음악 및 AI 분야의 연구원인 Rebecca Fiebrink는 창의적인 목적을 위한 기계 학습의 사용 및 개발에서 인간 상호 작용의 중요성을 강조하고 인간을 루프에 유지합니다. 그녀는 인간 창조를 위한 실시간 음악에서 기계 학습을 사용할 수 있게 해주는 도구인 Wekinator에 대해 설명합니다. 그녀는 드럼 머신, Blotar라는 사운드 합성 알고리즘, blowtar라는 관악기와 같은 다양한 제스처 제어 악기 제작을 시연합니다. 그녀는 기계 학습이 크리에이터가 복잡하고 미묘한 사운드 팔레트를 탐색하고 센서 및 실시간 데이터에 대한 데이터 분석을 더 쉽게 만들 수 있도록 하는 데 어떻게 도움이 될 수 있는지 강조합니다. 그녀는 또한 교육 데이터를 대화식으로 조작할 때의 이점에 대해 설명하고 기계 학습을 통해 창의적인 작업 프로세스에 놀라움과 도전을 추가하는 것 외에도 보다 자연스러운 방식으로 컴퓨터와 통신할 수 있는 방법을 설명합니다.

  • 00:00:00 비디오의 이 섹션에서는 음악 및 인공 지능(AI) 분야의 연구원인 Rebecca Fiebrink가 다음을 위한 기계 학습의 개발 및 사용에서 인간 상호 작용의 중요성과 인간을 루프에 유지하는 방법에 대해 논의합니다. 창의적인 목적. 그녀는 기계 학습을 사용하여 인간과 같은 창의적 결과물을 자율적으로 생성하는 것이 그 자체로 인간 제작자를 지원한다는 가정에 의문을 제기합니다. Fiebrink의 연구는 예술 실습 및 게임과 같은 다른 영역으로 확장되었으며 인간 제작자를 위한 기계 학습의 이론적 및 실용적인 유용성에 대해 생각할 필요성을 강조합니다.

  • 00:05:00 이 섹션에서 발표자는 음악 및 예술 분야에서 데이터 또는 머신 러닝으로 작업하려는 크리에이터가 사용할 수 있는 도구 세트의 격차에 대해 논의합니다. 여러 사람이 c plus 라이브러리나 Python을 사용하는 동안 실시간으로 사용하거나 미디어 데이터, 특히 사운드 데이터를 작업할 수 있는 도구가 거의 없었습니다. 많은 크리에이터가 이미 컴퓨터 공학 또는 전기 공학 박사 학위를 취득했으며 데이터 작업을 원하는 크리에이터를 위해 더 쉽게 접근할 수 있는 도구를 위한 여지가 있었습니다. 머신 러닝은 온라인 리포지토리나 Google 이미지, 바이오센서 또는 소셜 미디어 데이터와 같은 온라인 소스와 같이 자신을 둘러싼 다양한 유형의 데이터를 이해하려는 크리에이터에게 훌륭한 도구가 될 수 있습니다.

  • 00:10:00 이 섹션에서는 Rebecca Fiebrink가 인간 창조물의 실시간 음악에서 기계 학습을 사용할 수 있게 해주는 Wekinator라는 소프트웨어를 구축한 그녀의 작업에 대해 설명합니다. 그녀는 제스처에 반응하는 새로운 도구를 만드는 것이 기성 실측 훈련 세트로 작업하는 것과 다르다고 강조합니다. 일을 더 쉽게 하기 위해 Wekinator는 사용자가 실시간으로 훈련을 위한 예제를 시연하고 모델이 어디에서 실수하는지 테스트할 수 있도록 합니다. Wekinator를 사용하면 사용자가 현장에서 교육 예제를 수정할 수도 있습니다. 그런 다음 웹캠을 사용하여 모션을 캡처하고 제스처나 모션을 더 쉽게 예측할 수 있도록 100개의 숫자를 제공하는 10 x 10 컬러 그리드에 입력을 다운샘플링하는 Wekinator 소프트웨어를 사용하여 매우 간단한 제스처 제어 드럼 머신을 구축하는 것을 시연했습니다.

  • 00:15:00 이 섹션에서 발표자는 Wekinator를 회귀와 함께 사용하여 Blotar라는 사운드 합성 알고리즘을 제어하는 악기를 만드는 방법을 보여줍니다. 이 악기를 사용하면 9개의 제어 매개변수를 변경하여 다양한 사전 설정을 포함하여 넓은 공간의 사운드를 제어할 수 있습니다. 연사는 기계 학습이 복잡하고 미묘한 사운드 팔레트를 탐색할 수 있도록 하여 전문 작곡가에게 어떻게 도움이 되는지 보여줍니다.

  • 00:20:00 이 섹션에서 Rebecca Fiebrink는 기계 학습을 사용하여 게임 컨트롤러를 사용하여 blowtar라는 관악기를 제어하는 방법을 보여줍니다. 그녀는 악기의 9차원 공간에서 수동으로 좋은 위치를 찾는 것이 전문 프로그래머에게는 어려울 수 있지만 기계 학습을 통해 복잡한 기능을 쉽게 작성할 수 있다고 설명합니다. 그녀는 시스템 교육을 통해 원하는 결과를 얻을 때까지 악기를 개선하고 저장하여 공연이나 작곡 작업 중에 사용할 수 있는 방법을 보여줍니다. 이 도구의 연구원인 Fiebrink는 제작자가 작업을 개선하기 위해 기계 학습을 사용한 다양한 방법과 이것이 가르치는 내용에 대해 논의합니다.

  • 00:25:00 이 섹션에서 연사는 Wekinator를 통한 Anne Hege의 구성과 Michelle Nagai의 구성과 같은 예를 사용하여 머신 러닝이 크리에이터에게 어떤 이점을 제공하고 더 많은 사람들이 데이터, 특히 센서 및 실시간 데이터 분석을 사용하여 효과적으로 작업할 수 있도록 하는지에 대해 논의합니다. 음악 악기. 그들은 또한 기계 학습이 예술, 인형극, 장애인을 위한 기술, 대화형 프로토타입 디자인과 같은 분야에서 Wekinator를 사용하여 건물 상호 작용을 창의적이고 쉽게 만들 수 있는 방법을 강조합니다. 저자는 기계 학습을 통해 창의적으로 상호 작용을 구축하려면 일반적으로 신뢰할 수 있는 출력을 생성하는 모델을 구축하는 목표와 모델이 목적을 충족하지 않을 때 어떻게 작동하는지가 문제가 되기 때문에 기존 기계 학습과 다른 접근 방식이 필요하다고 설명합니다.

  • 00:30:00 이 섹션에서 Fiebrink는 정확한 예측을 목표로 기계 학습 모델을 구축하는 것과 유용하거나 재미있는 것을 목표로 대화형 기계 학습 모델을 구축하는 것의 차이점을 살펴봅니다. 대화형 기계 학습 모델을 구축할 때 데이터는 작성자와 컴퓨터 간의 통신을 위한 인터페이스로 생각됩니다. 즉, 데이터가 주관적으로 선택되고 독립적이고 동일하게 분포(iid)될 가능성이 없으며 이는 일반적인 가정입니다. 기계 학습에서. 이것은 전략적으로 배치된 극소수의 사례로부터 학습으로 이어질 수 있습니다. Fiebrink는 k 최근접 이웃과 같은 간단한 알고리즘이 대화식으로 사용될 때 어떻게 적은 양의 데이터로 여전히 좋은 결정 경계를 생성할 수 있는지 보여 주어 실습 실험 및 데이터 큐레이션을 허용합니다.

  • 00:35:00 이 섹션에서는 Rebecca Fiebrink가 창의적 도메인에서 교육 데이터를 대화식으로 조작할 때의 이점에 대해 설명합니다. 그녀는 사람들이 다양한 대안 아이디어를 탐색할 수 있도록 하는 것이 디자인 요구 사항을 충족하는 무언가를 만드는 데 필수적이라고 설명합니다. Fiebrink는 Wekinator와 같은 기계 학습 알고리즘을 사용하면 사람들이 모델을 매우 빠르게 재교육하고 결과를 즉시 확인할 수 있어 신속한 프로토타이핑을 매우 효과적으로 지원할 수 있다는 사실을 발견했습니다. 그녀는 또한 그림을 그리거나 악기를 연주하는 것과 같은 영역에서 전문 프로그래머라도 인간의 관행이나 행동을 코드로 포착하는 것이 어렵다고 지적합니다.

  • 00:40:00 이 섹션에서 Rebecca Fiebrink는 머신 러닝을 통해 어떻게 우리가 컴퓨터와 보다 자연스러운 방식으로 커뮤니케이션할 수 있는지 설명합니다. 서로의 창작 활동. 기계 학습은 또한 빅 데이터 세트를 활용하여 표준을 준수함으로써 초보자가 쉽게 만들 수 있도록 합니다. 그러나 Fiebrink의 최근 프로젝트인 Sound Control은 더 많은 사람들이 기계 학습을 통해 인터페이스를 개인화하고 자신과 다른 사람을 위해 물건을 만들 수 있는 가능성을 보여줍니다. 음악 교사 및 치료사와의 협력을 통해 Sound Control은 아이들을 위한 맞춤형 악기를 만들 수 있게 해주지만, 듣기 게임, 즉흥 게임, 공연 활동 등 예상치 못한 유용한 다른 일을 하도록 이끌었습니다.

  • 00:45:00 이 섹션에서는 Rebecca Fiebrink가 기계 학습이 창의적인 작업 프로세스에서 생산적인 놀라움과 도전을 제공하는 방법에 대해 설명합니다. 그녀는 Wekinator와 같은 도구를 사용하여 작업 프로세스에 예상치 못한 아이디어를 추가하는 창의적인 도구의 중요성을 강조합니다. 따라서 그녀는 데이터로 작업하는 다른 유형의 기계 학습 또는 기계 학습이 아닌 방법을 간과하지 않도록 경고합니다. 그녀는 데이터와 머신 러닝으로 건물을 짓는 것이 사람들이 이전에는 할 수 없었던 일을 할 수 있게 할 수 있다고 제안하고 창의적인 애플리케이션이 어떻게 데이터와 머신 러닝을 통해 사람들의 다른 경험을 더욱 강화할 수 있는 사례 연구 역할을 할 수 있는지 탐구합니다.

  • 00:50:00 이 섹션에서 발표자는 소리와 함께 기계 학습을 사용하는 데 따른 어려움에 대한 청중의 질문에 답합니다. 화자는 소리가 문화적 주관성 측면에서 몇 가지 고유한 문제를 제시하지만 전반적으로 다른 미디어와 유사한 결과를 가진 일반적인 기계 학습 프로세스를 사용하여 소리에 접근할 수 있음을 인정합니다. 연사는 데이터와 데이터가 문제 영역을 해결하는 데 사용되는 방식이 매체 자체보다 더 중요하다고 강조합니다. 연사는 또한 머신 러닝을 인터페이스로 사용하여 사물을 생성하는 방법과 인간과 기계의 조화 논의의 중요성 및 누가 목표를 정의해야 하는지에 대해 논의합니다.

  • 00:55:00 이 섹션에서 발표자는 기계 학습에 대한 목표를 정의하는 데 따르는 어려움과 생성자가 데이터 세트를 만들고 무언가를 시도한 다음 데이터를 사용하여 모델을 조정하는 실험 프로세스에 대해 설명합니다. 특정 방향을 향하여. 프로세스의 경험적 측면은 제작자가 시행착오를 통해 특정 맥락에서 기계 학습에 대해 배울 수 있도록 하며, 이러한 측면은 사람들이 기계 학습에 대해 배울 수 있는 강력한 도구가 될 수 있습니다. Carrie Cai와 다른 사람들의 최근 연구에 따르면 유사한 실험적 탐색 절차는 사람들이 사전 기계 학습 전문 지식이 없을 수 있는 응용 프로그램에서도 신뢰를 구축하고 모델링되는 내용을 이해하는 데 도움이 될 수 있습니다.
 

MIT 6.S192 - 강의 9: Tom White의 "신경 추상화"



MIT 6.S192 - 강의 9: Tom White의 "신경 추상화"

이 비디오에서 예술가이자 강사인 Tom White는 기계 인식과 신경망을 예술 활동에 통합하는 접근 방식에 대해 설명합니다. White는 MIT에서 수학 및 그래픽 디자인을 공부한 배경과 현재 Victoria University에서 창의적인 코딩을 가르치는 일을 공유합니다. 그는 또한 다른 사람들이 매체를 창의적으로 사용하는 데 도움이 되는 도구 구축에 대한 연구와 기계 인식을 탐구하는 자신의 예술 작품에 대해서도 이야기합니다. White는 AI 알고리즘을 사용하여 만든 스케치와 프린트를 선보이고 음악 그룹과의 협업 및 최근 미술 전시회에 대해 이야기합니다. 그는 또한 신경망과의 협업 문제와 AI로 생성된 예술을 야생에 퍼뜨리는 의도하지 않은 결과에 대해 논의합니다.

  • 00:00:00 비디오의 이 섹션에서는 아티스트이자 강사인 Tom White가 자신을 소개하고 MIT의 미디어 랩에서 수학과 그래픽 디자인을 공부한 배경에 대해 이야기합니다. 그는 창의적인 학문으로서의 프로그래밍 탐구에 대한 관심과 현재 웰링턴의 빅토리아 대학에서 창의적 코딩을 어떻게 가르치고 있는지에 대해 이야기합니다. White는 또한 다른 사람들이 매체를 창의적으로 사용하는 데 도움이 되는 실용적인 도구를 구축하는 데 중점을 둔 그의 연구에 대해 언급합니다. 또한, 그는 자신의 별도의 예술 실습에 대해 이야기하며, 자신의 강연에서 더 많이 논의할 것이며 유사한 경로를 추구하는 데 관심이 있는 학생들에게 영감을 주기를 희망합니다.

  • 00:05:00 이 섹션에서 연사는 신경 추상화에 대한 강연의 개요와 기계 인식을 탐구하는 작품을 제공합니다. 그는 기계가 세상을 보는 고유한 방식을 가지고 있으며 그의 예술 작품은 이를 더 많은 청중에게 알리는 것을 목표로 한다고 설명합니다. 연사는 또한 AI 표현 및 추상화 주제와 예술적 맥락에서 전달하기 위해 신경망 비전 시스템의 표현을 조사하는 방법에 대해 다룹니다. 그는 눈, 얼굴, 닭과 같은 실제 이미지의 데이터 세트를 기반으로 한 몇 가지 작품과 시스템의 내부 세계를 이해하는 프로세스에 진단을 도입하는 방법을 보여줌으로써 이를 예시합니다. 이 강연은 예술에서 기계 인식을 탐구하는 것의 의미와 기계가 세상을 인식하는 다양한 방식을 이해하는 데 어떻게 도움이 될 수 있는지로 끝납니다.

  • 00:10:00 이 섹션에서 Tom White는 실시간 비디오 필터를 만들기 위한 머신 러닝 기술 탐구, 멀티 터치 상호 작용을 위한 맞춤형 손 인터페이스 만들기를 포함하여 MIT 재학 중 초기 프로젝트에 대해 설명합니다. , 관련 단어를 찾기 위해 WordNet과 같은 AI 기술을 통합한 그의 아트 프로젝트 의식의 흐름. White는 또한 나중에 Processing 및 OpenFrameworks와 같은 시스템의 기반이 된 핵심 소프트웨어 라이브러리 Acu의 생성에 참여했으며 현재 작업에 기계 학습 프로세스를 위한 스케치 및 도면을 만드는 방법에 대해 이야기합니다.

  • 00:15:00 이 섹션에서 연사는 일반적인 물건을 가져와서 그 안에서 새로운 것을 발견할 때까지 계속해서 칠하도록 강요한 예술가 스튜어트 데이비스(Stuart Davis)를 시작으로 그들의 작품에 영감을 준 예술의 선례에 대해 논의합니다. 해롤드 코헨(Harold Cohen)은 인공 지능을 통해 형식적인 방식으로 마크 메이킹에 대한 자신의 아이디어를 코드화하여 생성 드로잉 시스템을 실험한 또 다른 아티스트입니다. 훗날 이러한 시스템과의 협력자로서 더 많이 일하면서 Cohen의 핵심 질문은 "이미지란 무엇인가?"였습니다. 그런 다음 화자는 앤디 워홀과 로이 리히텐슈타인의 스크린 인쇄 작업의 기술적 측면에 대해 그들이 작품을 실행하는 데 공유하는 기술로 이야기합니다.

  • 00:20:00 이 섹션에서는 예술가이자 강사인 Tom White가 브러시 기법 대신 스크린 인쇄를 사용하여 인쇄물을 만드는 예술적 기법에 대해 설명합니다. 또는 인공 지능 알고리즘을 사용하는 쌍안경. White는 Stuart Davis가 매일 같은 물체를 응시함으로써 친숙한 물체를 새로운 방식으로 인식하고 표현하는 방법을 배웠는지 설명합니다. 비슷한 맥락에서 White는 컴퓨터 비전 시스템을 사용하여 친숙한 물체를 인식하고 나타내는 새로운 방법을 도입하려고 합니다.

  • 00:25:00 비디오의 이 섹션에서 발표자는 신경망 시스템을 사용하여 다양한 이미지를 생성하기 위해 조작할 수 있는 매우 적은 획을 사용하여 간단한 스케치를 만드는 데모에 대해 설명합니다. 그는 같은 수의 획을 사용하여 귀상어와 철의 스케치를 만든 방법을 설명하고 획의 위치를 뒤집음으로써 신경망을 속여 철을 상어로 보거나 그 반대로 볼 수 있음을 보여줍니다. 연사는 신경망이 어떻게 다양한 객체의 스케치를 생성할 수 있는지 보여주고 시스템이 왼손잡이 또는 오른손잡이 방향에 의해 영향을 받지 않고 제공된 교육 데이터 세트의 색상에 의해 어떻게 영향을 받는지 보여줍니다.

  • 00:30:00 이 섹션에서는 Tom White가 기계 학습의 다양한 예와 작동 방식에 대해 이야기합니다. 한 가지 예는 주로 녹색인 측정 컵 샘플을 사용하는 컴퓨터 비전 시스템으로, 시스템은 녹색 측정 컵이 실제보다 더 일반적이라고 믿게 만듭니다. White는 또한 모든 유효성 검사 예보다 더 강하게 등록된 진드기로 만든 인쇄물에 대해 설명합니다. 그는 이를 단순화를 통한 증폭이 개념의 더 나은 추상화를 만드는 데 사용되는 예술 및 디자인과 비교합니다. 마지막으로 White는 검색 엔진에서 필터를 트리거하는 작업 이미지에 대해 노골적이거나 안전하지 않은 것을 모방한 추상 인쇄물로 구성된 합성 추상화 시리즈를 선보입니다.

  • 00:35:00 이 섹션에서 발표자는 자신의 시스템이 고래, 펭귄, 눈에 대한 데이터 세트를 포함하여 온라인 API와 어떻게 작동하는지에 대한 예를 공유합니다. 그는 또한 사용자 정의 데이터 세트를 만든 음악 그룹과의 공동 작업과 컴퓨터가 매듭, 개미 또는 기타 물체라고 생각하는 이미지 그룹을 특징으로 하는 최근 미술 전시회에 대해서도 설명합니다. 연사는 계속해서 생성 기술에 대한 다양한 접근 방식과 그의 작품이 현실 세계에 미치는 영향에 대해 이야기합니다. 그는 젠더 네트워크에 대한 관심과 얼굴의 신경망 출력을 사용하여 작품을 만든 방법에 대해 언급합니다.

  • 00:40:00 이 섹션에서 Tom White는 생성 네트워크에 대한 탐구와 대학원생과 함께 스프레드시트 인터페이스를 통해 생성 모델의 샘플을 창의성 도구로 사용하는 스프레드시트 도구를 만드는 작업에 대해 이야기합니다. Lena Sarin, Mario Klingemann, Robbie Barrett 및 Edmund Bellamy와 같은 다른 아티스트도 언급됩니다. White는 또한 공동 창작 과정에서 아티스트와 시스템의 역할을 강조하면서 예술 제작을 위한 이러한 시스템과의 협업 문제에 대해 논의합니다. 마지막으로 그는 AI가 생성한 예술을 야생에 퍼뜨리는 의도하지 않은 결과와 시각화 기술을 통해 그리고 시스템에 무엇을 보는지 질문함으로써 그것을 이해할 수 있는 방법에 대해 이야기합니다.

  • 00:45:00 이 섹션에서 연사는 이미지가 어떻게 관련되는지 시각화하기 위해 시스템에 공급되는 깊은 꿈과 유사한 기술에 대해 이야기합니다. 연사는 자신의 예술 작품이 Tumblr의 성인 콘텐츠 필터, Amazon API, Sloan Kettering의 학술 사무실과 같은 실제 시스템과 충돌하는 방식을 언급합니다. 또한 이러한 비전 시스템이 실제 사물에 대해 가지고 있는 것과 동일한 레이블 아래 예술 작품을 분류할 때 어떻게 붕괴되는지에 대한 예를 논의합니다. 화자는 기계를 위한, 기계에 의한 예술을 창조하는 기계의 눈을 통해 작품을 이해하고, 기계 학습에 대한 배경 지식과 상관없이 사람들이 작품을 감상할 수 있도록 하는 것이 작품의 핵심 아이디어라고 설명합니다.

  • 00:50:00 이 섹션에서 Tom White는 자신의 물리적 예술 작품을 위한 매체로 스크린 인쇄를 선택한 이유를 설명합니다. 그는 물리적인 작업이 사람들이 화면과 카메라가 있는 인터랙티브 설치물과 다르게 관계를 맺을 수 있게 해준다고 강조합니다. 그는 또한 스크린 인쇄를 통해 보다 정밀한 작업을 할 수 있으며 예술계의 팝 아티스트들에게 선례가 있다고 설명합니다. Tom은 또한 가능한 사진을 다루는 것이 어렵기 때문에 실제 작업을 수행하는 것이 더 어렵지만 실제 세계에 대한 적대적 공격을 수행하는 흥미로운 방법이라고 설명합니다. 또한 그는 예술이 알고리즘 편향 또는 AI 및 사이버 보안의 다른 측면을 더 잘 이해하는 데 어떻게 도움이 될 수 있는지에 대해 이야기합니다.

  • 00:55:00 이 섹션에서 Tom White는 여성이 남성보다 웃는 것으로 분류될 가능성이 더 높은 Celeb-A 데이터 세트의 편향이 얼굴 표정 수정을 목표로 하는 생성 네트워크에서 편향으로 이어질 수 있는 방법에 대해 논의합니다. 그는 자신의 작업이 적대적 사례에 초점을 맞추는 것이 아니라 신경망을 트리거하는 자극을 시각화하고 이해하는 데 초점을 맞추고 있다고 지적합니다. White는 또한 시각적 출력 생성을 더 쉽게 하기 위해 최소한의 스트로크와 같은 간단한 표현을 실험하는 것에 대해 이야기합니다. 그는 사람들이 저해상도 형식의 이미지를 인식할 수 있으며 이 능력을 테스트한 심리학 연구에서 영감을 얻었다고 말합니다.

  • 01:00:00 이 섹션에서 Tom White는 시청자에게 신경 추상화 공간에 대한 연구를 확인하고 더 많은 정보를 얻기 위해 전년도 워크샵의 비디오를 안내합니다. 그는 연구의 가치를 강조하고 시청자가 가질 수 있는 모든 질문을 환영합니다.
 

MIT 6.S192 - 강의 10: Jesse Engel의 "Magenta: Empowering creative agency with machine learning"



MIT 6.S192 - 강의 10: Jesse Engel의 "Magenta: Empowering creative agency with machine learning"

Google Brain의 수석 연구 과학자인 Jesse Engel이 창의력과 음악에서 AI와 기계 학습의 역할을 조사하는 연구 그룹인 Magenta에 대해 이야기합니다. 이 그룹은 주로 미디어를 생성하고 오픈 소스 코드와 magenta.js라는 프레임워크를 통해 액세스할 수 있도록 하는 기계 학습 모델에 중점을 둡니다. Engel은 음악을 값싸게 생산되고 소비되는 상품이 아니라 문화적 정체성과 연결을 위한 사회적 및 진화적 플랫폼으로 보는 것이 중요하다고 강조합니다. 기계 학습이 표현력, 상호 작용 및 적응성을 통해 새로운 형태의 크리에이티브 에이전시로 개인에게 권한을 부여하는 방법을 탐구합니다. 강의는 음악을 위한 기계 학습 모델 설계, 예측 출력을 위한 확장된 컨벌루션 사용, 차별화 가능한 디지털 신호 처리, 아름다운 실패를 생성하는 기계 학습 시스템 만들기 등 다양한 주제를 다룹니다. 또한 그는 예술가들과의 협업적 도전과 학습 모델의 분포와 구성성에서 벗어나는 거대한 도전에 대해 이야기합니다.

  • 00:00:00 이 섹션에서는 Google Brain의 수석 연구 과학자인 Jesse Engel이 창의력과 음악에서 AI와 기계 학습의 역할을 조사하는 연구 그룹인 Magenta에 대해 설명합니다. 이 그룹은 주로 미디어를 생성하고 오픈 소스 코드와 magenta.js라는 프레임워크를 통해 액세스할 수 있도록 하는 기계 학습 모델에 중점을 둡니다. Engel은 음악을 값싸게 생산되고 소비되는 상품이 아니라 문화적 정체성과 연결을 위한 사회적 및 진화적 플랫폼으로 보는 것이 중요하다고 강조합니다. 기계 학습이 표현력, 상호 작용 및 적응성을 통해 새로운 형태의 크리에이티브 에이전시로 개인에게 권한을 부여하는 방법을 탐구합니다.

  • 00:05:00 이 섹션에서 Jesse Engel은 특히 음악의 맥락에서 더 해킹 가능하고 훈련하는 데 더 적은 데이터가 필요한 기계 학습 모델을 설계하는 방법에 대해 이야기합니다. 그는 여전히 표현력과 적응력을 유지하면서 직관적인 인과 제어를 통해 대기 시간을 줄이는 것과 같이 알고리즘 설계의 다양한 측면 간의 장단점에 대해 논의합니다. 그는 두 가지 머신 러닝 모델을 비교합니다. 원시 오디오 파형을 매우 사실적으로 모델링하는 openai Jukenbox와 수많은 데이터를 필요로 하는 비용과 음악을 구조화된 데이터로 모델링하지만 비현실적인 사운드를 사용하는 낙서를 비교합니다. 그는 모델 내에서 구조를 사용하여 해석 가능성과 표현성 사이에서 타협하는 그룹이 취하고 있는 접근 방식에 대해 논의하면서 끝을 맺습니다.

  • 00:10:00 이 섹션에서 Jesse Engel은 오디오 필사 모델의 이전 상태와 인간의 인식과 일치하는 방식으로 음표를 정확하게 예측할 때 어떻게 제한되었는지에 대해 설명합니다. 그는 개별 프레임의 오류가 음표가 실제로 시작되는 시점만큼 중요하지 않다는 점과 손실 함수를 우리가 관심을 갖는 것, 즉 연주할 때 음악이 어떻게 들리는지에 더 잘 일치시키기 위해 새로운 신경망 아키텍처가 어떻게 생성되었는지 보여줍니다. 뒤쪽에. 새로운 최첨단 모델은 피아노 연주자가 휴대 전화로 연주하는 것처럼 오디오가 "야생"인 경우에도 정확한 전사를 달성할 수 있었습니다.

  • 00:15:00 동영상의 이 섹션에서는 Google Brain의 Jesse Engel이 국제 e-피아노 대회의 대규모 데이터 세트를 예로 들어 신경망에서 데이터 세트의 중요성을 설명합니다. 그는 순환 신경망(RNN) 및 변환기 아키텍처와 같은 신경망을 사용하여 음악 시퀀스를 모델링하고 음표를 토큰화하는 문제에 대해 논의합니다. 이 문제를 해결하기 위해 개별 음악 이벤트 및 타임스탬프를 인식하는 어휘를 만들었습니다. 마이크로 타이밍, 속도 및 데이터의 변화를 정확하게 표현함으로써 모델은 보다 자연스러운 음악을 생성할 수 있습니다.

  • 00:20:00 강의의 이 섹션에서 Jesse Engel은 Magenta 팀이 원래 모티프로 시작하여 LSTM이라는 자동 회귀 모델을 사용하여 이전 토큰이 주어진 다음 토큰을 예측하는 방법을 설명합니다. 그러나 LSTM의 제한된 장기 일관성으로 인해 일관성을 개선하기 위해 모든 이전 데이터를 추적하도록 변환기를 구현했습니다. 이를 통해 그들은 원시 오디오를 전사하여 수천 시간의 상징적인 음악을 얻을 수 있었고 훨씬 더 장기적인 일관성을 가진 모델을 훈련할 수 있었습니다. 보다 직관적인 컨트롤을 제공하기 위해 팀에서도 멜로디를 추출하여 세대가 의존하는 컨트롤로 사용했습니다. 그런 다음 이 모델을 다양한 소리에 대한 신경 합성기로 사용할 수 있으며 매개변수를 특정 소리 세트에 맞게 조정할 수 있습니다.

  • 00:25:00 비디오의 이 섹션에서 Jesse Engel은 높은 수준의 제어를 기반으로 출력을 예측하기 위해 신경망에 대한 Magenta의 확장 컨벌루션 프로세스의 기술적 측면을 설명합니다. 확장된 컨벌루션을 사용함으로써 시스템은 다운 샘플링 없이 넓은 시간 범위를 볼 수 있고 표현하면서 정보 손실을 방지할 수 있습니다. 그러나 프로세스가 느리고 장기 구조를 위한 장기 컨디셔닝이 필요합니다. 노트 컨디셔닝을 사용하여 시스템은 해석 가능한 중간 표현으로 사실적인 연주를 생성할 수 있습니다.

  • 00:30:00 이 섹션에서는 DDSP 또는 차별화 가능한 디지털 신호 처리에 대해 알아봅니다. Jesse Engel은 오실레이터, 필터, 합성기와 같은 전통적인 신호 처리 방법을 딥 러닝과 통합하여 보다 효율적이고 현실적이며 응답성이 뛰어난 시스템을 만들 것을 제안합니다. 신경망이 오디오를 직접 생성하는 대신 알려진 신호 처리 요소를 사용하고 신경망이 이를 제어하여 표현적인 출력을 생성합니다. DDSP 모듈은 해석 가능하고 효율적이며 이러한 가변 주파수 정현파 발진기로 사운드를 모델링할 수 있습니다. DDSP는 오디오 모델링의 유연성을 높이기 위해 고조파 진동 및 2차 미분 방정식을 사용합니다. DDSP는 주기적인 구성 요소일 뿐만 아니라 다양한 필터로 무작위로 형성될 수 있는 노이즈 요소도 포함합니다. 신경망 디코더를 사용하여 이러한 합성 요소를 제어함으로써 원본 오디오와 비교하여 양호하게 오디오를 생성할 수 있습니다.

  • 00:35:00 강의의 이 섹션에서 연사는 모델을 통해 스펙트로그램을 실행한 다음 다시 합성하여 더 적은 데이터로 고품질 합성을 생성하도록 디코더를 훈련하는 방법을 설명합니다. 이를 통해 모델은 음높이와 음량을 플루트 사운드, 바이올린 사운드로 전환하고 심지어 노래 스타일에서 음색 톤을 전송할 수 있습니다. 또한 개별 속성을 검사하기 위해 반향 및 고조파와 같은 다양한 모델 구성 요소를 끌 수 있습니다. 모델은 브라우저에서 실시간 작업 구현을 위해 1MB 미만의 모델로 압축될 수 있습니다. DDSP 모델은 다양한 문화권에 적용할 수 있으므로 미세한 변화와 변화를 보존할 수 있습니다.

  • 00:40:00 이 섹션에서는 Jesse Engel이 Magenta 프로젝트와 머신 러닝을 사용하여 광고 대행사의 역량을 강화하려는 목표에 대해 설명합니다. 그는 이 도구를 교체하기보다 자신의 창작 과정에 도움이 된다는 뮤지션들로부터 긍정적인 반응을 얻었다고 설명합니다. Magenta 팀은 교육 모델을 위한 웹 인터페이스, 웹 앱에 배포, 음악 소프트웨어용 실시간 플러그인을 포함하여 더 광범위한 생태계를 만드는 데 주력하고 있습니다. Engel은 시스템이 보다 상호작용적이고 실시간이며 적응력이 뛰어나지만 표현력과 다양한 상호작용 모델 측면에서 여전히 개선의 여지가 있다고 지적합니다. 팀은 데이터에서 구조와 레이블을 학습하기 위해 감독되지 않은 모델을 탐색하고 있습니다. 누구나 시험해 볼 수 있도록 웹 사이트에서 사용할 수 있는 몇 가지 데모, 소프트웨어 및 전문 도구가 있습니다.

  • 00:45:00 이 섹션에서 Jesse Engel은 아름다운 실패를 만들어내는 기계 학습 시스템을 만드는 것이 아티스트가 사용할 수 있는 시스템을 만드는 방법 중 하나라고 설명합니다. 예를 들어, 원래 드럼 머신에 설계된 제한 사항은 힙합 및 전자 음악가가 사운드를 재미 있고 예술적인 방식으로 사용하게 만든 결정적인 특성으로 밝혀졌습니다. 또한 Engel은 해석 가능성과 상호 작용 간의 관계에 대해 논의하고 기계 학습 모델에서 사용하는 언어와 가정이 해석 가능성을 극대화하기 위해 소프트웨어와 사용자 사이에서 중개자 역할을 하는 API를 생성하는 솔루션이 될 수 있다고 제안합니다.

  • 00:50:00 비디오의 이 섹션에서 Jesse Engel은 일반화를 위해 구조를 적용하는 동시에 대상 청중에 맞는 모델을 설계하는 문제에 대해 설명합니다. 그는 신경망이 특정 이미지 세트에서 어떻게 뉴턴 역학을 에뮬레이트할 수 있지만 이미지의 한 측면이 변경될 때 외삽하는 데 어려움을 겪는지 설명합니다. 그는 또한 음악의 강도나 킥 드럼의 볼륨에 적응할 수 있는 모델을 만드는 것이 얼마나 매력적인 아이디어가 될 수 있는지에 대해서도 언급합니다. 아티스트와의 콜라보레이션에 대한 논의도 거론되지만, 제시는 한계와 리서치 기반의 프로모션 시스템 때문에 어렵다고 설명한다. 토론은 학습 모델의 분포 및 구성에서 벗어나는 큰 도전과 관련이 있습니다.
 

MIT 6.S192 - 강의 11: "인공 생물다양성", Sofia Crespo 및 Feileacan McCormick



MIT 6.S192 - 강의 11: "인공 생물다양성", Sofia Crespo 및 Feileacan McCormick

"Artificial Biodiversity"에 대한 이 강의에서 Sofia Crespo와 Feileacan McCormick은 기술과 자연의 교차점을 탐구하여 독특한 형태의 예술을 생산합니다. 이 듀오는 기계 학습에 대한 관심과 사용, 아름다움과의 연관성에 대해 논의하고 인간 인식의 한계를 강조합니다. 그들은 또한 생태 시스템에 대한 더 나은 이해를 위해 개별 종과 복잡한 얽힘을 모두 대표하는 것을 옹호하는 "Entangled Others"를 포함한 공동 프로젝트에 대해 논의합니다. 발표자들은 알고리즘이 인간 예술가를 대체할 수 없다고 말하면서 예술적 실천과 도구와 예술 사이의 관계에서 지속 가능성과 협업의 중요성을 강조합니다.

  • 00:00:00 이 섹션에서는 Sofia Crespo와 Feileacan McCormick이 인공 생물 다양성의 개념에 대해 논의하고 기계 학습 영역에서 무엇이 아름다운 것을 만드는지에 대한 질문을 탐구합니다. 듀오는 신경망 훈련에 사용되는 데이터 세트, 모델 훈련 과정 또는 뇌의 가상 뉴런 레이어 간의 상호 작용에서 아름다움이 발견되는지 여부를 고려합니다. 그들은 또한 신경망 훈련 행위와 명상 사이에 유사점을 그립니다. 둘 다 데이터 세트의 큐레이션과 패턴 탐색을 포함하기 때문입니다. 전반적으로 토론은 기술과 자연이 교차하여 독특한 형태의 예술을 생산할 수 있는 방법을 강조합니다.

  • 00:05:00 이 섹션에서 Sofia Crespo는 해파리에 대한 그녀의 매력과 색상 측면에서 인간 인식의 한계에 대해 설명합니다. 그녀는 해파리에 대한 관심이 기계 학습 알고리즘을 통해 합성 해파리를 탐구하게 되었다고 설명합니다. 그녀는 인공 신경망이 우리의 인지 과정과 "자연성"의 개념 및 이를 시각화하는 방법에 대해 무엇을 가르쳐줄 수 있는지에 대해 고민합니다. Crespo는 또한 간 아트의 시각적 불확정성에 대한 Aaron Hertzmann의 논문에 대해 논의합니다. 이 논문은 의미 있는 시각적 자극이 시각적으로 불확실하고 인지 반응을 유발할 수 있는 방법을 탐구합니다.

  • 00:10:00 이 섹션에서는 연사가 기계 학습에 대한 관심과 사용 및 아름다움과의 연결에 대해 논의합니다. 그들은 기계 학습으로 작업할 때 인간이 만든 데이터 세트를 활용하여 매우 인간적인 영역 내에서 작업하므로 자연에 대한 인간의 시각적 가정을 다룬다고 설명합니다. 연사는 인간이 자연의 일부이기 때문에 기술도 자연의 일부라고 제안하며, 기술이 자연과 별개의 개체라는 생각에는 결함이 있습니다. 또한 연사들은 인공 생명의 정의에 대해 논의하고 소프트웨어, 예술 또는 웨트웨어, 하드웨어 및 유전학과 같은 다양한 분야에서 이해할 수 있음을 강조합니다. 그들은 진화된 인공 생물에 대한 Karl Sim의 작업을 사용하여 원시인이 실물과 같은 특성을 구현하는 능력을 보여주고 그들의 행동과 함께 경쟁심과 목표 지향적인 행동을 나타냅니다.

  • 00:15:00 이 섹션에서는 인공 신경망이 Luigi Serafini의 Codex Seraphinianus와 같은 환상적인 생물과 언어를 만드는 방법을 배웁니다. 이러한 창조물은 식물학, 동물학, 언어 및 건축에 대한 인간의 지식을 혼합하여 재결합한 것입니다. 인위성에도 불구하고 다양성 속에서 놀라운 다양성을 보여줍니다. 강의에서는 청록색 기법을 창시한 19세기 사진가이자 식물학자인 Anna Atkins에 대해서도 논의합니다. 화자는 앳킨스의 기술과 컨볼루션 신경망을 결합하여 실물과 같은 생물을 생성했으며, 이는 시아노타입 기술을 사용하여 인쇄되었습니다. 이 프로젝트는 카메라가 존재하기 전에 인간이 자연을 어떻게 보았는지 보여주는 책인 Artificial Natural History라고합니다.

  • 00:20:00 이 섹션에서는 Sofia Crespo와 Feileacan McCormick이 공동 프로젝트인 "Entangled Others"에 대해 논의합니다. 이 프로젝트에서는 개별 종뿐만 아니라 생태계에 대한 더 나은 이해를 위해 복잡한 얽힘을 나타내야 한다고 주장합니다. 그들은 곤충의 3D 모델을 생성하고 사람들이 디지털 생물과 상호 작용할 수 있는 증강 현실 경험을 만든 첫 번째 프로젝트인 "Artificial Remnants"에 대해 설명합니다. 이 프로젝트의 성공은 생태계를 구축하고 관계에 존재한다는 추상적인 개념을 탐구하는 최근의 노력으로 이어졌습니다. 그러나 COVID-19로 인해 전시 계획이 변경되었습니다.

  • 00:25:00 이 섹션에서 연사는 "인공 생물다양성"에 대한 프로젝트와 생태계의 상호 연결성의 예로 산호초로 전환한 방법에 대해 논의합니다. 그러나 데이터 부족으로 인해 산호 형태의 다양성을 모방하기 위해 예술가와 협력하여 합성 산호를 만들어야 했습니다. 그들은 이것이 산호초의 복잡한 시스템을 정확하게 반영하지 않았기 때문에 이것이 주관적인 표현임을 인정하지만 여전히 그 품질을 상기시킵니다. 그들은 또한 자연의 패턴을 추상적으로 표현하여 자연을 부각시키는 매혹적인 측면에 대해 이야기하고 생체 재료로 작업하는 것은 학습 과제였습니다.

  • 00:30:00 이 섹션에서 연사는 버려진 올리브 구덩이에서 바이오플라스틱을 만드는 전문 스튜디오와 협력하여 지속 가능성을 우선시하기 위해 어떻게 노력했는지 논의합니다. 이 재료는 계속해서 녹이고 용도를 변경할 수 있으므로 전시회를 만든 다음 향후 프로젝트를 위해 재료의 용도를 변경할 수 있습니다. 그들은 자연과 함께 작업하는 예술가가 지속 가능하게 생각하고 디지털 레이어의 물리적 결과를 고려하는 것이 중요하다고 강조합니다. 특히 예술 실습에서 머신 러닝을 사용합니다. 그들은 또한 연결을 강화하고 새로운 연결을 만들기 위한 협업 및 학제 간 상호작용의 중요성을 강조하여 다른 사람들이 협업, 대화 등을 위해 그들에게 다가갈 수 있도록 공개적으로 요청하게 되었습니다. 토론은 또한 철학과 참조 Plato, Deleuze 및 Guattari에 대해 다루고 있습니다.

  • 00:35:00 이 섹션에서는 아티스트 Sofia Crespo와 Feileacan McCormick이 도구와 예술의 관계에 대해 논의합니다. 그들은 연필이 우리가 그리는 방식을 형성하는 것처럼 디지털 도구도 형성하는 특성을 가지고 있다고 설명합니다. 그들은 또한 제너레이티브 및 디지털 아트를 만들 때 예술적 관점을 잊지 않는 것의 중요성과 기술적 솔루션뿐만 아니라 왜, 어떻게, 무엇을 질문해야 하는지에 대해서도 설명합니다. 그들은 예술은 인간이 소비하도록 만들어졌으며 알고리즘이 인간 예술가를 대체할 수 없다는 것을 상기시키는 것이 필수적이라고 말합니다.
 

MIT 6.S192 - 강의 12: "AI+Creativity, an Art Nerd's Perspective" by Jason Bailey



MIT 6.S192 - 강의 12: "AI+Creativity, an Art Nerd's Perspective" by Jason Bailey

Jason Bailey가 기계 학습이 위조 감지에서 가격 예측에 이르기까지 예술 분야에 어떤 영향을 미치는지 설명합니다. 그는 예술가들이 데이터 기반 예술에 내재된 편견을 인식할 것을 촉구하고 모든 관점을 포함하는 훈련 데이터의 필요성을 촉구합니다.

  • 00:00:00 Jason Bailey는 AI와 창의성에 대해 논의할 MIT 강사입니다. 그는 엔지니어링과 마케팅의 배경을 가지고 있으며 이 경험을 예술과 기술의 교차점에 대한 그의 강연에 적용합니다. Bailey는 미술사, 미술 시장의 가격 예측, 창작 예술에서 AI 및 ML 사용의 세 가지 핵심 영역에 초점을 맞출 것입니다.

  • 00:05:00 Jason Bailey는 예술 위조 문제에 어떻게 관심을 갖게 되었는지, 그리고 예술가의 전체 작품 데이터베이스를 만들기 위해 대형 책자를 스캔하는 데 3년을 어떻게 보냈는지 설명합니다. 그는 이러한 카탈로그 이력서가 얼마나 희귀하고 찾기 힘든지, 그리고 최근에 누군가 약 2,000달러에 인기 있는 버전을 재발행한 것에 대해 이야기합니다.

  • 00:10:00 Jason Bailey의 블로그 "artnome.com"은 예술을 더 잘 이해하고 비평하기 위해 데이터를 사용하는 방법을 탐구합니다. 2017년 그의 블로그는 그의 프로젝트 "Ai for Art Scholarship: What Does That Look Like?"에 대한 이야기를 게재한 538에서 주목을 받았습니다. 강의에서 자신의 프로젝트 및 출판물에 대한 링크를 공유한 후 Bailey는 자신의 강연을 한 단락으로 요약했습니다.

  • 00:15:00 Jason Bailey가 기계 학습이 미술사, 특히 그림을 분석하고 미술사를 이해하는 데 어떻게 유용한지 논의합니다. 그는 또한 여러 박물관에서 동일한 예술가의 상징적인 그림을 식별하기 위해 기계 학습 모델을 교육하는 것과 관련된 최근 프로젝트에 대해 이야기합니다.

  • 00:20:00 제이슨 베일리의 강의는 그림 가격과 그림을 구성하는 단일 픽셀 간의 관계와 미술 시장의 경향을 탐구합니다. 그의 기계 학습 플랫폼은 0.58의 상관관계로 스페인 화가 파블로 피카소의 그림 가격을 예측할 수 있었습니다.

  • 00:25:00 Jason Bailey가 기계 학습의 현재 상태와 그것이 예술계에 미치는 영향에 대해 논의합니다. 그는 머신 러닝이 보다 사실적이고 초현실적인 예술을 만드는 데 어떻게 사용되고 있는지, 그리고 이 혁신이 최근 어떻게 이 분야에 대한 새로운 관심을 불러일으켰는지에 대해 이야기합니다.

  • 00:30:00 Jason Bailey는 인공 지능과 창의성에 대한 강의를 통해 깊은 꿈과 스타일 전송이 예술을 만드는 데 어떻게 사용될 수 있는지 설명합니다. 그는 이러한 기술에 대한 자신의 경험과 처음 발견했을 때만큼 흥미롭지 않은 방법에 대해 이야기합니다. 그는 프랑스 예술가 Robbie Barrett의 작품에 대해 토론하며 강의를 마칩니다.

  • 00:35:00 Jason Bailey가 AI와 창의성에 대한 강의를 하며 AI와 생성 예술이 만연한 오늘날에 전통적인 예술 교육이 어떻게 부족한지 논의합니다. 그는 예술에 대한 그의 배경이 어떻게 예술가 및 생성 예술의 촉진자와 연결될 수 있게 했는지, 그리고 자신의 작품이 이러한 예술가들로부터 어떻게 영향을 받았는지에 대해 논의합니다.

  • 00:40:00 Jason Bailey는 과거에 기술과 예술이 어떻게 교차했는지, 데이터 분석이 아티스트가 추상화를 측정하는 데 어떻게 도움이 되었는지에 대해 논의합니다. 그는 또한 화가의 경력에서 추상화를 계산한 프로젝트에 참여했다고 언급합니다.

  • 00:45:00 Jason Bailey는 아티스트의 역사적 인기, 그림의 복잡성, 그림에 사용된 재료와 같은 여러 요인을 기반으로 팀의 알고리즘을 사용하여 그림 가격을 예측하는 방법을 설명합니다. 그는 또한 알고리즘이 아직 초기 단계에 있으며 이를 개선하기 위해서는 더 많은 연구가 필요하다고 지적합니다.

  • 00:50:00 이 강의에서 Jason Bailey는 경매 데이터를 사용하여 창의성을 연구하는 방법과 예술 및 자연과 같은 다른 분야를 모델에 통합한 방법에 대해 설명합니다.

  • 00:55:00 Jason Bailey는 모든 관점을 포함하는 교육 데이터의 필요성을 강조하면서 AI가 창의성에 미치는 영향에 대해 논의합니다. 그는 또한 편향된 AI 알고리즘의 잠재적 결과에 대해서도 논의합니다. 마지막으로 그는 예술가들에게 데이터 기반 예술에 내재된 편견을 인식할 것을 촉구합니다.
 

MIT 6.S192 - 강의 13: "Surfaces, Objects, Procedures: Integrating Learning and Graphics for 3D Scene Understanding" 저: Jiajun Wu



MIT 6.S192 - 강의 13: "Surfaces, Objects, Procedures: Integrating Learning and Graphics for 3D Scene Understanding" 저: Jiajun Wu

Stanford의 Jiajun Wu 조교수가 딥 러닝과 컴퓨터 그래픽의 영역 지식을 통합하여 기계의 장면 이해에 대한 자신의 연구에 대해 설명합니다. Wu는 깊이 맵을 통해 보이는 표면을 추정하고 다른 유사한 모양의 대규모 데이터 세트에서 사전 지식을 기반으로 모양을 완성함으로써 단일 이미지에서 3D 개체 형상을 복구하는 2단계 접근 방식을 제안합니다. Wu는 또한 구형 맵을 3D의 표면에 대한 대리 표현으로 사용하여 표면 특징을 더 잘 캡처하여 시스템이 보다 상세하고 부드러운 출력으로 모양을 완성할 수 있도록 제안합니다. 또한 Wu는 형상을 형상 프로그램으로 재구성하여 특히 추상 및 인공 물체에 대한 모델링 및 재구성을 크게 개선할 수 있는 방법에 대해 설명합니다. 마지막으로 Wu는 모양 재구성, 텍스처 합성 및 장면 이해를 개선하기 위해 컴퓨터 그래픽의 도메인 지식을 기계 학습과 통합하는 방법에 대해 설명합니다.

  • 00:00:00 비디오의 이 섹션에서는 Stanford의 조교수인 Jiajun Wu가 컴퓨터 그래픽의 딥 러닝과 도메인 지식을 통합하여 기계의 장면 이해에 대한 연구에 대해 설명합니다. 인간의 인지를 복제함으로써 그의 목표는 객체 범주, 3D 형상, 물리적 속성 및 미래 예측을 포함하여 장면을 포괄적으로 이해하는 기계를 만드는 것입니다. Wu의 연구는 또한 컴퓨터 그래픽의 도메인 지식을 딥 러닝과 통합하는 하이브리드 모델을 만들어 기계 학습과 예술 사이의 격차를 해소하는 것을 목표로 합니다. 이 접근 방식은 이미지 편집 및 생성의 새로운 가능성과 딥 러닝 적용의 창의성을 허용합니다.

  • 00:05:00 강의의 이 섹션에서 Jiajun Wu는 3D 모양에서 2D 이미지를 생성하는 컴퓨터 그래픽의 고전적인 문제의 역으로 볼 수 있는 단일 이미지에서 3D 개체 형상을 복구하는 문제에 대해 논의합니다. , 질감, 조명, 재료 및 관점. 신경망이 작업을 수행하도록 훈련될 수 있지만 Wu는 컴퓨터 그래픽의 사전 지식을 통합하면 성능, 효율성 및 일반화 가능성을 향상시킬 수 있다고 제안합니다. 그는 문제 해결을 위해 2단계 접근 방식을 제안합니다. 첫 번째는 깊이 맵을 통해 보이는 표면을 추정하고 두 번째는 다른 유사한 모양의 대규모 데이터 세트에서 사전 지식을 기반으로 모양을 완성하는 것입니다.

  • 00:10:00 이 섹션에서 Jiajun Wu는 물체 표면과 모양의 세부 사항을 캡처하기 위한 중간 표현으로 깊이를 사용하는 것의 중요성에 대해 설명합니다. ShapeNet 데이터 세트에서 모델을 교육하고 여기에서 모양을 무작위로 샘플링함으로써 Wu는 이 접근 방식이 출력의 정확도를 크게 향상시킨다는 것을 보여줍니다. 그러나 그는 모델이 이전에 본 적이 없는 개체로 일반화하는 것이 어려울 수 있으며 데이터를 잘못 해석할 수 있음을 인정합니다. 이 문제를 해결하기 위해 Wu는 2D 표현을 3D 표현으로 역투영하는 차등 레이어를 구축하여 시스템이 결정론적이고 완전히 차별화 가능한 프로세스를 결정하여 모양을 완성할 수 있도록 할 것을 제안합니다.

  • 00:15:00 이 섹션에서 발표자는 3D 객체에 대한 부분 표면 사용의 제한 사항, 특히 3D 공간의 많은 영역이 비어 있어 완성 네트워크가 표면 기능을 캡처하기 어렵게 만드는 한계에 대해 논의합니다. 이 문제를 해결하기 위해 화자는 모든 픽셀이 표면의 한 점에 해당하고 표현이 낭비되지 않는 3D 표면의 대리 표현으로 구형 맵을 사용할 것을 제안합니다. 파이프라인은 예상 깊이를 가져와 부분 구형 맵으로 투영한 다음 구형 맵 공간에서 완성 네트워크를 사용하여 완료할 수 있습니다. 이 새로운 방법은 훨씬 더 매끄럽고 자세한 출력을 제공하며 훈련 중에 볼 수 없었던 객체 범주로 일반화할 수 있습니다.

  • 00:20:00 이 섹션에서 Jiajun Wu는 중간 표현 및 역투영이 더 일반화 가능한 더 나은 모양 재구성 시스템을 구축하는 데 어떻게 도움이 될 수 있는지 설명합니다. Wu는 인간과 말에 대한 테스트의 예를 사용하여 시스템이 이전에 변형 가능한 물체를 보지 않고 단일 보기에서 상대적으로 합리적인 방식으로 물체를 재구성할 수 있다고 언급하여 시스템이 더 나은 비전 시스템을 구축하는 데 사용될 수 있음을 나타냅니다. Wu는 또한 표면의 중간 표현과 전방 투영이 어떻게 렌더링을 개선하여 독립적인 요소를 더 잘 제어하여 새로운 객체 모양과 질감을 합성할 수 있는지 설명합니다.

  • 00:25:00 이 섹션에서 Jiajun Wu는 이전 기술을 결합하여 장면으로 확장하는 과정에 대해 설명합니다. 첫째, 그는 반전 시스템을 사용하여 나무나 하늘과 같이 객체와 유사하지 않은 배경 세그먼트에 대한 잠재적 표현을 포함하여 객체의 형상, 포즈 및 텍스처 표현을 얻습니다. 그런 다음 이러한 표현을 편집하여 자동차를 더 가까이 이동시키거나 텍스처를 변경하는 등 장면의 다양한 변경 사항이 전체 이미지에 어떤 영향을 미치는지 확인합니다. Wu는 개체가 3D 기하학을 가지고 있다는 이해의 중요성을 강조합니다. 이를 통해 방법이 완전하고 정확한 결과를 생성할 수 있기 때문입니다. 마지막으로 그는 테이블과 같은 인공 개체를 재구성할 때 모양 추상화의 문제와 추상적이고 프로그램과 같은 표현을 통합하여 더 나은 결과를 얻을 수 있는 방법에 대해 논의합니다.

  • 00:30:00 이 섹션에서 Wu는 모양을 모양 프로그램으로 재구성하여 특히 가구와 같은 개체의 모델링 및 재구성을 크게 개선할 수 있는 방법에 대해 설명합니다. 또한 건물 설계를 위한 3D 프로젝션을 안내할 수 있는 알고리즘을 통해 복제 및 대칭과 같은 절차적 구조를 콘텐츠 생성에 활용할 수 있는 방법을 설명합니다. Raw 2D 이미지와 3D 공간을 연결하기 위해 Wu의 팀은 시각 데이터에서 선과 삼각형과 같은 프리미티브를 감지하는 확률적 검색에서 영감을 얻었으며 현재 이미지 센싱을 안내하기 위해 3D 프리미티브의 모양을 합성하려고 시도하고 있습니다.

  • 00:35:00 이 섹션에서 Jiajun Wu는 내부 학습을 사용하여 이미지 통계의 단일 이미지에서 모든 것을 학습하는 방법에 대해 설명하고 단일 이미지 내에서 패치가 반복될 수 있으며 이 반복이 여러 규모에서 발생할 수 있음을 관찰합니다. 뉴런 활성화를 사용하여 단일 이미지에서 반복되는 객체를 식별함으로써 발견된 프리미티브는 선, 직사각형, 구 또는 실린더가 될 수 있으며 신경망은 이러한 반복 객체의 중심 위에서 프로그램을 식별하고 합성하는 기능을 학습할 수 있습니다. 이를 통해 이미지 완성 또는 외삽, 장면을 더 불규칙하게 만드는 규칙성 편집과 같은 여러 가지 문제를 해결할 수 있습니다.

  • 00:40:00 이 섹션에서 발표자는 프로그램을 단일 평면보다 더 복잡한 3D 이미지에 적용하는 방법에 대해 논의합니다. 여기서 문제는 각 평면의 방향과 표면 수준을 고려하면서 이미지를 여러 평면으로 분할하는 것입니다. 발표자는 이 문제를 해결하기 위해 소실점 및 와이어프레임과 같은 시각적 신호를 사용할 것을 제안합니다. 그러나 와이어프레임 피쳐는 잡음이 많을 수 있으며 가능한 후보 평면 파티션이 여러 개 있을 수 있습니다. 프로그램의 하향식 지식을 사용하여 후보 평면을 2D 이미지로 수정하고 프로그램 합성을 수행하여 이미지의 올바른 분할을 찾을 수 있습니다. 이를 통해 기존 방법으로는 달성할 수 없는 최상의 공동 작업 결과 및 이미지 합성을 찾을 수 있습니다.

  • 00:45:00 이 섹션에서 Jiajun Wu는 모양 재구성, 텍스처 합성 및 장면 이해를 개선하기 위해 컴퓨터 그래픽의 도메인 지식을 기계 학습과 통합하는 방법에 대해 논의했습니다. Wu는 장면에 대한 이해는 시각적 데이터 뒤에 있는 최소한의 보편적인 인과 구조(객체, 표면, 투영 및 폐색)를 기반으로 한다고 강조했습니다. Wu는 학습과 기계 학습을 통합함으로써 기존의 2D 이미지를 뛰어넘는 더욱 향상된 3D 모델을 만들 수 있는 더 큰 잠재력이 있다고 믿습니다. Wu와 그의 팀은 3D 프린팅을 탐구하지는 않았지만 3D 형상 모델링과 이러한 모델 뒤에 추론된 절차를 사용할 가능성에 관심이 있습니다.
 

MIT 6.S192 - 강의 14: Jeff Clune의 "끝없이 창조적인 개방형 혁신 엔진을 향해"



MIT 6.S192 - 강의 14: Jeff Clune의 "끝없이 창조적인 개방형 혁신 엔진을 향해"

OpenAI의 연구원인 Jeff Clune은 이 MIT 강의에서 끝없이 창의적인 개방형 혁신 엔진을 만드는 작업에 대해 설명합니다. 그는 일련의 사물에서 시작하여 새로운 것을 생성하고 흥미로운 것을 유지하기 위해 평가하고 흥미로운 참신함을 유지하기 위해 수정하는 자연스러운 진화와 인간 문화의 레시피를 수행할 수 있는 알고리즘을 만들려고 합니다. Clune은 신경망을 사용하여 새로운 것을 인식하고, Map Elites 알고리즘에 대해 이야기하고, 인코딩을 위한 구성 패턴 생성 네트워크를 소개합니다. 그는 이러한 도구를 결합하여 복잡하고 다양한 이미지를 생성하고, 어려운 문제를 해결하고, 도전에 대한 솔루션을 지속적으로 혁신할 수 있는 개방형 알고리즘을 만드는 방법을 보여줍니다.

  • 00:00:00 이 섹션에서는 브리티시 컬럼비아 대학의 컴퓨터 과학 부교수이자 OpenAI의 연구팀 리더인 Jeff Clune이 끝없이 창의적인 개방형 혁신 엔진을 만드는 연구에 대해 설명합니다. 그는 철학에서 시작한 다음 AI의 큰 도전을 해결하기 위해 컴퓨팅 시스템을 구축하는 방향으로 전환하는 개인적인 여정을 되돌아봅니다. Clune은 재규어와 매의 복잡한 엔지니어링 설계와 같이 자연의 끝없는 창조물에서 볼 수 있고 끊임없이 혁신하는 개방형 알고리즘을 만드는 데 관심이 있습니다.

  • 00:05:00 이 섹션에서 연사는 혁신 엔진의 개념에 대해 논의합니다. 그는 혁신 엔진의 개념을 자연적 진화와 인간 문화가 뒤따르는 레시피로 정의하여 창의성을 발휘할 수 있도록 합니다. 이 레시피에는 일련의 항목으로 시작하고, 새로운 것을 생성하고, 흥미로운지 평가하고, 흥미로운 결과를 유지 및 수정하는 작업이 포함됩니다. 화자는 장기적으로 인간의 개입 없이 이 과정을 자동으로 수행할 수 있는 알고리즘을 만드는 것을 목표로 합니다. 그러나 가장 큰 과제는 흥미롭지 않은 참신함을 생성하지 않고 흥미로운 참신함만 생성하는 것입니다. 화자는 신경망을 사용하여 많은 수의 클래스를 인식하여 새로운 유형의 사물을 인식하고 흥미로운 결과를 생성할 것을 제안합니다.

  • 00:10:00 이 섹션에서 Jeff Clune은 Map Elites라는 알고리즘과 알고리즘 검색 분야에서의 위치에 대해 설명합니다. 그는 많은 어려운 문제가 목표를 위해 최적화하는 것보다 새로운 것을 탐색하고 발견해야 하며 이것이 알고리즘에 반영되어야 한다고 설명합니다. Clune과 그의 동료들은 Quality Diversity Algorithms라는 새로운 하위 분야에서 작업해 왔으며, 해당 유형의 솔루션에 대해 가능한 한 모두 훌륭하고 다양한 솔루션 세트를 찾는 것을 목표로 합니다. 알고리즘은 다른 작업을 진행할 때 목표 사이를 전환하려고 하며 이것이 정말 어려운 문제를 해결하는 유일한 방법일 수 있다고 믿습니다.

  • 00:15:00 이 섹션에서는 생물학과 인공 지능의 교차점을 연구하는 연구원인 Jeff Clune이 몇 가지 기준에 따라 솔루션을 최적화하는 데 사용되는 Map Elites 알고리즘에 대해 설명합니다. Clune은 그와 그의 동료들이 로봇 문제에 Map Elite를 적용하여 유전자 알고리즘으로 소프트 로봇 형태를 생성하여 다양한 범위의 생명체를 만들었다고 설명합니다. 그러나 팀은 각각의 생물이 거의 동일하고 알고리즘이 새로운 검색을 시작하여 다양한 디자인을 생성할 뿐임을 깨달았기 때문에 만족하지 못했습니다. 이를 해결하기 위해 Clune은 동일한 문제에 Map Elites 알고리즘을 적용했습니다. 이번에는 정규 최적화 알고리즘을 사용하는 대신 복셀 수와 특정 재료의 양을 관심 차원으로 선택했습니다. 그는 알고리즘이 훨씬 더 넓은 가능성의 공간을 탐색하고 궁극적으로 훨씬 더 나은 결과를 생성한다는 것을 발견했습니다. 또한 Clune은 CPPN(Compositional Pattern-Producing Network)이라고 하는 인코딩이 이후 섹션에서 작업 중인 문제를 해결하는 데 어떻게 중요한지 설명했습니다.

  • 00:20:00 강의의 이 섹션에서 Jeff Clune은 딥 러닝 및 진화 알고리즘의 인코딩 선택에 대해 논의합니다. 직접 인코딩에서는 최종 아티팩트의 모든 단일 기능이 매개변수 벡터의 숫자로 표시되는 반면, 생성 인코딩에서는 매개변수 벡터의 정보를 재사용하여 최종 제품을 생성하므로 보다 규칙적이거나 패턴이 있는 제품이 생성됩니다. Nature는 기하학적 패턴을 사용하여 생성적 인코딩을 사용하여 신체 내 세포의 위치에 따라 각 세포가 되는 세포의 유형인 세포 운명을 결정합니다. 이 접근 방식은 발달 생물학에서 공통어(lingua franca)로 간주되며, 기존 패턴이 결합되어 최종 제품에서 새로운 패턴을 생성합니다.

  • 00:25:00 이 섹션에서는 OpenAI의 연구원인 Jeff Clune이 발달 생물학의 힘을 효율적으로 사용하여 개방형 AI 시스템을 만드는 방법에 대해 설명합니다. 그는 표현형 요소의 기능으로 기하학적 위치를 인코딩하기 위해 기본 화학 물질 없이 자연 시스템의 많은 힘을 추상화하는 구성 패턴 생성 네트워크(CPPN)의 사용을 제안합니다. 신경망 또는 로봇 형태와 같은 표현형 요소를 최적화하기 위해 아티팩트에 좌표를 제공함으로써 CPPN은 비대칭 및 대칭 및 반복 테마의 혼합 및 일치를 통해 임의의 복잡성을 생성할 수 있습니다. Clune과 그의 팀은 이 아이디어를 3차원으로 구현하여 사용자가 서로의 진화된 모양을 선택하여 성장하는 디딤돌 아카이브를 생성할 수 있는 웹 사이트인 endlessforms.com을 구축했습니다.

  • 00:30:00 강의의 이 섹션에서 Jeff Clune은 CPPN을 사용하여 설계를 자동화하고 임의의 복잡한 이미지를 3D 인쇄하여 기술적 장벽을 제거하고 창의적인 설계를 쉽게 생성하는 이러한 도구의 힘을 보여줍니다. 그런 다음 개방형 알고리즘을 만드는 작업에 CPPN을 적용하고 이를 최적화하여 ImageNet에서 수천 개의 빈을 각각 분류합니다. Clune은 더 나은 성능에 대한 가설이 어떻게 테스트되었는지 설명하여 이미지가 종종 관련 카테고리처럼 보이거나 개념에 대한 예술적 해석을 불러일으켰습니다. 일부 "속이는 이미지"를 생성했음에도 불구하고 이 생성 프로세스를 통해 팀은 적대적 이미지로 이어진 심층 신경망에 내재된 결함을 입증하면서 완전히 새로운 미적 공간을 탐색할 수 있었습니다.

  • 00:35:00 이 섹션에서 Jeff Clune은 자신과 그의 팀이 개발한 다양한 고품질 이미지를 생성할 수 있는 다양성 알고리즘의 품질에 대해 설명합니다. 이 알고리즘은 다양한 이미지 세트를 생성하며 그 중 일부는 미학적으로 흥미롭고 비즈니스 로고와 같은 실용적인 목적으로 사용할 수 있습니다. 그는 또한 생물학 및 기술 분야에서 발생하는 것과 유사하게 알고리즘의 목표 전환 기능이 어떻게 적응 방사선이 발생하도록 하는지 설명합니다. 그는 혁신적인 아이디어의 탄생과 진화를 보여주는 그래프와 계통수를 보여주면서 알고리즘 내에서 일어나는 진화 과정에 대한 통찰력을 제공합니다. 또한 그는 알고리즘과 그 출력이 AI가 아닌 인간이 만든 예술로 오인되어 예술적 튜링 테스트를 통과했다고 공유합니다.

  • 00:40:00 이 섹션에서 Jeff Clune은 성능이 우수하고 목표를 전환할 수 있는 다양한 솔루션을 생성할 수 있는 품질 다양성(QD) 알고리즘에 대한 아이디어를 소개합니다. 그는 손상에 적응할 수 있는 로봇과 Montezuma의 Revenge 및 Pitfall과 같은 어려운 탐사 과제를 탐색하는 것과 같은 과제를 해결하는 데 사용하는 방법에 대해 논의합니다. 그는 QD 알고리즘이 혁신할 수 있는 잠재력이 있지만 아직 제한이 없으며 환경의 제약을 받는다고 지적합니다. 그런 다음 Jeff Clune은 흥미롭고 복잡하며 다양한 학습 환경과 솔루션을 끝없이 생성할 수 있는 POET(Paired Open-Ended Trailblazer) 알고리즘과 같은 개방형 알고리즘을 만드는 아이디어를 제안합니다. POET 알고리즘은 현재 에이전트 모집단에 대해 너무 쉽지도 어렵지도 않은 새로운 학습 환경을 생성하도록 설계되어 에이전트를 최적화하여 각 과제를 더 잘 해결하고 목표 전환을 허용합니다.

  • 00:45:00 이 섹션에서 Jeff Clune은 시스템이 한 환경에서 경쟁하고 진행한 다음 다른 환경으로 이동하는 기능인 "목표 전환"의 개념에 대해 설명합니다. 그는 점점 더 어려운 환경을 자동으로 생성하는 지형을 횡단하는 RL 알고리즘을 보여줍니다. Clune은 이것이 진행 상황을 측정하고 로컬 옵티마를 극복하는 방법이라고 설명합니다. 그는 'poet' 알고리즘을 제시하고 이것이 어려운 문제를 해결하는 유일한 방법임을 보여줍니다. 그는 새로 최적화된 로봇이 기존 환경을 침범하여 이전 화신을 대체하는 작업에서 볼 수 있듯이 로컬 옵티마를 극복하기 위해 시가 필수적임을 보여줍니다. Clune은 이러한 유형의 복잡한 혁신이 보다 발전된 시뮬레이션을 위한 길을 열 수 있다고 말합니다.

  • 00:50:00 강의의 이 섹션에서 Jeff Clune은 신체 최적화와 환경 생성을 결합하여 동굴 거주 거미와 같은 방식으로 특정 환경에 최적화된 생물을 만드는 가능성에 대해 논의합니다. 그는 또한 Dali와 같은 혁신 엔진을 도전과 솔루션을 발명한 다음 생성된 이미지, 비디오, 음악 또는 시에서 흥미롭게 새로운 것을 감지하는 알고리즘과 결합할 것을 제안합니다. Clune은 그의 연구팀이 심층 신경망이 분류하는 이미지에 대해 얼마나 많은 것을 이해하는지 연구하는 분야인 AI 신경과학도 탐구했다고 언급합니다. 그들은 특정 뉴런을 최대로 활성화하는 이미지를 합성하고 네트워크에서 다리가 다섯 개인 불가사리의 개념을 탐구할 수 있었습니다.

  • 00:55:00 강의의 이 섹션에서 Jeff Clune은 자연 이미지 생성에 제약 조건을 추가하는 것부터 딥 러닝을 사용하여 자연 이미지 사전을 학습하는 것까지 딥 러닝 이미지 생성의 진화에 대해 설명합니다. 알고리즘을 약간 조정하면 각 생성기에서 매우 다른 예술적 스타일이 생성됩니다. 신경망은 자연 이미지의 공간과 같은 특정 공간에서 각 객체가 의미하는 바를 이해하고 보다 사실적인 품질의 이미지를 생성할 수 있습니다. 그러나 이러한 자연스러운 이미지 공간에서는 다양성이 거의 생성되지 않습니다. 이 문제를 극복하기 위해 이전에 딥 러닝에서 보았던 것보다 훨씬 더 다양한 이미지를 생성하는 플러그 앤 플레이 생성 네트워크가 도입되었습니다.

  • 01:00:00 강의의 이 섹션에서 Jeff Clune은 AI 신경과학의 발전과 개방형 창의적 프로세스 생성에 대해 논의합니다. 그는 AI가 화산이나 잔디 깎는 기계와 같은 우리 세계의 개념을 인식하고 학습할 수 있지만 적대적 이미지를 생성하고 인식하는 데 취약한 방법을 강조합니다. Clune은 Chris Ola의 작업을 추천하고 음성 및 비디오와 같은 다양한 모드를 탐색하는 그의 팀 작업에 대해 이야기합니다. 그는 또한 실제 원숭이 뇌 내에서 뉴런을 활성화하는 합성 이미지 생성을 포함하여 이 분야의 발전과 미래 잠재력에 대한 흥분을 공유합니다. Clune은 과학이 종종 미적 인공물을 생성하고 현대 기계 학습 도구가 예술과 과학의 병합을 허용하는 방법을 제안합니다. 마지막으로 그는 끝없이 창의적인 개방형 프로세스를 만드는 임무에 참여하는 데 관심이 있는 학생들에게 Ken Stanley와 Joel Lehman의 작품을 읽을 것을 권장합니다.

  • 01:05:00 이 섹션에서 Jeff Clune은 개방형 알고리즘이 인공 일반 지능의 발전을 지원할 가능성이 있다고 설명합니다. 그는 이러한 알고리즘이 일반 AI를 생성하는 경로가 될 수 있는 방법을 탐구하는 AI Generating Algorithms 논문을 읽을 것을 권장합니다. Jeff는 또한 연구자들이 이러한 아이디어를 다양한 영역에 적용하고 GPT-3 또는 Dolly와 같은 도구를 사용하도록 권장합니다. 그는 시나 건축과 같은 다양한 분야에서 손쉬운 열매를 탐구하는 것이 흥미로운 발전으로 이어질 수 있다고 제안합니다. Jeff는 또한 다중 에이전트 설정에서 Poet 알고리즘을 사용하는 것과 관련된 Joseph의 질문에 답하고 이러한 환경에서 에이전트 성능을 측정하기 어려운 것과 같은 발생하는 문제에 대해 논의합니다.
 

MIT 6.S192 - 강의 15: Joel Simon의 "Creative-Networks"



MIT 6.S192 - 강의 15: Joel Simon의 "Creative-Networks"

이 강의에서 Joel Simon은 자연 생태계에서 끌어온 창의적인 네트워크에 대한 그의 영감과 접근 방식을 탐구합니다. 그는 토폴로지 최적화, 모르포겐, 진화 알고리즘과 같은 기술이 놀라운 형태와 질감의 출현을 가능하게 하는 방법을 설명하면서 창의적인 프로세스에서 계산 능력의 잠재력을 보여줍니다. Simon은 또한 CPPN 및 GAN을 사용하여 이미지를 검색하고 변경하기 위한 온라인 도구인 GANBreeder 프로젝트에 대한 세부 정보를 공유하고 창의적인 프로세스에서 교차 추천 시스템의 잠재력에 대해 논의합니다. Simon은 기술과 창의성의 미래에 대해 낙관하며 인간이 건물의 기능을 협력하고 최적화하고 더 큰 것을 창조할 수 있다고 믿습니다.

  • 00:00:00 이 섹션에서는 Joel Simon이 창의적인 네트워크 작업에 대한 배경과 영감을 설명합니다. 그는 고독한 천재라는 개념에 대한 Brian Eno의 비판을 강조하고 함께 작용하는 다양한 힘의 창발적 산물로서 창의성을 정량화할 수 있는 방법을 설명합니다. Simon은 또한 조각 작업을 향한 그의 여정에 대해 이야기합니다. 이 여정을 통해 디지털과 계산의 차이를 강조하면서 계산적인 창작 방법을 배우고 탐구하게 되었습니다.

  • 00:05:00 이 섹션에서 Joel Simon은 대학 시절에 발견한 계산 설계 및 토폴로지 최적화 작업에 대한 영감을 설명합니다. Simon은 전통적인 의미로는 결코 만들 수 없었던 새로운 형태를 생성하는 토폴로지 최적화 기능에 매료되어 그 잠재력을 더 탐구하고자 했습니다. 그러나 그는 단순한 최적화 기술을 넘어 건물이 나무처럼 자랄 수 있는 적응성 및 환경과 같은 실제 자연의 요소를 통합해야 한다는 것을 깨닫고 생성적 건축에 대한 실험을 수행했습니다. 그의 작업은 건축 디자인에 기초했을 뿐만 아니라 그래프 시뮬레이션 방법과 계산 디자인의 복잡성과 혁신 증가에 대한 영감으로 진화된 가상 생물을 사용했습니다.

  • 00:10:00 이 섹션에서 발표자는 특히 반응 확산과 관련하여 성장 과정에서 패턴 정보 및 모르포겐의 사용에 대해 논의합니다. 그는 이러한 패턴이 예술에서 질감을 생성하는 데 사용될 수 있다고 설명하고 간단한 네트워크를 위치에서 색상으로 매핑하고 이미지로 변환하는 데 사용되는 Jeff의 CPPN에 대해 설명합니다. 이러한 성장 아이디어를 더 발전시키기 위해 발표자는 3D 메쉬의 정점에서 모르포겐을 사용하여 정점이 이동하고 방출하는 방향을 제어하는 "Evolving Alien Corals" 프로젝트를 만들었습니다. 이것은 놀라운 형태를 낳는 합성 효과를 허용했습니다. 산호의 색상은 예쁜 패턴을 생성하는 것이 아니라 최적화되는 모르포겐입니다. 이 프로젝트는 또한 형태가 피트니스 기능을 따르는 형태를 구동하기 위해 힘이나 목표로 조각할 수 있다는 아이디어를 보여줍니다. 연사는 또한 생태계의 개념과 중간 교란의 양으로 최적의 다양성에 도달하는 중간 교란 가설에 대해 간략하게 설명합니다.

  • 00:15:00 이 섹션에서 Joel Simon은 자연 생태계에서 끌어오는 창의적인 네트워크에 대한 그의 매력에 대해 이야기하고 이러한 풍경이 패턴을 조각하고 조작하는 데 어떻게 도움이 되는지 탐구합니다. 그는 생태계 붕괴를 보는 것이 어떤 것인지 또는 외래종이나 서로 다른 섬을 병합하는 것과 같은 교란이 생태계에 어떤 영향을 미칠 것인지에 대한 질문을 던집니다. Simon은 다목적 문제에 대한 해결책으로서 설형 문자와 서예 아이디어에서 영감을 받았습니다. 다양한 방법을 실험하기 위해 Simon은 시끄러운 매체를 통해 통신을 위한 패턴 인식을 생성하는 사용자 지정 신경 아키텍처를 만들었습니다. 각 형식은 인식 가능하고 상호 구별되며 결과적으로 다른 언어가 출현했습니다. 나중에 그는 이 시스템을 협력적이면서도 적대적이 되도록 수정하여 서로 비슷하지만 다른 방식으로 기능을 유지하는 고유한 서예 세트를 생성했습니다.

  • 00:20:00 이 섹션에서 Joel Simon은 Matisse의 자화상 및 Conways의 Game of Life와 같은 다양한 소스에서 영감을 받은 생성 예술 프로젝트에 대해 설명합니다. 그는 유전자 알고리즘을 사용하여 초상화를 만들고 인공 생명을 위한 생성 아키텍처의 개념을 탐구했습니다. Simon은 또한 신경망을 사용하여 생물의 이미지를 생성한 다음 선택적으로 사육하여 새롭고 흥미로운 디자인을 만드는 픽 육종가 프로젝트에서 어떻게 영감을 받았는지에 대해 이야기합니다.

  • 00:25:00 이 섹션에서 연사는 CPPN 및 GAN을 사용하여 이미지를 검색하고 변경하기 위한 온라인 도구인 GANBreeder를 만드는 영감에 대해 설명합니다. 그는 위대함이 계획될 수 없다는 생각에서 영감을 얻었고 이 도구에서 사용되는 알고리즘을 강화하는 데 도움이 될 수 있는 인간에 대한 타고난 관심에 흥미를 느꼈습니다. 그는 GAN에 대해 더 깊이 파고들어 GAN의 잠재 벡터가 크로스오버에 사용되는 데 필요한 속성을 가지고 있음을 인식하여 자녀의 이미지가 두 부모 모두를 닮도록 합니다. 발표자는 다양한 유형의 창의성에 대해 이야기하고 자신의 도구가 BigGAN과 Picbreeder를 결합하여 GANBreeder를 만든 조합적인 것이라고 말합니다. 그는 또한 GANBreeder를 사용하여 사용자가 이미지를 생성할 수 있는 세 가지 방법, 즉 임의의 자식을 가져오고 두 이미지를 함께 혼합하고 이미지의 유전자를 편집하는 방법에 대해 설명합니다.

  • 00:30:00 강의의 이 섹션에서 Joel Simon은 개방형에서 중간에 그라데이션이 있는 의도에 이르기까지 탐색 단계 측면에서 창의적인 프로세스에 대해 논의합니다. 이미지를 만들고 만드는 다양한 방법으로 무성 생식, 유성 생식, 크리스퍼와 같은 생물학적 유사점이 언급됩니다. 그런 다음 사이먼은 인간이 128차원으로 생각할 수 없기 때문에 상호 작용하고 협력적인 탐색의 중요성을 강조하면서 자신이 만든 이미지의 예와 이를 구성하는 유전자를 제공합니다. Simon은 ArtBreeder가 아이디어와 영감을 찾는 도구로 사용될 수 있다는 생각으로 결론을 내리고 사용자가 기계 학습에 관심이 있는 사람들과 관련된 자신의 유전자를 만들 수 있는 최근 기능을 언급합니다.

  • 00:35:00 이 섹션에서 Simon은 자신의 프로젝트인 Ganbreeder가 태그 이미지의 크라우드 소스 에코시스템을 활용하는 방법을 설명합니다. 이미지에서 미묘한 특성의 샘플을 수집함으로써 사용자는 이를 도구 또는 필터로 전환하여 더 강력한 유전자를 생성할 수 있습니다. 이 프로젝트는 어떤 이미지가 가장 흥미로운지 묻는 간단한 이미지 그리드로 시작되었습니다. 그러나 사용자들은 역사적인 인물을 색칠하기 위해 사진을 업로드하거나, 드레스를 만들거나, 심지어 캐릭터 위에 그림을 그리는 등 예상치 못한 방식으로 Ganbreeder를 사용하고 있습니다. Simon은 실험이 실제로 작동하도록 하기 위해 두 가지가 함께 가야 했기 때문에 실제로 간이 아니라 인터페이스였다고 강조합니다.

  • 00:40:00 비디오의 이 섹션에서 Joel Simon은 현재 기존 추천 엔진에서 사용되지 않는 변형의 잠재 차원을 활용하는 교차 추천 시스템 도구를 만드는 잠재적인 힘에 대해 논의합니다. 그는 작업할 때 노래에 가사가 있는지 여부를 키울 수 없는 예를 사용하여 추천 엔진이 그와 같은 사용자가 이러한 변형 차원을 고려하는 도구를 만드는 데 도움이 될 수 있다면 훨씬 더 강력한 추천을 할 수 있다고 제안합니다. . Simon은 또한 창의적인 도구의 소유권과 공동 작업에 대한 아이디어를 탐구하며, 많은 사람들이 공동으로 제작했기 때문에 아무도 예술을 "소유"하지 않는 곳에서 그가 큐레이팅한 대화형 예술 쇼를 설명합니다.

  • 00:45:00 이 섹션에서 Joel Simon은 창의적인 과정에서 계산 능력의 잠재력과 대조되는 인간 사고의 한계에 대해 논의합니다. 인간은 명확한 계층 구조로 생각하고, 일상적으로 생각하고, 복잡하게 겹쳐서 생각하지 않는 등 우리의 생각에 특정한 편견을 가지고 있습니다. Simon은 공동 작업 촉진, 탐색, 새로운 매체 허용 및 은유가 어떻게 새로운 창의적 프로세스로 이어질 수 있는지에 대해 설명합니다. 이 과정에서 크리에이티브 디렉터와 아티스트의 대화는 필수적이며, 디렉터는 아티스트의 창의성을 이끌어갑니다. Simon은 컴퓨팅 및 창의성의 미래에 대해 낙관적이며 아티스트와 크리에이티브를 대체하는 것이 아니라 다른 사람들과 공유하는 새로운 아트워크를 만들기 위해 도구를 사용하는 것이 사람 중심이 될 것이라고 믿습니다.

  • 00:50:00 이 섹션에서 Joel Simon은 창의성과 기술 발전이 예술가를 대체할 것이라는 오해에 대해 논의합니다. 그는 그러한 발전이 모든 사람이 창의적인 표현에 더 쉽게 접근할 수 있게 해줄 뿐이라고 믿으며 창의성은 인간의 타고난 욕구이자 그 자체로 목적이라고 말합니다. 사이먼은 인간의 인지 능력을 넘어서는 디자인을 위한 협업 프로세스를 생성하기 위해 자연 번식 과정을 적용하고 생체모방을 사용하는 형태형성 디자인 개념을 제안하면서 끝을 맺습니다. 그는 인간이 더 큰 창의적 연결 조직의 일부이며 이 더 큰 시스템에서 프로젝트에 대한 영감을 얻는다고 강조합니다.

  • 00:55:00 이 섹션에서 Joel Simon은 복잡한 생태계로서 서로 조화를 이루는 건물의 생태계를 구축하는 기술의 미래에 대한 낙관적인 견해에 대해 이야기합니다. 그는 새로운 은유와 기술을 통해 사람들이 이해할 수 없는 방식으로 이러한 건물의 기능을 협력하고 최적화할 수 있다고 믿습니다. 기술에는 장단점이 있지만 기계와 인간 사이의 대화에 대한 Simon의 긍정적인 전망은 기술이 사람들을 하나로 모아 더 큰 것을 만들 수 있는 미래에 대한 통찰력을 제공합니다.
 

MIT 6.S192 - 강의 16: "계산으로서 예술에 대한 인간의 시각 인식" Aaron Hertzmann



MIT 6.S192 - Lec. 16: "계산으로서의 예술에 대한 인간의 시각 인식" Aaron Hertzmann

강의는 예술의 지각적 모호성과 불확정성과 모호한 이미지를 생성하는 GAN(Generative Adversarial Networks)의 사용을 탐구합니다. 시청 시간이 지각에 미치는 영향과 이미지 엔트로피와 인간 선호 사이의 관계에 대해 논의합니다. 강사는 예술이 사회적 관계를 맺을 수 있는 행위자에 의해 창조된다는 예술의 진화론을 제안합니다. 알고리즘이 유용한 도구가 될 수 있지만 인간 예술가를 대체할 수 없다는 결론과 함께 예술에서의 AI 사용에 대해서도 논의합니다. 강의는 가치와 같은 개념에 대한 몇 가지 설명으로 끝납니다.

  • 00:00:00 이 섹션에서 화자는 현대 미술에서 중요한 주제인 지각적 모호성과 불확정성에 대해 논의합니다. 그는 해석이 다양한 이미지로 인해 시청 시간이 변경될 수 있고 서로 다른 인식 간에 앞뒤로 전환되어 개인의 선택에 영향을 미칠 수 있다고 설명합니다. 시각적 불확정성(visual indeterminacy)은 단순하고 일관된 해석이 나오는 것처럼 보이지만 일관된 형태로 해결되지 않는 이미지를 묘사하는 데 사용되는 용어로, 이 주제는 현대, 특히 큐비즘과 함께 대중화되었습니다. 심리학 문헌은 지각적 모호성과 이 모호성의 공간을 설명하는 방법에 대해 논의하고 연구했지만, 최근 몇 년 동안 생성적 적대자가 등장하기 전까지는 비교 가능한 자극을 찾고 모호성을 측정하는 데 어려움이 있었습니다.

  • 00:05:00 이 섹션에서 발표자는 예술 창작에 GAN을 사용하는 것과 이러한 유형의 이미지가 나타낼 수 있는 자연스러운 시각적 모호성에 대해 논의합니다. 팀은 참가자에게 짧은 시간 동안 이미지를 보여주고 설명을 요청하는 연구에서 이러한 이미지를 사용했습니다. 결과는 지각적 불확실성과 모호성이 높은 수준의 이미지가 참가자의 설명 범위를 넓히는 결과를 낳았음을 보여주었습니다. 또한 시청 기간은 이미지를 설명하는 데 사용되는 단어의 수와 다양성에 영향을 미쳤으며 참가자는 더 긴 노출로 더 일관된 해석에 수렴했습니다.

  • 00:10:00 이 섹션에서 강사는 이미지 엔트로피와 모호한 이미지에 대한 인간의 선호 사이의 관계에 대해 논의합니다. 팀은 낮은 엔트로피 이미지를 선호하는 사용자와 높은 엔트로피 이미지를 선호하는 두 가지 범주의 사용자가 있음을 발견했습니다. 그러나 사용자를 이러한 범주로 클러스터링하는 것은 특정 유형의 이미지에 대한 선호도를 예측하는 데만 성공했으며 올바른 정보를 추출하려면 더 많은 자연어 처리가 필요합니다. 계속해서 예술의 정의와 컴퓨터가 예술을 창조할 수 있는지 여부를 탐구합니다. 예술에 대한 현재의 정의는 외계인이 창조한 것과 같은 새로운 예술 형식을 일반화하지 않기 때문에 부적절합니다. 대신 화자는 예술의 진화론을 제안하는데, 예술은 사회적 관계와 사회적 활동이 가능한 행위자에 의해 창조된다는 것입니다. 이것은 컴퓨터가 예술가가 될 수 있다는 결론으로 이어지지만, 이 대화는 비전문가에게 잘못된 이해를 줄 수 있기 때문에 잘못된 것입니다.

  • 00:15:00 이 섹션에서 연사는 예술에 대한 인간의 인식과 예술이 만들어지는 방식을 이해하기 위해 컴퓨터에서 아이디어를 사용하는 방법에 대해 논의합니다. 그는 컴퓨터가 인격이나 사회적 관계를 갖기 전까지는 예술가가 될 수 없다고 주장합니다. 그러나 컴퓨터는 예술적 창의성을 위한 강력한 도구이며 예술적 창작을 위한 새로운 도구를 제공합니다. 연사는 또한 AI 예술이 접근성이 높아질수록 가치를 잃을 것이라는 생각을 반박하며 최고의 AI 예술가들이 코딩을 실험하고 신중하게 결과를 선택하고 있다고 지적합니다.

  • 00:20:00 이 섹션에서 Hertzmann은 예술에서의 인공 지능(AI) 사용에 대해 논의하고 인간의 선호도를 기반으로 예술을 생성할 수 있는 기계가 예술가로 간주될 수 있는지 질문합니다. 그는 현재의 AI 알고리즘은 단순히 지시를 따르는 것일 뿐, 인간 예술가의 창의성이 없다고 주장한다. 그러나 그는 알고리즘이 예술적 프로세스와 선호도를 모델링하여 예술을 만들고 큐레이팅하는 데 유용한 도구가 될 수 있다는 가능성에 흥분하고 있습니다. 궁극적으로 Hertzmann은 예술이 문화와 시간의 산물이기 때문에 알고리즘이 인간 예술가를 대체할 수 있다고 믿지 않습니다.

  • 00:25:00 이 섹션에서는 가치와 같은 개념에 대해 논의한 후 몇 가지 결론을 내립니다. 이러한 개념이나 새로운 토론 주제에 대한 중요한 정보는 제공되지 않습니다. 연사는 계몽적이고 영감을 주는 연설에 대해 감사를 표합니다.
 

MIT 6.S192 - 강의 17: Zoya Bylinskii의 "그래픽 디자인 서비스에서 AI 사용"



MIT 6.S192 - 강의 17: Zoya Bylinskii의 "그래픽 디자인 서비스에서 AI 사용"

Adobe의 연구 과학자인 Zoya Bylinskii는 이 강의에서 그래픽 디자인과 인공 지능(AI)의 교차점을 탐구합니다. Bylinskii는 AI가 지루한 작업을 자동화하고 디자인 변형을 생성하여 디자이너를 대체하는 것이 아니라 지원하기 위한 것이라고 강조합니다. Bylinskii는 대화형 디자인 도구 및 AI 생성 아이콘 아이디어를 포함하여 AI 지원 도구의 예를 제공합니다. 또한 Bylinskii는 창의적 사고, 큐레이션, 다양한 분야의 전문가와의 작업에 대한 필요성을 포함하여 AI를 그래픽 디자인에 적용할 때의 과제와 잠재력에 대해 논의합니다. 그녀는 그래픽 디자인을 위한 AI 및 기계 학습에 관심이 있는 후보자에게 프로젝트 경험을 보여주고 연구 기회를 추구하도록 조언합니다.

  • 00:00:00 이 섹션에서는 Adobe의 연구 과학자인 Zoya Bylinskii가 AI가 그래픽 디자인 서비스에 어떻게 사용될 수 있는지 설명합니다. Bylinskii는 그래픽 디자인과 AI의 교차점과 그래픽 디자인의 다양한 문체 형태를 학습하고 자동화할 수 있는 계산 모듈로 분해할 수 있는 방법에 대해 이야기합니다. 그녀는 AI가 디자이너를 대체하기 위한 것이 아니라 디자이너가 지루한 작업을 자동화하고 빠른 탐색을 통해 디자인 변형을 자동으로 생성하는 동시에 디자이너를 디자인 프로세스 및 큐레이션의 중심으로 유지하도록 한다고 강조합니다. Bylinskii는 이러한 목표에 대한 두 가지 예를 제공합니다. 다양한 폼 팩터 및 종횡비에 맞게 디자인 크기 조정 및 배치, 아이콘, 로고 또는 유사한 디자인 자산을 만들 때 가능한 많은 시각적 표현을 순환합니다.

  • 00:05:00 이 섹션에서 Zoya Bylinskii는 디자인 자동화가 지루함을 최소화하고 보다 효율적인 반복 프로세스를 촉진하여 디자인 프로세스의 속도를 높이는 방법에 대해 설명합니다. Bylinskii는 계속해서 기계 학습이 디자인에서 시각적 중요성을 예측하고 다양한 디자인에서 시각적으로 눈에 띄고 관심을 끄는 것을 학습함으로써 그래픽 디자이너를 위한 보다 효과적인 지침을 만드는 방법을 설명합니다. Bylinskii와 그녀의 동료는 주석 도구를 활용하여 이 중요도 개념에 대해 모델을 교육하기 위해 수천 개의 이미지-주석 쌍으로 구성된 데이터 세트를 선별했습니다. 분류 모듈을 사용하여 테스트 시간에 디자인의 가장 두드러진 영역을 예측하고 설계자를 안내했습니다. 다른 디자인 요소를 배치할 위치.

  • 00:10:00 이 섹션에서 Zoya Bylinskii는 그래픽 디자인에서 인공 지능(AI)을 사용하는 두 가지 응용 프로그램에 대해 설명합니다. 첫 번째 응용 프로그램은 작은 신경망을 사용하여 다양한 디자인 요소의 예측된 중요도를 실시간으로 지속적으로 재계산하는 대화형 디자인 도구를 포함합니다. 이 도구는 또한 히스토그램을 제공하며 사용자가 각 요소의 중요도 수준을 조정하여 디자인을 조작할 수 있도록 합니다. 두 번째 응용 프로그램은 AI를 사용하여 일반적인 시각적 개념에 해당하는 새로운 아이콘을 만드는 아이콘 생성 아이디어와 관련이 있습니다. Bylinskii는 이 두 애플리케이션 모두 AI 지원 그래픽 디자인 도구에서 중요도 모델을 사용하기 위한 유망한 새로운 방향을 제시한다고 설명합니다.

  • 00:15:00 이 섹션에서 발표자는 스시 배달과 같이 기존 아이콘이 없는 개념에 대해 새로운 아이콘을 만들려고 할 때 디자이너가 직면하는 문제에 대해 설명합니다. 이 프로세스에는 수동 작업, 영감을 얻기 위한 관련 개념 검색, 기존 아이콘의 재조합 및 편집이 필요합니다. 이 프로세스를 단순화하기 위해 발표자는 복합 아이콘 생성을 위한 새로운 AI 기반 파이프라인을 소개합니다. 이 시스템은 공간, 스타일 및 의미론을 결합하여 스타일상 호환 가능하고 쿼리된 개념과 의미론적으로 관련된 복합 아이콘을 생성합니다. AI 기반 파이프라인에는 쿼리를 관련 단어로 분해하고, 스타일이 호환되는 아이콘을 찾고, 원하는 메시지를 전달하기 위해 결합하는 작업이 포함됩니다.

  • 00:20:00 이 섹션에서 Bylinskii는 AI를 사용하여 새로운 디자인을 만들기 위한 호환 가능한 아이콘 조합 및 레이아웃을 제안하는 Iconate라는 프로젝트에 대해 설명합니다. 시스템은 스타일이 호환되는 아이콘을 제안하는 임베딩 공간과 구성 아이콘의 레이아웃을 정의하는 템플릿 기반 접근 방식을 학습합니다. Iconate는 주석이 달린 개별 구성 요소가 있는 1,000개의 복합 아이콘으로 구성된 CompyCon1k 데이터 세트를 사용하여 훈련되었습니다. Bylinskii는 시스템을 통해 사용자가 독립 실행형 디자인 도구보다 훨씬 빠르게 복합 아이콘을 만들 수 있으며 사용자가 생각할 수 있는 모든 개념에 대한 아이콘을 빠르게 생성하는 데 사용할 수 있다고 설명합니다. 그녀는 또한 인간의 창의성을 대체하는 것이 아니라 디자인 프로세스를 용이하게 하는 것을 목표로 하는 로고 합성 및 레이아웃 개선 시스템과 같은 다른 AI 기반 디자인 도구를 강조합니다.

  • 00:25:00 이 섹션에서 발표자는 텍스트, 통계 및 작은 시각화를 포함하여 인포그래픽을 만드는 데 AI를 사용하는 방법에 대해 논의합니다. 그녀는 또한 이 작업이 다양한 커뮤니티와 회의에 걸쳐 퍼져 있으며 GAN을 사용하여 GUI 디자인을 생성하는 것과 같은 컴퓨터 비전의 예를 제공한다고 언급합니다. 그녀는 컴퓨팅 그래픽 디자인 및 창의성을 위한 데이터 세트를 포함하여 사용 가능한 많은 리소스가 있다고 언급하고 Behance 예술적 미디어 데이터 세트와 이미지 및 비디오 광고 데이터 세트의 자동 이해를 간략하게 언급합니다.

  • 00:30:00 이 섹션에서 발표자는 디자인 워크플로 내에서 구성 요소를 자동화하는 데 사용할 수 있는 모델과 도구에 대해 논의합니다. 많은 자동 도구가 그다지 창의적이지 않지만, 자동화되었지만 고도로 창의적인 워크플로의 공간. 그녀는 학생들이 이 공간을 스스로 탐구하고 학제 간 생각을 생성하도록 격려하여 계산과 디자인의 인터페이스에서 흥미로운 응용 프로그램으로 이어질 수 있습니다. 토론은 또한 그래픽 디자인에서 현재의 텍스트-비주얼 모델의 한계와 벡터 그래픽을 생성할 수 있는 새로운 모델의 가능성에 대해 다룹니다.

  • 00:35:00 이 섹션에서 발표자는 웹에서 인포그래픽을 검색하고 시각 장애인을 위해 주석을 달기 위해 주어진 인포그래픽에서 캡션을 생성하는 것을 목표로 하는 프로젝트에 대해 논의합니다. 하지만 인포그래픽에서 비주얼과 아이콘을 추출하기 위해 기존 물체 감지기를 사용할 수 없어 문제가 발생했습니다. 이로 인해 합성 데이터를 사용하여 아이콘 감지기를 훈련시키는 방법이 개발되어 결국 아이콘 감지가 가능해졌습니다. 나중에 학생들은 복잡한 그래픽 디자인에서 추상적인 개념을 시각화하는 방법을 이해하는 데 사용할 수 있는 아이콘과 근처의 텍스트 사이의 결합 임베딩을 학습할 가능성을 탐구했습니다. 발표자는 AI가 디자이너를 대체하기 위한 것이 아니라 디자이너를 돕기 위한 것이며 큐레이션은 작업의 중요한 측면으로 남을 것이라고 강조합니다.

  • 00:40:00 이 섹션에서 발표자는 AI 생성 그래픽 디자인 영역에서 디자이너의 역할에 대해 논의합니다. 모델을 훈련시켜 디자인을 생성하는 것은 가능하지만 완전히 새로운 디자인을 만들도록 모델을 훈련시키는 것은 어렵습니다. 따라서 디자이너는 현재 매니폴드를 넘어서는 새로운 자산과 구성 요소를 도입할 수 있으며, 이를 사용하여 자동으로 새로운 디자인을 조작하고 생성할 수 있습니다. 연사는 또한 큐레이션의 필요성을 강조합니다. 디자이너는 훈련 과정을 개선하기 위해 쓰레기와 쓰레기가 아닌 쌍을 식별하는 데 도움을 줄 수 있기 때문입니다. 또한 발표자는 다양한 문화에 디자인을 적용하는 것이 충분한 데이터 부족으로 인해 여전히 어려운 과제라고 지적합니다. 마지막으로 발표자는 추가 개발을 위해 기존 제품 팀에 통합할 수 있는 대규모 연구 아이디어를 제공하는 것을 목표로 하는 Adobe와 같은 회사의 연구 과학자의 역할을 설명합니다.

  • 00:45:00 이 섹션에서는 Zoya Bylinskii가 실용적인 제품을 만들기 위해 그래픽 디자인에 AI를 적용하는 문제에 대해 설명합니다. 그녀는 문제를 다른 기술 제품에 이식할 수 있는 방식으로 문제를 개념화하고 회사에 연구 아이디어를 제시하고 전문 지식을 위해 다른 분야의 전문가와 협력해야 할 필요성을 강조합니다. Bylisnkii는 학생과 인턴에게 엔지니어링, 연구 또는 제품 인턴으로 자리를 잡을 기회를 개선하기 위해 강력한 컴퓨팅 도구 세트를 개발하라고 조언합니다.

  • 00:50:00 이 섹션에서 연사는 그래픽 디자인을 위한 AI 및 기계 학습에 관심이 있는 지원자에게서 찾고 있는 기술에 중점을 둡니다. 그들은 소프트웨어 도구와 기계 학습에 능숙해야 한다고 강조합니다. 코스 형식뿐만 아니라 Github의 예제와 함께 프로젝트 형식으로 경험을 보여줄 것을 권장합니다. 그들은 후보자가 새로운 아이디어를 개념화하고 새로운 방식으로 적용하기 위해 기존 모델과 라이브러리를 뛰어넘어 창의성과 혁신을 보여줄 필요가 있다고 제안합니다. 응시자는 대학 연구실에서 연구 경험이나 기술 직책을 추구해야 합니다. 그들은 특정 문제에 대해 특정 기간 동안 교수에게 접근하고 작업을 제안할 것을 권장합니다. 마지막으로 다른 연구자의 참고 문헌의 중요성을 강조하여 후보자의 창의성, 기술력 및 연구 적합성을 입증합니다.