이제 재교육 학습의 기본 구현을 보았으니 몇 가지 문제를 더 진행하여 매번 복잡성을 조금씩 증가시도록 하겠습니다. 안녕! 귀하의 기사를 그룹 보고서의 소스로 사용하고 이 문서의 예와 설명을 반 친구들에게 보여줄 수 있습니까? 이것은 정말 좋은 기사, 그것은 이해하기 쉬웠고, 그래서 나는 RL에 내 급우를 소개하기 위해 설명을 사용할 수 있다고 생각에서 초보자 개념을 이해하는 데 도움이되었습니다. 괜찮지 않다면 이해할 수 있습니다. 오늘은 환경과의 상호 작용을 기반으로 한 목표 중심 학습인 강화 학습을 탐구합니다. 강화 학습은 진정한 인공 지능의 희망이라고합니다. 그리고 그것은 바로 그렇게 말했다, 보강 학습이 가지고있는 잠재력이 엄청나기 때문에. 걷기 를 배우는 동안 자녀가 취할 단계는 다음과 같습니다 : 중요한 데이터 세트가 강화 학습 작업을 수행해야하기 때문에 더 많은 기업이 더 많은 데이터를 수집함에 따라 강화 학습 기능을 활용할 수 있습니다. 또한 강화 학습의 가치가 계속 증가함에 따라 기업은 운영, 서비스 및 제품에 기술을 구현하는 가장 좋은 방법을 파악하기 위해 리소스에 대한 투자를 계속할 것입니다. 강화 학습 문제를 해결하는 방법을 이해하기 위해, 강화 학습 문제의 고전적인 예를 통해 가자 – 멀티 무장 산적 문제. 첫째, 탐색과 착취의 근본적인 문제를 이해하고 RL 문제를 해결하기 위한 프레임워크를 정의합니다.

위의 예를 공식화하자, 예제의 «문제 문»은 자녀가 행동 (비주얼라이제이션 걷기)을 수행하여 환경을 조작하려는 에이전트 (걷는 표면)이며 한 상태 (각 비주얼라이제이션)에서 이동하려고시도하는 것입니다. 단계 는 다른 에 걸릴. 아이는 작업의 하위 모듈 (몇 걸음을 취하는 비주얼라이제이션)을 수행하고 걸을 수 없을 때 초콜릿 (일명 부정적인 보상)을받지 못할 때 보상 (초콜릿이라고 가정 해 봅시다)을 받습니다. 이것은 강화 학습 문제에 대한 간략한 설명입니다. RL과 다른 딥 러닝 아키텍처를 결합하려는 시도가 점점 더 많아지고 있으며 최근 인상적인 결과를 보였습니다. 보강 학습 에이전트는 별도의 시간 단계에서 해당 환경과 상호 작용합니다. t때마다 에이전트는 관측 o {디스플레이 스타일 o_{t}를 수신하며, 일반적으로 보상 r {디스플레이 스타일 r_{t}}를 포함합니다. 그런 다음 사용 가능한 작업 집합에서 t {displaystyle a_{t}}의 작업을 선택하여 이후에 환경으로 전송됩니다. 환경은 새 상태 s t + 1 {디스플레이 스타일 s_{t+1}}로 이동하고 보상 r t + 1 {디스플레이 스타일 r_{t+1}} 전환과 연관된 (s t, t, t + 1) {표시 스타일 (s_{t}, a_{t}, s_{t+1}}}}}}로 이동합니다. 강화 학습 에이전트의 목표는 가능한 한 많은 보상을 수집하는 것입니다. 에이전트는 기록의 함수로 모든 작업을 선택할 수 있습니다(임의로). 다음은 강화 학습을 위한 객관적인 기능의 예입니다.

즉, 목표를 정의하는 방식입니다. 웹 시스템에는 100개 이상의 구성 가능한 매개 변수가 있으며 매개 변수를 튜닝하는 과정에는 숙련된 연산자와 수많은 트레일 및 오류 테스트가 필요합니다.