Trong lĩnh vực khoa học máy tính, học tăng cường (tiếng Anh: reinforcement learning) là một phần của machine learning, nghiên cứu cách mà một agent trong một môi trường nên chọn các hành động để tối đa hóa một phần thưởng (reward) nhất định trong dài hạn. Các thuật toán học tăng cường cố gắng tìm một chiến lược để ánh xạ các trạng thái của thế giới sang các hành động mà agent nên chọn trong các trạng thái đó.
Môi trường thường được biểu diễn dưới dạng một quyết định Markov quá trình quyết định trạng thái hữu hạn (Markov decision process - MDP), và các thuật toán học tăng cường liên quan nhiều đến các kỹ thuật quy hoạch động trong ngữ cảnh này. Xác suất chuyển trạng thái và xác suất thu lợi trong MDP thường là ngẫu nhiên nhưng lại tĩnh trong quá trình của bài toán (stationary over the course of the problem).
Khác với học có giám sát, trong học tăng cường không có cặp dữ liệu vào/kết quả đúng, và các hành động gần tối ưu không được đánh giá là đúng hay sai một cách rõ ràng. Hơn nữa, hoạt động trực tuyến (on-line performance) được quan tâm, trong đó có việc tìm kiếm sự cân bằng giữa khám phá (thử nghiệm lãnh thổ chưa được khám phá) và khai thác (tri thức hiện có). Trong học tăng cường, sự đánh đổi giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài toán multi-armed bandit.
Mô hình học tăng cường bao gồm những thành phần sau:
- S: danh sách các trạng thái của môi trường;
- A: tập hợp các hành động; và
- : tập hợp các khoản 'thưởng' có giá trị vô hướng.
Tại mỗi thời điểm t, agent nhìn thấy trạng thái của nó là st S và tập hợp các hành động có thể A(st). Agent chọn một hành động aA(st) và nhận được từ môi trường trạng thái mới st+1 và một khoản thưởng rt+1. Dựa trên tương tác này, agent học tăng cường cần phát triển một chiến lược π:SA để cực đại hóa giá trị R=r0+r1+...+rn với MDP có trạng thái kết thúc, hoặc giá trị R=Σtγrt với MDP không có trạng thái kết thúc (với γ là hệ số giảm của khoản 'thưởng trong tương lai', với giá trị từ 0.0 đến 1.0).
Do đó, học tăng cường đặc biệt phù hợp với các vấn đề có sự cân bằng giữa các khoản thưởng ngắn hạn và dài hạn. Học tăng cường đã được áp dụng thành công trong nhiều lĩnh vực, bao gồm điều khiển robot, điều hành thang máy, viễn thông, các trò chơi backgammon và cờ vua.
Các thuật toán
Sau khi đã xác định một hàm phản hồi phù hợp cần tối đa hóa, ta cần chỉ rõ thuật toán sẽ được áp dụng để tìm chiến lược để đạt được kết quả trả về cao nhất. Có hai phương pháp chính để tiếp cận, đó là tiếp cận giá trị hàm và tiếp cận trực tiếp.
Phương pháp tiếp cận trực tiếp dẫn đến hai bước như sau:
- Với mỗi chiến lược có thể, thực hiện lấy mẫu kết quả khi áp dụng chiến lược đó.
- Chọn chiến lược có kết quả trả về kỳ vọng cao nhất.
Một vấn đề của phương pháp này là số lượng chiến lược có thể rất lớn, thậm chí vô hạn. Vấn đề khác là giá trị trả về có thể ngẫu nhiên, do đó cần một lượng lớn mẫu để ước tính chính xác kết quả của từng chiến lược. Phương pháp tiếp cận trực tiếp là cơ sở cho các thuật toán sử dụng trong lĩnh vực Robot tiến hóa.
Các vấn đề của phương pháp tiếp cận trực tiếp có thể được làm giảm nếu giả sử một cấu trúc nhất định trong bài toán và cho phép mẫu từ một chiến lược ảnh hưởng đến ước lượng của một chiến lược khác. Phương pháp tiếp cận hàm giá trị thực hiện điều này bằng cách giữ một tập hợp ước tính về giá trị trả về của chiến lược π (thường là chiến lược hiện tại hoặc chiến lược tối ưu). Trong các phương pháp tiếp cận như vậy, người ta cố gắng ước tính một trong hai hàm sau: giá trị trả về nếu bắt đầu từ trạng thái s và theo chiến lược π như sau,
- V(s) = E[R|s,π],
hoặc giá trị kỳ vọng trả về khi thực hiện hành động a trong trạng thái s và theo chiến lược π là,
- Q(s,a) = E[R|s,π],
Nếu có chiến lược tối ưu Q, ta luôn có thể chọn các hành động tối ưu một cách đơn giản bằng cách chọn hành động có giá trị cao nhất ở mỗi trạng thái. Để làm điều này với V, ta cần một mô hình môi trường, với các xác suất P(s'|s,a) để tính toán Q bằng công thức
hoặc có thể sử dụng phương pháp Actor-Critic, trong đó mô hình được chia thành hai phần: phần critic ước lượng giá trị trạng thái V, và phần actor có nhiệm vụ chọn hành động phù hợp trong mỗi trạng thái.
Cho một chiến lược cố định π, việc ước lượng E[R|.] với γ=0 là đơn giản, chỉ cần lấy trung bình của các khoản thưởng trực tiếp. Với γ>0, có thể lấy trung bình của tổng trả về sau mỗi trạng thái, nhưng phương pháp Monte Carlo yêu cầu kết thúc MPD.
Việc ước lượng γ>0 không đơn giản, nhưng việc này lại dễ dàng khi nhận ra giá trị kỳ vọng của R tạo thành phương trình đệ quy Bellman: E[R|s_{t}]=r_{t}+γ E[R|s_{t+1}].
Thay các giá trị kỳ vọng bằng các ước lượng của ta, V, và thực hiện thuật toán gradient descent với hàm chi phí lỗi bình phương, ta thu được thuật toán TD(0) - học học temporal difference. Các phương pháp SARSA và Q-Learning dành cho trường hợp rời rạc đơn giản nhất với các ước lượng bản cho mỗi trạng thái.
Các phương pháp này không chỉ hội tụ về ước lượng đúng cho một chiến lược cố định, mà còn có thể được sử dụng để tìm chiến lược tối ưu. Việc này thường được thực hiện theo chiến lược π rút ra từ các ước lượng hiện tại, luôn luôn chọn hành động với giá trị cao nhất và thỉnh thoảng chọn ngẫu nhiên để khám phá không gian.
Phương pháp không gian chiến lược định nghĩa chiến lược là hàm π(s,θ) với tham số θ. Các phương pháp leo đồi cho không gian chiến lược đã nhận được sự quan tâm lớn và việc áp dụng các phương pháp leo đồi đòi hỏi ước lượng độ dốc từ các mẫu nhiễu của kết quả trả về.
Nghiên cứu hiện tại đang tập trung vào các chủ đề như: Cách biểu diễn khác (ví dụ như cách tiếp cận Predictive State Representation - biểu diễn trạng thái tiên đoán), tìm kiếm leo đồi trong không gian chiến lược, kết quả hội tụ cho các MDP quan sát được một phần, và học tăng cường mô đun và phân cấp.
Gần đây, học tăng cường đã được áp dụng trong lĩnh vực Tâm lý học để giải thích quá trình học và hoạt động của con người. Cụ thể, học tăng cường được áp dụng trong các mô hình nhận thức giả lập để giải quyết các vấn đề học kỹ năng của con người (ví dụ, Fu & Anderson, 2006).
