Khoa học Tăm Tối Vẫn Còn Tăm Tối, Theo Lời Của Các Nhà Khoa Học

Khi Hristos Doucouliagos còn là một nhà kinh tế trẻ vào giữa những năm 1990, anh ta quan tâm đến mọi cách mà kinh tế sai lầm về chính mình—thiên lệch, nghiên cứu thiếu sức mạnh, thống kê lừa đảo. Không ai muốn nghe điều đó. “Tôi tham gia các buổi seminar và mọi người nói, ‘Bạn sẽ không bao giờ xuất bản điều này,’” Doucouliagos, hiện là giảng viên tại Đại học Deakin ở Úc, nói. “Họ nói, ‘điều này gần như là xúc phạm.’”
Nhưng giờ đây? “Các quy định đã thay đổi,” Doucouliagos nói. “Mọi người quan tâm đến điều này và quan tâm đến khoa học.” Anh ta biết điều này—anh ta là một trong những người tạo nên điều này. Trong số tháng 10 của Tạp chí Kinh tế danh tiếng, một bài nghiên cứu mà anh ta làm chung tác giả là trung tâm của một nửa chục bài nghiên cứu về đề tài về cuộc khủng hoảng sao chép riêng của kinh tế, một biến thể của vấn đề đang gặp trong các lĩnh vực từ tâm lý học đến hóa học và sinh học thần kinh.
Bài nghiên cứu thu thập hơn 6,700 đơn vị nghiên cứu cá nhân, tất cả là các phân tích siêu của chúng, mỗi cái chứa 64,076 ước lượng về kết quả kinh tế. Đúng vậy: Đó là một siêu-phân tích siêu. Trong trường hợp này, Doucouliagos chưa bao giờ phân tích siêu điều gì mà anh ta không ghét. Trong số các lĩnh vực được nghiên cứu trong bộ đề tài này, một nửa là thiếu sức mạnh thống kê—các nghiên cứu không thể chứng minh hiệu ứng mà chúng nói. Và hầu hết những nghiên cứu đủ mạnh để có sức mạnh thống kê đều đánh giá quá lớn về kích thước của hiệu ứng mà chúng cho là muốn thể hiện. Kinh tế có ảnh hưởng sâu rộng đến quyết định chính sách và hiểu biết về hành vi con người. Đối với một ngành khoa học, điều này là, một cách trung thực, tăm tối.
Một trong những tác giả của bài nghiên cứu là John Ioannidis, trưởng Trung tâm Đổi mới Nghiên cứu Siêu dữ liệu tại Stanford. Là tác giả của một bài nghiên cứu năm 2005 có tựa đề gây sốc “Tại sao Hầu hết Các Kết quả Nghiên cứu Được Xuất bản Là Sai Lầm,” Ioannidis có lẽ là thẩm phán chính của cuộc khủng hoảng sao chép. Chắc chắn, kinh tế đã có những nhà phê phán lớn tiếng của mình. Nhưng bây giờ, người bảo vệ đã đến thị trấn.
Đối với một lĩnh vực tham gia khá muộn vào bữa tiệc khủng hoảng sao chép, điều hỉ nộ ánh mắt là kinh tế nhận diện vấn đề về uy tín của chính mình sớm. Năm 1983, Edward Leamer, một nhà kinh tế tại UCLA, đăng một bài giảng ông gọi là “Hãy Loại Bỏ Chữ 'Ế' Ra Khỏi Phương pháp Thống kê Kinh tế.” Leamer chỉ trích đồng nghiệp về việc mới đó của việc thu thập dữ liệu thông qua quan sát và sau đó ghép nó vào mô hình. Trong thực tế, theo Leamer, những người thống kê kinh tế ghép dữ liệu của họ vào hàng nghìn mô hình thống kê, tìm ra mô hình hoạt động tốt nhất, và sau đó giả vờ như họ luôn sử dụng mô hình đó. Đây là công thức để thiên lệch có cơ hội xâm nhập.
Gần cùng thời điểm khi Leamer viết bài của mình, Colin Camerer—hiện là một nhà kinh tế tại Caltech—đang phải đối mặt với sự phản đối về sự quan tâm của mình đối với khả năng tái tạo. “Một trong những bài báo đầu tiên của tôi, vào những năm 1980, có tất cả dữ liệu và hướng dẫn được in trong bài báo. Ngày nay, tất cả sẽ được đăng trực tuyến,” Camerer nói. “Tôi đã có thể một cách áp đặt biên tập viên và nói, ‘Đây là cách khoa học hoạt động.’” Quan sát, giả thiết, thử nghiệm, thu thập dữ liệu, lặp lại.
Theo thời gian, mọi thứ đã cải thiện. Đến năm 2010, lĩnh vực này đang trải qua một “cách mạng uy tín,” theo Esther Duflo, một nhà kinh tế tại MIT và biên tập viên của Đánh giá Kinh tế Mỹ. Một số tạp chí hàng đầu bắt đầu phát hiện ra những trò lừa đảo như p-hacking, làm đẹp dữ liệu để có kết quả thuận lợi. Họ yêu cầu các bộ dữ liệu đầy đủ được đăng trực tuyến và kế hoạch nghiên cứu được đăng ký trước (để nhà nghiên cứu không thể thay đổi giả định sau sự kiện). Để xuất bản trong những tạp chí này, các nhà kinh tế hiện nay phải nộp mã nguồn thực tế họ sử dụng để thực hiện phân tích, và khác với những ngày xưa, nó phải hoạt động trên máy tính của người khác.
Đúng vậy, dữ liệu mở, mã nguồn có sẵn và đăng ký trước không luôn đảm bảo tính tái tạo. “Nếu tôi nhặt cuốn sách nấu ăn của Chrissy Teigen, nó có thể không có hương vị giống như khi ở nhà cô ấy,” Camerer nói, “mặc dù cô ấy chỉ cách đây 10 dặm và đã mua hàng ở cùng một cửa hàng.” Năm 2015, các nhà kinh tế tại Cục Dự trữ Liên bang và Bộ Tài chính cố gắng sao chép 67 bài báo bằng cách sử dụng dữ liệu và mã nguồn từ các tác giả gốc; họ có thể làm được mà không cần gọi điện thoại cho tác giả để được giúp đỡ chỉ với 22 bài. Đó là một chút u ám.
Một điều đã giúp cho kinh tế: sự tăng cường sự phụ thuộc vào dữ liệu thử nghiệm hơn là nghiên cứu kinh nghiệm hoặc quan sát. Các thử nghiệm kiểm soát ngẫu nhiên trong phòng thí nghiệm và trên thực địa ngày càng phổ biến hơn. Trong một bài nghiên cứu quan trọng khác, dành cho tạp chí danh tiếng Science, nhóm của Camerer cố gắng sao chép 18 bài viết từ hai tạp chí hàng đầu. Và kết quả là—đôi khi, hãy nói rằng cốc này chỉ đầy một nửa. Tất cả đều đủ mạnh thống kê để nhìn thấy hiệu ứng mà họ nói họ muốn thể hiện, và 11 trong số 18 có “một hiệu ứng đáng kể theo hướng giống như nghiên cứu gốc.”
Có lẽ quan trọng hơn, mọi người đều tán thành ý tưởng này. “Khi ai đó nói ‘Tôi muốn sao chép nghiên cứu của bạn,’ thường giống như khi Cơ quan Thuế gọi điện và nói họ muốn kiểm tra toán của bạn,” Camerer nói. “Nhưng khi chúng tôi gửi thư đến 18 nhóm nói, ‘Chúng tôi sẽ sao chép nghiên cứu của bạn,’ mỗi người trong số họ đều hợp tác khá tốt.”
Vấn đề là chỉ có một số tạp chí và lĩnh vực con trong kinh tế đã sẵn lòng đưa ra các tiêu chuẩn mới về thử nghiệm kiểm soát, tính mở cửa và khả năng tái tạo mà các khoa học xã hội khác—đặc biệt là tâm lý học hành vi—đã chấp nhận một cách lớn lao.
Điều này để lại rất nhiều vấn đề kinh tế—và sau những thất bại như khả năng dự đoán khủng hoảng nhà ở và những bất đồng chính trị liên quan đến những vấn đề như thuế và mức thu nhập, kinh tế dường như khá khó tin. Đó là lý do các nghiên cứu lớn về các nghiên cứ tổng hợp như nghiên cứu của Doucouliagos với Ioannidis và Tom Stanley đến, là loại công việc mà Ioannidis hiện tại chuyên về—đánh giá không chỉ các nghiên cứu cá nhân, như bài báo về tính tái tạo của Camerer, mà còn là toàn bộ các tác phẩm văn học, thu thập tất cả dữ liệu và thống kê được nhúng trong nhiều nghiên cứu tổng hợp cùng một lúc. Trong trường hợp này, đó không phải là thử nghiệm kiểm soát ngẫu nhiên. “Phần lớn lớn dữ liệu có sẵn là dữ liệu quan sát, và đây là điều khá nhiều trong những nghiên cứu tổng hợp này,” Ioannidis nói.
Loại tin tốt nhất có lẽ là gì? Theo nhóm của ông, kinh tế không tệ như vậy. Chắc chắn, sức mạnh thống kê quá thấp và thiên lệch hướng về việc phóng đại kích thước tác động. “Chúng tôi đã thấy mẫu hình này trong nhiều lĩnh vực khác,” Ioannidis nói. “Kinh tế và não học có cùng vấn đề.” (Vậy nên, tốt nhất không phải là tin tức tuyệt vời cho người hâm mộ của các nghiên cứu về quét não.) Nhưng điều đó cũng cho thấy Ioannidis không chỉ cố gắng “ném bom” vào kinh tế một cách cá nhân. “Không phải là một nhà kinh tế, hy vọng rằng tôi đã tránh được thiên lệch từ việc có một ý kiến mạnh về bất kỳ chủ đề nào,” ông nói. “Tôi thậm chí cũng không quan tâm đến những gì được đề xuất đã được tìm thấy.”
Bài báo đó ít nhất cũng đánh dấu, rằng trong khi ở cấp độ cực kỳ xuất sắc và ở một số lĩnh vực, kinh tế đang giải quyết vấn đề của mình, ở nơi khác những vấn đề quen thuộc vẫn còn. Việc làm đất nền không được động viên bởi biên tập viên tạp chí và ủy ban quản trị giáo sư vẫn không được đền đáp. Nhà khoa học vẫn muốn đăng bài trong các tạp chí hàng đầu, và các tạp chí vẫn muốn xuất bản kết quả “tốt”—nghĩa là, có ý nghĩa thống kê, các kết quả tích cực. “Mọi người có khả năng đăng bài báo quan trọng nhất hoặc tích cực nhất của họ,” Ioannidis nói. Đó là việc đào dữ liệu.
Khoa học được cho là có cơ chế tự sửa chữa, và công việc để cầu nối khoảng cách uy tín giữa các lĩnh vực khác nhau cho thấy quá trình tự sửa chữa đang diễn ra. Tuy nhiên, bạn vẫn muốn thấy kinh tế tiến xa hơn, có lẽ, thay vì bị Ioannidis nắm cổ áo. “Chúng ta không rất giỏi trong việc hiểu cách não hoạt động. Chúng ta không tốt trong mô hình về bản chất con người và liên quan đến nhân loại,” Camerer nói. “Nhưng nhà kinh tế thực sự giỏi trong việc hiểu động lực và cách chúng ta tạo ra hệ thống để đạt được một kết quả.”
Và tuy nhiên, những động cơ tăng uy tín vẫn chưa tồn tại trong chính lĩnh vực kinh tế.
Các tạp chí và cơ quan tài trợ đã chậm, thậm chí còn thận trọng. Đại học và các tổ chức không trả tiền hoặc bổ nhiệm họ cho công việc này. “Các lĩnh vực như thống kê hoặc tâm lý học đang gửi tín hiệu mạnh mẽ rằng họ quan tâm đến những người làm việc về minh bạch nghiên cứu,” nói Fernando Hoces de la Guardia, một nghiên cứu viên tại Berkeley Initiative for Transparency in the Social Sciences. “Bạn không thấy bất kỳ người này nào đứng ở các bộ môn kinh tế hàng đầu.” Khi anh gửi cho tôi một bài báo có liên quan của một đồng nghiệp, Hoces de la Guardia chỉ ra rằng đó không phải là “bài báo thị trường lao động” của đồng nghiệp của anh ấy, đó là đoạn nghiên cứu mà một sinh viên tiến sĩ sẽ sử dụng để tìm việc.
“Một trong những vấn đề khi nêu lên những vấn đề như vậy là tìm nơi cho nó trong các tạp chí,” Doucouliagos nói. “Bạn sẽ có các học giả sáng tạo muốn đối mặt với những vấn đề này, nhưng họ lo lắng về việc bị coi là cassandras.” Nhưng có lẽ khác với Cassandra, nếu đủ nhiều nhà nghiên cứu và người đặt tiêu chuẩn nhận thức giá trị trong việc phê phán lĩnh vực của họ, họ sẽ được trang bị tốt hơn để sống sót trong tương lai.
