
Mở đầu
Trong vài thập kỷ qua, nhiều nghiên cứu đã làm sáng tỏ tiềm năng của corpus trong việc cải thiện kỹ năng viết học thuật. Biber, Conrad và Reppen (1998)[1] nhấn mạnh rằng việc phân tích corpus giúp người học tiếp cận với các mẫu ngôn ngữ thực tế, qua đó tăng cường tính chính xác và chuẩn mực trong diễn đạt.
Johns (1991)[2], với khái niệm data-driven learning (DDL), đã định hướng người học trở thành nhà nghiên cứu ngôn ngữ, chủ động khám phá quy luật sử dụng ngôn ngữ từ dữ liệu thực.
Đồng thời, các nghiên cứu về tự chủ trong học tập cũng khẳng định rằng khi người học được trao quyền kiểm soát quá trình học của mình, họ sẽ thể hiện động lực và hiệu quả học tập cao hơn (Little, 1991[3]; Benson, 2011[4]). Boulton (2009[5]) kết luận rằng việc sử dụng corpus chính là sự kết hợp giữa DDL và phát triển tính tự chủ, giúp người học hình thành tư duy phản tư, năng lực phân tích và khả năng kiểm nghiệm giả thuyết ngôn ngữ một cách độc lập.
Trên nền tảng lý luận đó, bài viết này tập trung làm rõ mối quan hệ giữa việc khai thác corpus trong dạy viết học thuật và sự phát triển tính tự chủ ở người học, với trọng tâm là khả năng cải thiện cấu trúc câu thông qua hoạt động truy xuất và phân tích dữ liệu ngôn ngữ.
Thông qua việc phân tích các khái niệm cơ bản, lợi ích sư phạm và các phương pháp áp dụng cụ thể, bài viết nhằm chứng minh rằng corpus không chỉ là công cụ hỗ trợ kỹ thuật, mà còn là một phương tiện thúc đẩy người học trở thành chủ thể tích cực trong hành trình học tập ngôn ngữ.
Khái niệm về corpus

Trong lĩnh vực ngôn ngữ học ứng dụng, corpus (ngữ liệu) được hiểu là một tập hợp lớn các văn bản ngôn ngữ được thu thập một cách có hệ thống và lưu trữ dưới dạng số hóa, nhằm phục vụ cho mục đích nghiên cứu và giảng dạy ngôn ngữ.
Các văn bản trong corpus thường phản ánh cách sử dụng ngôn ngữ thực tế trong các bối cảnh giao tiếp cụ thể, qua đó cho phép người học và giáo viên quan sát các mẫu ngôn ngữ xác thực thay vì chỉ dựa vào trực giác hoặc ví dụ rời rạc trong sách giáo khoa.
Theo Reppen và Simpson-Vlach (2020)[6], một corpus có thể bao gồm hàng triệu từ, được tổ chức và phân loại theo nhiều tiêu chí như thể loại văn bản, chủ đề, cấp độ người viết, hoặc nguồn gốc ngôn ngữ. Hai loại corpus phổ biến trong giảng dạy viết học thuật là academic corpus và learner corpus.
Academic corpus chứa các văn bản học thuật chuẩn mực như bài báo khoa học, luận văn, hoặc chuyên khảo; trong khi learner corpus bao gồm các bài viết của người học ở nhiều trình độ khác nhau, thường đi kèm với thông tin về lỗi sai hoặc chú thích sư phạm.
Ví dụ điển hình cho academic corpus là British Academic Written English (BAWE), một kho ngữ liệu gồm hàng nghìn bài viết học thuật của sinh viên ở các bậc đại học và sau đại học tại Vương quốc Anh, bao trùm nhiều ngành khác nhau như khoa học xã hội, kỹ thuật, y sinh và nhân văn.
Một nguồn khác đáng chú ý là Michigan Corpus of Academic Spoken English (MICASE), tuy tập trung vào văn nói, nhưng lại cung cấp các mẫu diễn ngôn học thuật phổ biến trong bối cảnh đại học như bài giảng, thảo luận nhóm, và phỏng vấn nghiên cứu—rất hữu ích để người học viết phần tóm tắt hoặc tái hiện nội dung học thuật.
Về learner corpus, International Corpus of Learner English (ICLE) là một nguồn nổi tiếng do Đại học Louvain (Bỉ) xây dựng, tập hợp bài viết học thuật của người học tiếng Anh không bản ngữ đến từ hơn 20 quốc gia.
Bên cạnh đó, Cambridge Learner Corpus (CLC), do Cambridge University Press phối hợp với Cambridge Assessment English xây dựng, là một kho dữ liệu đồ sộ bao gồm các bài thi viết thực tế của người học tiếng Anh ở nhiều cấp độ (từ A2 đến C2). Corpus này đặc biệt hữu ích cho việc phân tích lỗi sai phổ biến và xu hướng ngôn ngữ của người học trên toàn cầu.
Ngoài ra, LOCRA (Learner Corpus Research Association) cũng giới thiệu nhiều corpus nhỏ hơn nhưng có tính chuyên biệt cao, chẳng hạn như LANGSNAP corpus (tập trung vào quá trình phát triển ngôn ngữ của người học trong bối cảnh du học) hay PELIC corpus (Pennsylvania English Language Institute Corpus) chứa các bài viết và bài nói của người học ở nhiều trình độ trong môi trường học thuật.
Việc phân tích corpus giúp người học truy xuất những mẫu câu, cụm từ, cấu trúc ngữ pháp hoặc cách kết hợp từ vựng (collocations) thường xuyên xuất hiện trong văn bản học thuật.
Ví dụ, khi muốn biết cách diễn đạt lập luận trong phần mở đầu một bài luận, người học có thể tìm thấy cụm “It is widely acknowledged that climate change poses a major threat…” hoặc “A growing body of research suggests that language learning benefits from autonomy.”
Những mẫu câu này thể hiện sự chuẩn mực và tính học thuật cao, đồng thời mang tính tổ chức chặt chẽ về mặt ngữ pháp và diễn ngôn. Đây là những mẫu ngôn ngữ thường khó hình thành qua trực giác của người học và hiếm khi được liệt kê trong sách dạy viết thông thường.
Bằng việc nhận diện và thực hành theo các mẫu ngôn ngữ đã được chứng thực từ corpus, người học không chỉ nâng cao độ chính xác trong diễn đạt, mà còn phát triển khả năng tư duy viết học thuật một cách mạch lạc, súc tích và phù hợp với văn phong chuyên ngành.
Như Larsen-Freeman và Celce-Murcia (2015)[7] nhận định, việc dạy ngôn ngữ hiệu quả trong thế kỷ 21 không thể tách rời khỏi việc đưa người học tiếp cận với ngôn ngữ thực tế và ngữ liệu có tính sử dụng cao (usage-based input), mà corpus là một trong những nguồn dữ liệu quan trọng nhất cho mục tiêu này.
Với những lợi ích đó, việc sử dụng corpus trong dạy viết không chỉ cung cấp nguồn ngữ liệu xác thực, mà còn mở ra cơ hội thúc đẩy các phẩm chất học tập bền vững như tính tự chủ, như sẽ được trình bày trong phần tiếp theo.
Khái niệm người học với khả năng tự định hướng cao

Người học có tính tự chủ cao (autonomous learner) là người chủ động tham gia vào quá trình học tập của bản thân với tinh thần trách nhiệm, khả năng tự định hướng và ý thức phản tư. Họ không chỉ tiếp thu kiến thức một cách thụ động mà còn chủ động đặt mục tiêu học tập, lựa chọn chiến lược phù hợp, theo dõi tiến độ, đánh giá kết quả và điều chỉnh phương pháp khi cần thiết.
Tự chủ không chỉ thể hiện qua hành vi học tập độc lập, mà còn nằm ở năng lực ra quyết định có cơ sở về cách thức học và lý do học, từ đó duy trì được động lực lâu dài và tính hiệu quả trong học tập.
Khái niệm này được Holec (1981)[8] định nghĩa một cách có ảnh hưởng sâu rộng là “khả năng chịu trách nhiệm về các quyết định liên quan đến việc học của chính mình”.
Theo đó, tính tự chủ không phải là phẩm chất bẩm sinh mà là một năng lực có thể được nuôi dưỡng thông qua môi trường học tập hỗ trợ, khuyến khích sự tham gia tích cực, tư duy phản biện và khả năng tự quản lý.
Trong ngữ cảnh giáo dục ngôn ngữ, Little (1991)[3] bổ sung rằng tự chủ bao hàm cả khía cạnh nhận thức (biết mình đang học gì và vì sao), thái độ (sẵn sàng chịu trách nhiệm) và hành động (thực hiện các chiến lược phù hợp để đạt mục tiêu học tập).
Đặc điểm nổi bật của người học tự chủ là họ thường thể hiện năng lực tự điều chỉnh (self-regulation), bao gồm các hành vi như lên kế hoạch học tập cá nhân, lựa chọn tài nguyên phù hợp, tự phản hồi sản phẩm học, hoặc biết cách tìm kiếm sự trợ giúp khi cần thiết.
Ví dụ, một sinh viên đang luyện viết học thuật có thể chủ động sử dụng corpus để truy xuất các mẫu câu phù hợp thay vì chỉ dựa vào mẫu văn có sẵn từ giáo viên. Họ cũng có xu hướng duy trì thói quen học tập linh hoạt, biết cách học từ lỗi sai và xây dựng thói quen tự phản tư sau mỗi hoạt động học.
Tự chủ, vì vậy, không những là yếu tố dự báo thành công trong học tập ngôn ngữ mà còn là phẩm chất cần thiết để người học thích nghi với môi trường học tập hiện đại, nơi kiến thức biến đổi nhanh chóng và vai trò của giáo viên chuyển dịch từ người truyền đạt sang người hỗ trợ.
Do đó, phát triển tính tự chủ nên là một mục tiêu trung tâm trong bất kỳ chương trình đào tạo ngôn ngữ nào có định hướng bền vững.
Ưu điểm của việc tự định hướng trong quá trình học tập

Tính tự chủ trong học tập không chỉ là một năng lực cá nhân đáng khích lệ, mà còn là yếu tố thiết yếu quyết định chất lượng, hiệu quả và tính bền vững của quá trình học tập. Khi người học có khả năng tự thiết lập mục tiêu, lựa chọn chiến lược học tập phù hợp và chủ động điều chỉnh tiến trình học của mình, họ sẽ đạt được sự gắn kết sâu sắc hơn với nội dung học, từ đó cải thiện kết quả học tập một cách rõ rệt.
Thứ nhất, tự chủ giúp nâng cao động lực nội tại (intrinsic motivation), một yếu tố tâm lý đóng vai trò quan trọng trong việc duy trì quá trình học dài hạn.
Theo Deci và Ryan (1985)[9], trong lý thuyết Self-Determination Theory, khi người học cảm thấy mình có quyền kiểm soát hành vi học tập và được công nhận về mặt năng lực, họ sẽ phát triển động lực học tập sâu sắc và bền vững.
Điều này đồng thuận với nghiên cứu của Alamer (2021)[10], cho thấy rằng mức độ tự chủ cao trong học tập ngoại ngữ có mối liên hệ tích cực với cảm giác làm chủ, khả năng phục hồi và thành công học thuật trong môi trường tự học.
Thứ hai, tính tự chủ tạo điều kiện thuận lợi để phát triển kỹ năng học suốt đời (lifelong learning skills). Trong môi trường giáo dục và nghề nghiệp ngày càng thay đổi nhanh chóng, người học không thể chỉ dựa vào kiến thức sẵn có từ nhà trường, mà cần biết cách học liên tục, cập nhật thông tin và tự thích nghi.
Tự chủ chính là nền tảng của khả năng này, vì nó giúp người học hình thành thói quen học tập có chiến lược, biết tự đánh giá nhu cầu học và chủ động tìm kiếm cơ hội học trong thực tiễn.
Theo Illeris (2009)[11], học suốt đời đòi hỏi ở người học năng lực tự định hướng, tự giám sát và điều chỉnh hành vi học tập—tất cả đều là đặc điểm cốt lõi của người học tự chủ.
Thứ ba, người học tự chủ thường có khả năng phản tư (reflective thinking) tốt hơn. Họ không chỉ học từ kết quả đúng, mà còn học từ sai lầm, từ quá trình cố gắng, và từ việc phân tích những gì đã và chưa hiệu quả trong chiến lược học tập.
Nghiên cứu của Al-Mohsen và Al-Diban (2022)[12] cho thấy rằng việc tích hợp hoạt động tự đánh giá và tư duy phản tỉnh vào lớp học ngoại ngữ giúp nâng cao ý thức học tập, điều chỉnh hành vi ngôn ngữ, và tạo điều kiện cho việc học tập độc lập và sâu sắc hơn.
Cuối cùng, tự chủ góp phần xây dựng sự tự tin và bản lĩnh học thuật. Khi người học nhận thấy rằng mình có khả năng tự giải quyết vấn đề, tự đánh giá tiến độ và tự xây dựng kế hoạch học tập, họ sẽ có cảm giác làm chủ hành trình học của chính mình.
Điều này không chỉ nâng cao hiệu quả học tập mà còn có ý nghĩa tích cực về mặt cảm xúc và tâm lý, giảm thiểu sự phụ thuộc vào giáo viên hoặc môi trường bên ngoài.
Theo nghiên cứu của Lai (2017)[13], người học có tính tự chủ cao có xu hướng phát triển tư duy độc lập, khả năng phản biện và sự kiên định trong mục tiêu học tập dài hạn.
Tóm lại, tính tự chủ trong học tập là chìa khóa mở ra cánh cửa học tập sâu, bền vững và cá nhân hóa. Trong bối cảnh giáo dục hiện đại, nơi người học cần thích nghi linh hoạt với tri thức đa chiều và yêu cầu kỹ năng cao, việc nuôi dưỡng tự chủ không chỉ là điều nên làm, mà là điều bắt buộc để đảm bảo sự thành công lâu dài của người học.
Vai trò của corpus trong việc hình thành năng lực tự học?

Phương pháp giảng dạy dựa trên corpus góp phần quan trọng trong việc nuôi dưỡng và phát triển tính tự chủ ở người học ngôn ngữ, đặc biệt trong kỹ năng viết học thuật. Trước hết, corpus trao cho người học quyền truy cập vào kho ngữ liệu thực tế, nơi ngôn ngữ được sử dụng trong bối cảnh xác thực và đa dạng.
Khi được hướng dẫn cách sử dụng các công cụ như AntConc hoặc Sketch Engine, người học có thể tự mình tìm kiếm cấu trúc câu, cụm từ điển hình, cách diễn đạt học thuật và thậm chí cả tần suất xuất hiện của các hiện tượng ngôn ngữ. Khả năng tiếp cận này giúp giảm thiểu sự phụ thuộc vào giáo viên hoặc giáo trình, đồng thời khuyến khích người học tự giải quyết các thắc mắc ngôn ngữ một cách chủ động.
Thứ hai, việc khai thác corpus đòi hỏi người học thực hiện một loạt các thao tác tư duy bậc cao như phân tích, tổng hợp, so sánh, và khái quát hóa. Khi đối chiếu các ví dụ cụ thể từ corpus, người học cần quan sát kỹ lưỡng các mẫu ngôn ngữ, xác định quy luật sử dụng, và đưa ra giả thuyết về cách dùng trong ngữ cảnh học thuật
Đây chính là biểu hiện rõ rệt của năng lực siêu ngôn ngữ (metalinguistic awareness)—khả năng suy nghĩ và phản tư về ngôn ngữ như một đối tượng phân tích.
Theo Littlejohn và Windeatt (1989)[14], năng lực siêu ngôn ngữ là điều kiện nền tảng cho sự hình thành tự chủ, bởi nó giúp người học hiểu rõ hơn về cách ngôn ngữ hoạt động và cách sử dụng ngôn ngữ một cách chiến lược.
Ngoài ra, corpus không chỉ là công cụ truy vấn dữ liệu, mà còn tạo ra một môi trường học tập giàu tiềm năng khám phá, nơi người học được khuyến khích đưa ra câu hỏi, kiểm chứng giả định và áp dụng kết quả phân tích vào sản phẩm viết của chính mình.
Ví dụ, khi viết một đoạn văn tranh luận, người học có thể tra cứu các cách mở đầu lập luận hoặc đưa dẫn chứng trong BAWE corpus để xác định cấu trúc nào là phù hợp và thường gặp. Việc chủ động như vậy giúp người học vừa tăng cường sự độc lập, vừa có cảm giác làm chủ đối với sản phẩm ngôn ngữ của mình.
Kirschner và Hendrick (2020)[15] trong How Learning Happens nhấn mạnh rằng người học thực sự hiệu quả là người “kiến tạo tri thức” thay vì chỉ là “người tiếp nhận thông tin”. Corpus, trong vai trò là nguồn dữ liệu mở, đóng vai trò như một phòng thí nghiệm ngôn ngữ, nơi người học tự thực hiện các thao tác khám phá, kiểm chứng và rút ra quy luật.
Mô hình học tập này góp phần chuyển vai trò của người học từ bị động sang chủ động, từ thụ hưởng sang đồng kiến tạo, từ đó hình thành một hệ sinh thái học tập lấy tự chủ làm trung tâm.
Các kỹ thuật giảng dạy và tiếp thu kỹ năng viết học thuật thông qua corpus

Việc tích hợp corpus vào quá trình dạy và học kỹ năng viết học thuật có thể được triển khai thông qua nhiều phương pháp linh hoạt và tương tác, trong đó mỗi phương pháp đều góp phần củng cố nhận thức ngôn ngữ và phát triển tính tự chủ cho người học. Dưới đây là bốn hướng tiếp cận phổ biến và hiệu quả đã được chứng minh trong thực tiễn giảng dạy.
Trước hết, người học có thể được hướng dẫn sử dụng các công cụ phân tích ngữ liệu như AntConc, Sketch Engine hoặc BNCweb để truy xuất và phân tích các mẫu câu học thuật điển hình từ academic corpus. Chẳng hạn, người học có thể tra cứu cách mở đầu đoạn văn phản biện (e.g., "It is often claimed that...") hay cách sử dụng câu bị động trong phần phương pháp nghiên cứu ("The data were analyzed using SPSS").
Hoạt động này không chỉ giúp người học làm quen với cách tổ chức câu trong ngữ cảnh học thuật mà còn nâng cao khả năng sử dụng ngôn ngữ một cách có mục đích. Như được đề cập trong nghiên cứu của Boulton và Cobb (2017)[16], việc học qua quan sát mẫu ngôn ngữ thực tế từ corpus có thể hiệu quả hơn đáng kể so với học qua lý thuyết ngữ pháp trừu tượng.

Một phương pháp khác có giá trị sư phạm cao là so sánh giữa learner corpus và academic corpus. Người học được khuyến khích đối chiếu văn bản của mình với các văn bản mẫu từ những người viết chuyên nghiệp để phát hiện sự khác biệt trong cách diễn đạt, sử dụng từ hoặc tổ chức câu.
Quá trình này kích hoạt cơ chế noticing (Schmidt, 1990)[17]—tức khả năng chú ý đến những điểm khác biệt ngôn ngữ một cách có ý thức—từ đó dẫn đến sự điều chỉnh và cải thiện trong sản phẩm viết sau này.
Bên cạnh đó, corpus cũng có thể được sử dụng như một công cụ hỗ trợ trong suốt quá trình viết. Khi gặp khó khăn trong việc chọn cấu trúc phù hợp hoặc nghi ngờ về cách kết hợp từ, người học có thể trực tiếp tra cứu trong corpus để tìm ví dụ thực tế.
Ví dụ, khi viết về mối quan hệ giữa hai biến, người học có thể kiểm tra xem các cụm như "is positively associated with" hay "is correlated to" được dùng phổ biến hơn trong lĩnh vực nghiên cứu của mình.
Việc sử dụng corpus như một “từ điển ngữ cảnh hóa” giúp người học không những viết chính xác hơn, mà còn rèn luyện thói quen tham chiếu dữ liệu ngôn ngữ thay vì suy luận dựa trên cảm tính.

Cuối cùng, một hình thức sáng tạo hơn là cho phép người học tự xây dựng mini-corpus cá nhân từ các văn bản chuyên ngành mà họ đọc thường xuyên.
Ví dụ, sinh viên ngành kinh tế có thể tạo một corpus nhỏ từ các bài nghiên cứu trong tạp chí The Economist hoặc Journal of Economic Perspectives, từ đó phân tích các cách diễn đạt đặc thù của lĩnh vực này. Mini-corpus không chỉ là một công cụ học tập hiệu quả mà còn giúp người học phát triển tư duy phân tích và ứng dụng ngôn ngữ trong chuyên ngành cụ thể.
Những phương pháp này không chỉ góp phần cải thiện độ chính xác và chuẩn mực trong văn bản học thuật, mà còn nuôi dưỡng năng lực phản tư, tự điều chỉnh và quản lý tri thức—những yếu tố cốt lõi của người học có tính tự chủ cao.
Theo nghiên cứu của Timmis (2015)[18], việc người học chủ động khai thác, đánh giá và vận dụng dữ liệu ngôn ngữ từ corpus giúp họ trải nghiệm quá trình học tập như một nhà nghiên cứu thực thụ, qua đó phát triển khả năng tự học bền vững.
Tổng kết
Corpus mang đến môi trường học tập mở và đa chiều, nơi người học không chỉ tiếp nhận kiến thức mà còn chủ động khám phá, đánh giá, suy ngẫm và áp dụng vào thực hành viết. Những hoạt động nhận thức này đóng vai trò then chốt trong việc hình thành năng lực tự chủ - yếu tố cốt lõi của người học trong kỷ nguyên hiện đại. Khi được trang bị công cụ để khai thác ngôn ngữ từ nguồn dữ liệu thực tế, người học chuyển từ vị thế thụ động sang chủ thể tự định hướng, điều phối và kiểm soát quá trình học tập cá nhân.
Phương pháp dạy viết học thuật sử dụng corpus không chỉ nâng cao độ chính xác trong bài viết mà còn giúp người học đạt được chiều sâu kiến thức, tư duy phân tích nhạy bén và khả năng tự học vững vàng. Đây chính là những mục tiêu cốt lõi mà mọi chương trình đào tạo ngôn ngữ chất lượng đều hướng tới.
