Độ giá trị đề thi và việc đảm bảo độ giá trị đề thi trong các kỳ thi diện rộng ở Việt Nam

02/06/2020

b2a8a927c323590c179e01cd2de08467.jpg

Tóm tắt: Độ giá trị của đề thi và đảm bảo độ giá trị của đề thi là vấn đề quan trọng trong việc thiết kế và xây dựng đề thi. Độ giá trị, bên cạnh độ tin cậy, là một trong những tiêu chí đảm bảo rằng đề thi tuân theo các tiêu chuẩn chuyên môn và kỹ thuật nhất định để đo lường những kiến thức, kỹ năng, năng lực đề thi được thiết kế nhằm mục đích đo. Nói cách khác, độ giá trị cho chúng ta biết đề thi đo lường được bao nhiêu lượng kiến thức chúng ta dự kiến đo lường. Do vậy, đề thi luôn luôn cần phải được đảm bảo về độ giá trị. Các chỉ số giúp đảm bảo độ giá trị là độ khó, độ phân biệt, độ tin cậy của đề thi. Ở Việt Nam, các kỳ thi diện rộng như kỳ thi trung học phổ thông quốc gia được tổ chức hàng năm và có tính chất quan trọng, quyết định sự nghiệp học hành của học sinh. Do đó các đề thi sử dụng trong kỳ thi này cần thiết phải đảm bảo nhiều yếu tố trong đó có độ giá trị. Bài viết này nhằm phân tích sự cần thiết cũng như các yếu tố của độ giá trị đề thi nói chung, phân tích độ giá trị bề mặt và độ giá trị nội dung của các đề thi tiếng Anh được sử dụng trong kỳ thi THPT quốc gia 2015 qua đó đưa ra những đề xuất kiến nghị nhằm đảm bảo độ giá trị của các đề thi sử dụng cho diện rộng ở Việt Nam. 

Từ khóa:  độ giá trị, đảm bảo, thi, diện rộng

1. Lời giới thiệu

Trên thế giới, kiểm tra đánh giá thông qua thi cử được sử dụng phổ biến và rộng khắp trong tất cả các lĩnh vực ngành nghề và các chương trình giáo dục, đào tạo từ cấp nhỏ nhất đến cấp lớn nhất. Có rất nhiều dạng thức đề thi được sử dụng, từ dạng yêu cầu viết, cho đến các câu hỏi vấn đáp, hay đánh giá của giáo viên về hành vi, sản phẩm học tập của sinh viên (ví dụ như đánh giá bài tập môn Thể dục, các bài tập nhóm của ngành kiến trúc, xây dựng, hội họa…). Kết quả thi cũng được sử dụng đa dạng như để khen thưởng, đánh giá đỗ/ trượt, hay dùng để tính điểm đánh giá thành phần thể hiện qua một loạt các con số phức tạp có nghĩa khác nhau, và một số mục đích khác. Tuy nhiên, muốn sử dụng đề thi cho những mục đích cụ thể này trước hết cần đảm bảo bài thi có “giá trị”.

Hiển nhiên rằng, việc đảm bảo các yêu cầu của một đề thi sẽ có những thách thức tiềm ẩn, đặc biệt liên quan đến cách thức đánh giá đề thi. Để đưa ra bất cứ quyết định, đánh giá nào về đề thi đều cần có cơ sở vững chắc. Trong bài viết này, chúng tôi đã tổng hợp các nghiên cứu khoa học khác nhau trên thế giới về độ giá trị của đề thi, đồng thời đưa ra những gợi ý về việc đảm bảo độ giá trị cho các đề thi áp dụng trên diện rộng ở Việt Nam.

Trong những kỳ thi đã được chuẩn hóa, mỗi một người dự thi đều nhận được một đề thi tương đương với các đề khác. Bên cạnh đó, việc xuất những đề thi tương đương trong trong ngân hàng đề thi sẽ giúp đảm bảo sự công bằng cho các thí sinh, để không một thí sinh nào bị thiệt so với thí sinh khác nếu thi cùng một ngày, cùng một dạng đề thi hoặc cùng một địa điểm tổ chức thi.

2. Tổng quan tài liệu

Độ giá trị của đề thi là thuật ngữ được dùng khi một đề thi đo lường chính xác những gì mà đề thi dự định đo. Trong lĩnh vực “tâm trắc” (trắc nghiệm tâm lý) và khảo thí giáo dục, độ giá trị nói đến mức độ đáp ứng của các cơ sở thực tiễn và các cơ sở lý thuyết với giả thuyết về điểm thô của đề thi kèm theo mục đích sử dụng của đề thi (1999) [1]. 

Mặc dù các mô hình cổ điển phân chia khái niệm “độ giá trị” thành những khái niệm khác nhau như độ giá trị nội dung, độ giá trị tiêu chí và độ giá trị cấu trúc (Guion, R. M. (1980) [2], thì quan điểm hiện tại được nhìn nhận rằng độ giá trị có được nếu đề thi đảm bảo một cấu trúc duy nhất và thống nhất.

Độ giá trị thường được coi là đặc tính quan trọng nhất của đề thi trong đo lường và đánh giá tâm lý và giáo dục (Popham, 2008) [3] bởi vì nó liên quan đến các ý nghĩa của kết quả thi (Messick, 1995) [4]. Trong khi nhiều tài liệu chỉ ra rằng độ giá trị là một cấu trúc ổn định (Nitko & Brookhart, 2004) [5], thì Tổ chức Tâm lý và Nghiên cứu giáo dục Mỹ lại cho rằng có một số mô hình khác nhau khi xây dựng đề thi trong giáo dục và tâm lý (1954) [6]. Các mô hình này có thể được nhóm thành 2 nhóm chính: các mô hình cổ điển (bao gồm các đặc tính về giá trị), và các mô hình hiện đại (đại diện cho giá trị về một cấu trúc duy nhất). Các mô hình hiện đại phân loại “giá trị” cổ điển thành các các “phạm trù” độ giá trị (Messick, 1995) [4] hoặc các loại minh chứng cho độ giá trị (1999) [1]

Samuel Messick (1995) [4], một nhà tâm lý học nổi tiếng đã định nghĩa “giá trị” là việc đánh giá có giá trị tích hợp về trình độ mà theo đó các minh chứng về kinh nghiệm và cơ sở lý thuyết ủng hộ cho việc đưa ra những suy luận phù hợp, đầy đủ, và có những hành động cải thiện dựa trên điểm số đề thi và những hình thức đánh giá khác. Tác giả cũng cho rằng “giá trị” thể hiện theo các mức trình độ, không hoàn toàn đơn giản chỉ là xác định xem có giá trị hay không có giá trị. Theo đó, ông biện luận rằng, minh chứng về độ giá trị được tập hợp dần dần, có thể giúp củng cố hoặc bác bỏ các kết quả nghiên cứu trước đó.

2.1. Lịch sử hình thành

Mặc dù các nhà giáo dục học và các nhà tâm lý học đã sớm nhận thức được các thuộc tính của độ giá trị từ trước Chiến tranh thế giới 2, họ đã dùng các phương pháp thiết lập độ giá trị chủ yếu dựa vào mối tương quan của điểm số bài thi với một cố các tiêu chí đánh giá khác (Angoff, 1988) [7]. 

Theo nghiên cứu của Lee Cronbach (1954) [8], ông đã xác định rõ và mở rộng phạm vi độ giá trị bằng việc chia nó thành bốn thành tố: độ giá trị đồng thời (concurrent), độ giá trị dự báo, độ giá trị nội dung và độ giá trị cấu trúc. Trong nghiên cứu sau đó, Cronbach và Meekl (1955) [9] đã nhóm độ giá trị đồng thời và độ giá trị dự báo thành “độ giá trị định hướng - tiêu chí” – sau đó được gọi chung là “độ giá trị tiêu chí”.

Trong suốt bốn thập kỷ sau đó, nhiều nhà lý luận bao gồm cả Cronbach (1969) [10], Loevinger, J. (1957) [11]; Tenopyr, M. L. (1977) [12]; Guion, R. M. (1977) [13] đều không hài lòng với mô hình độ giá trị ba trong một này. Tranh luận của họ lên đến cực điểm khi nghiên cứu của Samuel Messick (1995) [4] mô tả độ giá trị như là một khối cấu trúc đơn nhất có 6 đặc điểm (tính hệ quả, nội dung giá trị, cấu trúc bền vững, có tương quan về cấu trúc, tác động của một số yếu tố bên ngoài, tính khái quát hóa). Theo quan điểm của ông, điểm số bài thi có thể cho ra các suy luận khác nhau tùy thuộc loại minh chứng đi kèm nhưng vẫn đảm bảo được độ giá trị.

Năm 1999, “Bộ tiêu chuẩn đo lường trong giáo dục và tâm lý” [1] đã hệ thống hóa toàn bộ mô hình của Messick. Theo đó có 5 loại minh chứng ủng hộ cho độ giá trị, kết hợp với các thành tố của Messick, nhưng không đề cập đến độ giá trị nội dung, tiêu chí, và cấu trúc theo các mô hình cổ điển.

2.2. Các loại độ giá trị

Độ giá trị của đề thi giúp đảm bảo rằng đề thi tuân theo các tiêu chuẩn chuyên môn và kỹ thuật nhất định để đo lường những kiến thức, kỹ năng, năng lực đề thi được thiết kế nhằm mục đích đo. Nói cách khác, độ giá trị cho chúng ta biết đề thi đo lường được bao nhiêu lượng kiến thức chúng ta dự kiến đo lường. Các phương pháp chính để biểu diễn độ giá trị của đề thi bao gồm độ giá trị tiêu chí, độ giá trị nội dung, độ giá trị bề mặt và độ giá trị cấu trúc (Brennan, 2006) [14].

i. Độ giá trị tiêu chí

Vào thời điểm những năm 1920 - 1950, độ giá trị tiêu chí được xem là tiêu chuẩn vàng cho độ giá trị bài thi. Trong cuốn “Đo lường giáo dục”, xuất bản lần đầu tiên, tác giả Cureton (1951) [15] đã định nghĩa độ giá trị là “tương quan giữa điểm thi thực tế và điểm tiêu chí”. Độ giá trị được sử dụng để trả lời câu hỏi đề thi dự báo như thế nào cho những tiêu chí đánh giá. Một đề thi được coi là có giá trị cho bất kỳ tiêu chí đánh giá nào khi nó cung cấp những dự báo chính xác về tiêu chí ấy. Do đó, có hai loại độ giá trị tiêu chí chính là độ giá trị tiêu chí đồng thời và độ giá trị tiêu chí dự báo. Độ giá trị tiêu chí đồng thời sử dụng điểm tiêu chí có được tại cùng thời điểm với điểm thi. Độ giá trị tiêu chí dự báo sử dụng các tiêu chí trong tương lai (ví dụ như yêu cầu về nghề nghiệp, hoặc yêu cầu của trường đại học) để đánh giá. 

Độ giá trị tiêu chí rất phù hợp khi sử dụng các tiêu chí đánh giá hợp lý. Ví dụ, nếu bài thi được sử dụng để dự đoán khả năng làm việc, học tập trong tương lai thì các tiêu chí có thể được xây dựng từ khả năng thực hiện thực tế. Khi có sẵn các tiêu chí đánh giá tốt thì việc sử dụng độ giá trị tiêu chí để đánh giá là đơn giản và hiệu quả. Vì thế, đối với tuyển sinh đại học hoặc thi tuyển dụng, phương thức đánh giá độ giá trị dựa vào tiêu chí vẫn là phương thức ưu việt. Phương pháp này cho thấy, những người có kết quả cao trong các kỳ thi sẽ làm tốt công việc, ngược lại những người có kết quả thi thấp sẽ hoàn thành công việc kém hơn.

Hạn chế của độ giá trị tiêu chí chủ yếu là khó có được các tiêu chí phù hợp. Trong một số trường hợp việc thực hiện đánh giá các tiêu chí rất khó khăn, ngay từ việc khái niệm hóa các tiêu chí cần được đánh giá. Ngoài ra, độ giá trị tiêu chí cũng có những hạn chế khác như làm thế nào để định giá trị của tiêu chí. Ngay cả khi tiêu chí thứ hai được xác định như là cơ sở để để định giá trị tiêu chí thứ nhất thì câu hỏi lại quay trở lại, làm thế nào để định giá trị của tiêu chí thứ hai. Nếu không áp dụng những phương pháp khác để định giá trị của những tiêu chí thì những người làm kiểm tra đánh giá luôn phải đối mặt với vòng luẩn quẩn. 

ii. Độ giá trị nội dung (content validity)

Độ giá trị của đề thi có một số dạng thức, trong đó, loại quan trọng nhất đóng vai trò “giấy phép sử dụng” chính là độ giá trị về mặt nội dung. Độ giá trị nội dung giải thích điểm thi dựa trên kết quả đánh giá một số nội dung để suy luận cho toàn bộ nội dung (môn học). Giả sử rằng khả năng của một người được đánh giá thông qua một số các nội dung, thì kết quả đánh giá có thể được sử dụng để suy luận cho khả năng của một người về tất cả các nội dung đã được giảng dạy nếu (i) các nội dung được đánh giá có thể đại diện cho toàn bộ nội dung đánh giá, (ii) việc đánh giá được tiến hành hợp lý và công bằng, và (iii) mẫu đủ lớn để kiểm soát sai số (Guion, 1977) [13]. 

Đây là quá trình logic khi kết nối các câu hỏi thi với các nhiệm vụ học tập có liên quan. Để có độ giá trị cao về nội dung, quá trình thiết kế câu hỏi thi cần được thực hiện nghiêm túc và xuyên suốt. Các nhà chuyên môn cần phải thực hiện phân tích/ đánh giá câu hỏi thi cho phù hợp, thiết lập ma trận đề thi hợp lý, và tuân thủ chặt chẽ các nguyên tắc viết câu hỏi thi. Độ giá trị nội dung thường được đánh giá qua việc lấy ý kiến rà soát, phản biện của một nhóm chuyên gia có chuyên môn về môn học. Đặc biệt, những chuyên gia này được cung cấp bảng các nhóm nội dung cụ thể theo đề cương môn học (ma trận nội dung, bảng đặc tả môn học hoặc bảng trọng số nội dung môn học), cùng với các câu hỏi thi dự định kiểm tra từng nhóm nội dung đó. Các nhóm chuyên gia được yêu cầu xác định xem các câu hỏi có phù hợp với nhóm nội dung dự định kiểm tra không. Bất cứ câu hỏi thi nào mà nhóm chuyên gia cho rằng không phù hợp kiểm tra kiến thức của nội dung đó sẽ được yêu cầu viết lại hoặc loại bỏ (Professional Testing Inc. PTI 2006) [16]

Độ giá trị nội dung thường được áp dụng để đánh giá thành tích học tập. Trọng số các nội dung môn học được thể hiện trong một bảng ma trận (ma trận nội dung) có thể bao gồm một vài chiều cạnh như nội dung kiến thức theo chương, tỷ trọng nội dung, tỷ trọng cấp độ nhận thức theo mục tiêu môn học. Số lượng câu hỏi thi, dạng thức câu hỏi, thời gian làm bài của một đề thi sẽ được thể hiện trong những ô ma trận tương ứng (bảng ma trận đề thi). Các câu hỏi được thiết kế cần kiểm tra đúng những nội dung mà những câu hỏi này được thiết kế và phù hợp với bảng ma trận đề thi. Ở một mức độ nào đó, các câu hỏi này có thể được coi là đại diện cho phạm vi nội dung mà đề thi mô tả.

Tuy nhiên, độ giá trị nội dung cũng có một số hạn chế: Thứ nhất, có một số quan ngại rằng độ giá trị nội dung có thể không khách quan và còn thiên kiến. Độ giá trị nội dung cũng thường dựa trên những nhận định về mối quan hệ và tính đại diện của một số nội dung cho toàn bộ nội dung của môn học. Đặc biệt khi những nhận định này lại căn cứ trên những nhận định của chính tác giả viết câu hỏi thi. 

Thứ hai, độ giá trị nội dung thực sự có vấn đề khi nó được sử dụng để chứng minh cho giá trị của bài thi nhằm đo lường quá trình tư duy. Những nhận định về độ giá trị nội dung chỉ nên dành cho những nội dung có thể quan sát ở bên ngoài. Những nhận định về nội hàm bên trong của các chủ đề hoặc giả thuyết cần phải sử dụng độ giá trị cấu trúc (Cronbach, 1971) [17]. 

Ngoài ra, độ giá trị nội dung không bao gồm điểm của bài thi và do đó không nên sử dụng để đưa ra các nhận định về kết quả thi. Tương tự như nhận định trên, tác giả Messick (1989) [18] cho rằng độ giá trị nội dung không cung cấp minh chứng trực tiếp để có thể suy luận về điểm thi, vì thế vai trò của nó trong việc xác định giá trị là rất hạn chế. Minh chứng cho tính đại diện của đề thi và tính khái quát hóa của điểm thi có thể giúp xác định những điểm cơ bản về độ giá trị của toàn bộ nội dung thông qua một số nội dung được đánh giá. Tuy nhiên, để xác định độ giá trị ở các mức khác cần phải cân nhắc tới những độ giá trị khác của bài thi.

iii. Độ giá trị bề mặt

Đây là thuộc tính của một đề thi, thường tương phản với độ giá trị nội dung bởi vì nó không có giá trị về mặt chuyên môn. Độ giá trị bề mặt đảm bảo rằng việc đo lường đã đánh giá được cấu trúc cần đo dự kiến, và các bên liên quan có thể dễ dàng tiếp cận được giá trị bề mặt. Mặc dù đây không phải là một loại giá trị mang tính chất khoa học, nó có thể là một thành tố cần thiết trong việc tạo động lực cho các bên liên quan. Nếu các bên liên quan không tin vào khả năng đo lường chính xác của một phương pháp nào đó, thì phương pháp đó sẽ không được sử dụng.

Ví dụ, nếu muốn đánh giá các môn Nghệ thuật thì các câu hỏi cần được thiết kế dựa trên các thành tố và các loại nghệ thuật có liên quan tới nhau. Nếu các câu hỏi có nội dung về các thời kỳ lịch sử mà không tham chiếu tới một trào lưu nghệ thuật nào cụ thể, thì người dự thi sẽ không có động lực làm hết khả năng của mình hoặc không muốn cố gắng cho kỳ thi này bởi vì họ không tin rằng câu hỏi được thiết kế đo lường đúng giá trị của nghệ thuật.

iv. Độ giá trị cấu trúc (construct validity)

Vào đầu những năm 1950, độ giá trị tiêu chí đã được sử dụng rộng rãi và độ giá trị nội dung đã được sử dụng để xác định những hạn chế của độ giá trị tiêu chí đồng thời cũng có thể cho thấy các cơ sở để đưa ra nhận định về giá trị của phép đo lường. Tuy nhiên, các phương pháp trên vẫn chưa hoàn toàn xác định đầy đủ mọi trường hợp về độ giá trị của đề thi. Trên cơ sở đó, các nhà nghiên cứu tâm trắc đã xác định cần phải có loại minh chứng có thể lý giải cho những nguyên lý tâm trắc và do đó, độ giá trị cấu trúc được sử dụng (Cronbach & Meehl, 1955) [9]. Độ giá trị cấu trúc được sử dụng để đảm bảo rằng phép đo đã đo lường được đúng cái cần đo (cấu trúc), mà chắc chắn không phải là cái nào khác. Khái niệm rộng của độ giá trị cấu trúc đã bao gồm tất cả các minh chứng cho độ giá trị, bao gồm độ giá trị nội dung và độ giá trị tiêu chí, độ tin cậy và các đặc tính khác của phép đo. Messick (1989) [18] đưa ra một định nghĩa về độ giá trị tiêu chí rất rộng, theo đó nó là phương pháp tổng hợp nhất của độ giá trị. Đồng thời ông cũng gán cho độ giá trị nội dung và độ giá trị tiêu chí vai trò hỗ trợ cho độ giá trị cấu trúc. 

Phương pháp sử dụng độ giá trị cấu trúc đem lại ba hiệu quả tích cực. Thứ nhất, độ giá trị cấu trúc thường hướng đến những vấn đề rộng trong việc hiểu và sử dụng điểm thi mà không chỉ đơn giản là mối tương quan giữa điểm thi với những tiêu chí cụ thể trong những bối cảnh hoặc mẫu cụ thể. Thứ hai, độ giá trị cấu trúc nhấn mạnh vai trò của các giả thiết trong việc lý giải điểm số và sự cần thiết của việc kiểm định những giả thiết này. Cuối cùng, độ giá trị cấu trúc cho phép có các khả năng về những lý giải khác cho điểm thi.

Ví dụ, một chương trình nghiên cứu về phụ nữ có thể thiết kế các phương pháp đánh giá liên tục về việc học của người học trong suốt quá trình. Các câu hỏi được viết với các từ, cụm từ phức tạp sẽ khiến đề thi vô hình trở thành đề kiểm tra khả năng đọc hiểu chứ không phải kiểm tra về các nghiên cứu về phụ nữ. Điều quan trọng ở chỗ việc đo lường thực sự là việc đánh giá cấu trúc dự kiến, chứ không phải là một yếu tố bên ngoài khác.

Guilford và Fruchter (1978) [19] chỉ ra rằng độ tin cậy cấu trúc của một đề thi có thể đạt được bằng mối tương quan của câu hỏi thi với toàn bài thi. Quá trình này cũng được áp dụng trong những giai đoạn đầu khi xây dựng đề thi để chọn ra các câu hỏi tốt. 

2.3. Ý nghĩa/ sự cần thiết của độ giá trị của các đề thi

Nếu chỉ có độ tin cậy thì chưa đủ đảm bảo có một đề thi tốt. Muốn có một đề thi đáng tin cậy thì nó cần phải đảm bảo độ giá trị. Ví dụ, nếu cái cân đo sức khỏe chỉ đo được 20kg thì lúc nào nó cũng chỉ vượt quá 20kg mỗi khi bạn bước lên bàn cân mà không chỉ rõ cụ thể bạn hơn con số “20kg” bao nhiêu. Có thể cho rằng cái cân đáng tin cậy khi nó cho ra các kết quả giống nhau về cân nặng của bạn mỗi ngày, nhưng nó không có giá trị bởi vì nó không chỉ ra được cụ thể bạn nặng bao nhiêu cân (vượt qua mốc 20kg là bao nhiêu). Do đó, cái cân này không có giá trị đo lường cân nặng của bạn. 

Suy ra, nếu điểm thi được dùng để đưa ra các suy luận chính xác về năng lực của thí sinh, thì chúng phải vừa đáng tin cậy và vừa có giá trị. Độ tin cậy là điều kiện tiên quyết để đề thi có giá trị. 

Hai tác giả Crocker và Algina (1986) [20] đã mô tả sự khác nhau giữa độ tin cậy và độ giá trị như sau: Xem xét tiêu chuẩn lượng nhiên liệu trong thùng nhiên liệu của một xe ô tô được đăng ký tự động cao hơn ¼ so với mức nhiên liệu thực tế trong bình. Nếu liên tục xem mức nhiên liệu này trong cùng một điều kiện thì việc định cỡ sẽ cho ra các phép đo lường nhất định (tin cậy), nhưng việc suy luận về lượng nhiên liệu trong bình thì không chính xác. Phép suy luận này rõ ràng cho thấy việc xác định độ tin cậy của một đề thi là bước quan trọng tiên quyết nhưng không phải là bước quyết định trong việc xác định tính giá trị của một đề thi. 

Điều quan trọng hơn cả là cách sử dụng các kết quả thi và cách những kết quả này tác động đến các cá nhân cũng như toàn xã hội. Đề thi được sử dụng cho tuyển sinh hoặc dự báo giáo dục (educational diagnosis), không chỉ ảnh hưởng đến các cá nhân mà còn gắn giá trị với nội dung được kiểm tra. Một đề thi hoàn hảo và hữu ích trong tình huống này có thể không phù hợp trong một tình huống khác. Ví dụ, một đề thi có đủ điều kiện dự báo giáo dục lại trở nên hoàn toàn không phù hợp cho mục đích ra quyết định tốt nghiệp trung học.

Tính giá trị của bài thi hay xác lập giá trị cho bài thi, hiển nhiên có nghĩa là xác định mục đích của bài thi trong một tình huống đặc biệt, như tuyển sinh hay xếp lớp. Do đó, khi xác định giá trị của bài thi, điều quan trọng là cần nghiên cứu các kết quả thi trong bối cảnh bài thi được sử dụng. Trong ví dụ trên, để dùng cùng một đề thi cho việc dự báo giáo dục hay cho tốt nghiệp trung học, mỗi cách sử dụng sẽ đều cần được xác định giá trị riêng biệt, cho dù một đề thi được sử dụng cho cả hai mục đích.

Hầu hết các đề thi (không phải tất cả) được thiết kế để đo các kiến thức, kỹ năng, năng lực hay các đặc tính có thể trực tiếp hoặc gián tiếp được quan sát. Ví dụ, điểm số bài thi Scholarstic Aptitude Test (SAT) đo lường sự phát triển khả năng đọc, viết và toán học logic. Điểm kỳ thi SAT mà một thí sinh đạt được khi thí sinh đó tham dự kỳ thi không phải là phương pháp đánh giá trực tiếp kỹ năng đọc logic, mà là đánh giá khả năng đọc hiểu của người dự thi. Do đó, nếu tham dự kỳ thi SAT vài lần, khả năng đọc hiểu của người dự thi được cải thiện bao nhiêu có thể được suy luận từ điểm đọc hiểu của kỳ thi SAT.

2.4. Quá trình thiết lập độ giá trị

Theo Bộ tiêu chuẩn năm 1999 [1], xác lập độ giá trị là quá trình tổng hợp các minh chứng để cung cấp “cơ sở khoa học phù hợp” cho việc thuyết minh điểm số bài thi theo quan điểm đánh giá của người thiết kế đề thi và/ hoặc trên quan điểm người sử dụng bài thi. Do vậy, việc xác lập độ giá trị bắt đầu bằng việc lập khung lý thuyết xác định phạm vi và nội dung đề xuất thuyết minh (trong trường hợp các thang đo đa chiều). Khung lý thuyết cũng bao gồm việc cân nhắc có cơ sở kết hợp với việc thuyết minh đề thi theo câu hỏi thi.

Các nhà nghiên cứu sau đó cần liệt kê một loạt các đề xuất phù hợp nếu việc thuyết minh là cần thiết để “giá trị hóa” đề thi. Hoặc, ngược lại, họ có thể đưa ra một loạt các vấn đề có thể ảnh hưởng đến độ giá trị của việc thuyết minh. Trong bất cứ trường hợp nào, các nhà nghiên cứu cần tiến hành quá trình thu thập thông tin/ minh chứng (trong nghiên cứu gốc hay nghiên cứu kinh nghiệm, phân tích diện rộng) hay rà soát lại các cơ sở lý thuyết đã có, hoặc phân tích tư duy logic về các vấn đề để ủng hộ hoặc bác bỏ các giả thuyết của việc thuyết minh (hoặc các nguy cơ cho việc xác định độ giá trị của thuyết minh). Điều quan trọng là cần đặt trọng tâm vào chất lượng hơn là số lượng minh chứng.

Một thuyết minh đơn giản về bất cứ đề thi nào đều yêu cầu một số các giả thuyết đúng (hoặc có thể được phản biện bằng cách đưa ra bất cứ nguy cơ tiềm ẩn nào). Các minh chứng ủng hộ thuyết phục cho giả thuyết này không làm tăng xác suất bác bỏ các giả thuyết khác.

Các minh chứng ủng hộ/ bác bỏ độ giá trị của việc thuyết minh có thể chia ra thành 5 loại sau:

1. Minh chứng dựa trên nội dung đề thi

2. Minh chứng dựa trên quy trình trả lời câu hỏi thi

3. Minh chứng dựa trên cấu trúc bên trong của đề thi

4. Minh chứng dựa trên các mối quan hệ với các biến khác

5. Minh chứng dựa trên các kết quả thi

Các kỹ thuật tập hợp mỗi loại minh chứng này nếu có thể chỉ được áp dụng khi chúng cho thông tin ủng hộ/ bác bỏ (nghi ngờ) các giả thuyết cho việc thuyết minh từng câu hỏi.

Các loại minh chứng được tập hợp thành một luận cứ bảo vệ cho độ giá trị. Kết quả từ minh chứng có thể là yêu cầu xem xét lại đề thi, việc tổ chức thi, hoặc cấu trúc lý thuyết của mỗi thuyết minh. Nếu đề thi và/ hoặc các thuyết minh yêu cầu xem xét đề thi dưới góc độ khác, thì quá trình xác lập độ giá trị mới cần tập hợp các minh chứng để ủng hộ cho bộ đề thi mới.

2.5. Các chỉ số đảm bảo độ giá trị của đề thi

Để đảm bảo độ giá trị của đề thi, các câu hỏi cũng như đề thi cần phải đánh giá được năng lực, kiến thức dự kiến, đồng thời các câu hỏi thi phải đáp ứng được yêu cầu về độ tin cậy, độ phân biệt, độ khó.

2.5.1. Độ khó

Theo lý thuyết khảo thí cổ điển, độ khó của câu hỏi được tính dựa trên phần trăm người thi trả lời đúng câu hỏi. Độ khó câu hỏi được sử dụng để xác định liệu người thi có nắm được nội dung hoặc có khả năng thực hiện câu hỏi hay không. Độ khó câu hỏi cũng nắm vai trò quan trọng trong việc phân biệt những người thi có năng lực cao và người thi có năng lực thấp. Câu hỏi có độ phân biệt thấp nếu nó quá khó và phần lớn người thi đều trả lời sai hoặc quá dễ và phần lớn người thi đều trả lời đúng.

Để nâng cao độ phân biệt câu hỏi thì độ khó nên cao hơn khả năng đoán mò và thấp hơn điểm tuyệt đối của câu hỏi (ví dụ câu hỏi có 1 phương án đúng trong 4 phương án trả lời thì khả năng đoán mò là 0.25, điểm tuyệt đối là 1).  Theo tác giả Lord (1952) [21], độ khó lý tưởng của câu hỏi đa lựa chọn đáp ứng yêu cầu về độ phân biệt là:

Dạng thức

Độ khó lý tưởng

Câu hỏi 1 phương án đúng/5 lựa chọn

0.70

Câu hỏi 1 phương án đúng/4 lựa chọn

0.74

Câu hỏi 1 phương án đúng/3 lựa chọn

0.77

Câu hỏi Đúng – Sai (1 phương án đúng/2 lựa chọn)

0.85

 

Thông thường câu hỏi được cho là dễ nếu có từ 85% người thi trở lên trả lời đúng, câu hỏi có độ khó trung bình là khoảng 51 đến 84% người trả lời đúng và khó là số người trả lời đúng dưới 50%. 

2.5.2. Độ phân biệt câu hỏi 

Độ phân biệt câu hỏi là khả năng phân biệt năng lực của người thi dựa trên việc họ trả lời đúng hay sai câu hỏi. Trước khi có các phần mềm tính toán, quy trình tính toán được thực hiện thủ công rất phức tạp và chủ yếu chỉ sử dụng kết quả thi của nhóm người thi đạt kết quả cao và nhóm người thi đạt kết quả thấp. Về sau, các phần mềm tính toán bằng máy tính cung cấp kết quả tính toán về độ phân biệt chính xác hơn bởi vì kết quả của tất cả mọi người thi đều được tính toán chứ không chỉ kết quả của nhóm cao và nhóm thấp giống như tính bằng tay.  

Độ phân biệt chủ yếu được tính toán dựa trên kết quả trả lời của người thi đối với 1 câu hỏi cụ thể và đối với toàn bộ các câu hỏi khác trong bài thi. Chỉ số này cho biết mức độ đo lường của 1 câu hỏi cụ thể so với các câu hỏi khác. 

Vì độ phân biệt phản ánh phạm vi một câu hỏi hoặc cả bài thi đo lường một năng lực đơn nhất, giá trị của hệ số này thường thấp hơn ở các bài thi đo lường nhiều nội dung hoặc năng lực so với các bài thi chỉ hướng đến đo 1 nội dung hoặc năng lực. Hệ số phân biệt của câu hỏi phải luôn được phân tích trong bối cảnh bài thi được phân tích. Câu hỏi có độ phân biệt thấp thường là câu hỏi không rõ nghĩa và cần được thẩm định lại. Câu hỏi có độ phân biệt âm cần phải thẩm định lại để xác định nguyên nhân tại sao có độ phân biệt âm. 

Ví dụ độ phân biệt âm có thể là do người soạn nhầm phương án trả lời đúng, dẫn đến việc người thi chọn sai phương án trả lời đúng. Các bài thi có độ “ổn định bên trong” cao thường bao gồm những câu hỏi có mối tương quan dương với toàn bộ bài thi. Trong thực tế, giá trị của độ tin cậy ít khi vượt quá 0.5 vì dạng thức khác nhau của câu hỏi và sự phân bố tổng điểm. Có những nơi coi độ phân biệt tốt nếu hệ số này lớn hơn 0.3, trung bình là ở mức 0.1 đến 0.3 và thấp là dưới 0.1.

2.5.3. Độ tin cậy

Độ tin cậy của bài thi phản ánh mức độ nhất quán trong kết quả của các lần thi. Thường thì 3 đặc tính sau quyết định độ tin cậy của bài thi:

- Sự tương quan lẫn nhau giữa các câu hỏi: mức độ tương quan càng lớn thì mối quan hệ giữa các câu hỏi càng mạnh do đó độ tin cậy của bài thi càng cao; đặc tính có liên quan tới độ phân biệt của câu hỏi thi;

- Độ dài của bài thi - bài thi có nhiều câu hỏi thường có độ tin cậy cao hơn;

- Nội dung của bài thi - nhìn chung nếu bài thi hướng đến đánh giá nhiều nội dung thì độ tin cậy thấp hơn bài thi hướng đến đánh giá 1 nội dung.

Về mặt lý thuyết, hệ số tin cậy nằm trong khoảng từ 0 (không tin cậy) đến 1 (tin cậy hoàn toàn). Tuy nhiên trong thực tế, khoảng tin cậy thường từ 0.5 đến 0.9.

Độ tin cậy cao có nghĩa là các câu hỏi trong bài thi có xu hướng kết nối với nhau. Những thí sinh trả lời đúng câu hỏi này có xu hướng trả lời đúng câu hỏi khác trong cùng nhóm. Nếu hai bài thi khác nhau cùng chung một cấu trúc và độ khó thì kết quả thi của thí sinh sẽ thay đổi không đáng kể. Độ tin cậy thấp có nghĩa là các câu hỏi không gắn kết với nhau. Kết quả bài thi phản ánh những sự khác nhau giữa các câu hỏi hơn là kiến thức hoặc nội dung mà người thi cần thể hiện. 

Theo thống kê, việc phân tích tầm quan trọng của độ tin cậy tách rời với bối cảnh thi cử là rất nguy hiểm. Độ tin cậy cao có thể cần phải có trong những tình huống mà kết quả của một bài thi đơn lẻ được sử dụng để đưa ra những quyết định quan trọng, chẳng hạn như các kỳ thi cấp bằng/chứng chỉ. Trong khi đối với những bài thi trên lớp, thường phải kết hợp với các kết quả khác để quyết định điểm số nên hệ số tin cậy của bài thi trên lớp không cần phải tuyệt đối. Hướng dẫn dưới đây trong tài liệu nghiên cứu của Brennan (2006) [22] có thể áp dụng để hiểu độ tin cậy của bài thi trên lớp. 

Độ tin cậy

Ý nghĩa

Từ 0.90 trở lên

Độ tin cậy hoàn hảo; đây là mức độ tin cậy của các đề thi chuẩn hóa tốt nhất

0.80 - 0.90

Độ tin cậy rất tốt cho đề thi trên lớp

0.70 - 0.80

Độ tin cậy tốt cho đề thi trên lớp. Tuy nhiên có thể có một số câu hỏi cần phải được cải tiến.

0.60 - 0.70

Độ tin cậy tương đối thấp. Bài kiểm tra này cần phải có các phương pháp đánh giá khác hỗ trợ để đưa ra kết quả. Rõ ràng là một số câu hỏi trong đề thi này cần phải được thẩm định lại nhằm nâng cao độ tin cậy.

0.50 - 0.60

Khuyến cáo nên thẩm định lại đề thi, trừ phi đề thi quá ngắn (chỉ bao gồm từ 10 câu hỏi trở xuống). Nếu phải sử dụng kết quả bài thi thì nên sử dụng các phương pháp đánh giá khác bổ sung để đưa ra kết quả/nhận định chính xác.

Từ 0.50 trở xuống

Độ tin cậy là không đáp ứng yêu cầu. Kết quả bài thi không nên sử dụng để ra quyết định cuối cùng đồng thời cần phải thẩm định lại đề thi.

Phương pháp đo lường độ tin cậy thông thường là chỉ số tin cậy Cronbach Alpha.

3. Độ giá trị trong các kỳ thi diện rộng ở Việt Nam

Việt Nam đã và đang triển khai một số kỳ thi diện rộng ở cấp quốc gia nhằm tuyển chọn học sinh cho các cấp học cao hơn. Điển hình phải kể đến kỳ thi quốc gia trung học phổ thông (THPT) được áp dụng từ năm 2015 thay thế cho 2 kỳ thi là tốt nghiệp THPT và tuyển sinh đại học cao đẳng từ trước năm 2015. Để đáp ứng được yêu cầu của hai kỳ thi trên, đề thi được thiết kế ở dạng các câu hỏi và bài tập áp dụng chủ yếu theo hình thức trắc nghiệm kiểm tra kiến thức, kỹ năng và năng lực của học sinh ở các cấp độ: nhận biết, thông hiểu, vận dụng cơ bản, vận dụng nâng cao.

Tuy kỳ thi này được áp dụng toàn quốc và có tính quan trọng, quyết định sự nghiệp học tập của học sinh nhưng rất khó để xác định độ giá trị của các bài thi một cách khách quan và chính xác khi độ khó, độ phân biệt, độ tin cậy của các bài thi không được công bố. Tuy nhiên, dựa trên đề thi cũng như kết quả thi như năm 2015, chúng ta có thể xác định độ giá trị bề mặt và độ giá trị nội dung của các bài thi này. 

Cụ thể, chúng tôi lấy ví dụ phân tích các đề thi môn Tiếng Anh được công bố sau kỳ thi tốt nghiệp THPT Quốc gia. Theo cấu trúc đề thi môn Tiếng Anh đã được công bố [23], các mã đề thi được thiết kế nhằm kiểm tra kiến thức, kỹ năng và năng lực của học sinh ở các nội dung được giảng dạy trong chương trình lớp 10, 11, 12. 

Xét về hình thức, đề thi được thiết kế dưới dạng bán trắc nghiệm, gồm có 64 câu hỏi trắc nghiệm 4 phương án lựa chọn, 04 câu hỏi điền khuyết và 1 câu hỏi tự luận đảm bảo độ tin cậy về khả năng bao phủ kiến thức và đánh giá được năng lực tiếng Anh của học sinh dưới nhiều góc độ khác nhau. Ngoài ra, theo các chuyên gia về tiếng Anh, các câu hỏi đã hỏi được đúng điều cần hỏi và mỗi câu hỏi đều có phần dẫn, phần câu hỏi cũng như các phương án trả lời để người thi lựa chọn (đối với phần trắc nghiệm). Như vậy các câu hỏi của các đề thi tiếng Anh đã đáp ứng tốt độ giá trị bề mặt.

Xét về nội dung câu hỏi, các câu hỏi được thiết kế đảm bảo theo đúng nội dung cần được kiểm tra trong chương trình giảng dạy THPT. Các đề thi đều có các câu hỏi đánh giá kiến thức, kỹ năng và năng lực của học sinh ở các nội dung Ngữ âm (Phonetics), Các thì trong tiếng Anh (Tenses), Sự hòa hợp giữa Chủ ngữ và Động từ (Subject – Verb Agreement), Danh động từ và Động từ nguyên thể (Gerund and Infinitive), Câu giả định (Subjunctive), Câu bị động (Passive Voice), Câu gián tiếp (Reported Speech), Mệnh đề quan hệ  (Relative Clauses), Comparison (So sánh), Liên từ (Conjuctions), Mạo từ (Articles), Giới từ (Prepositions), Các từ/ cụm từ diễn tả số lượng (Expressions of Quantity), Cụm động từ (Phrasal verbs), Cấu tạo từ (Word Formation), Đảo ngữ (Inversions), Sự kết hợp từ (Collocations), Mệnh đề trạng ngữ (Adverbial Clauses), Chức năng giao tiếp (Communicative tasks), Kỹ năng đọc (Reading Skills), Kỹ năng viết. Đây là những phần nội dung cơ bản của Khung chương trình tiếng Anh THPT. Do đó có thể nói các đề thi tiếng Anh đã đảm bảo độ tin cậy nội dung.

Dựa trên các phân tích trên, các chuyên gia cho rằng đề thi đảm bảo được độ giá trị bề mặt và độ giá trị nội dung. Tuy nhiên, để xét xem đề thi đã thực sự tốt và có giá trị trong việc đánh giá đúng năng lực của thí sinh hay không thì chúng ta cần xem xét đến các chỉ số quan trọng khác như: độ khó, độ phân biệt, độ tin cậy, và các đặc tính của câu hỏi thi. Các chỉ số này chỉ có thể xác định dựa trên bộ dữ liệu làm bài thi của các thí sinh.

Để hướng tới việc đánh giá chính xác năng lực của người học để phục vụ cho các mục đích khác nhau, chúng ta cần quan tâm hơn nữa tới độ giá trị của các đề thi nhằm nâng cao chất lượng đào tạo ở các bậc học, đặc biệt áp dụng cho các kỳ thi diện rộng ở Việt Nam như thi chọn học sinh giỏi, thi tốt nghiệp, thi tuyển sinh, thi xếp lớp, …

4. Kiến nghị/ Đề xuất

Kỳ thi diện rộng là kỳ thi rất quan trọng đối với nền giáo dục của một nước. Nó không chỉ ảnh hưởng tới tương lai của những học sinh trực tiếp tham dự mà còn ảnh hưởng tới chính sách giáo dục được xây dựng từ kết quả của các bài thi này (nếu có). Do đó, khi xây dựng đề thi cần (i) xác định độ giá trị nội dung, độ giá trị bề mặt và độ giá trị cấu trúc của đề thi bằng phương pháp chuyên gia để giảm thiểu các yếu tố ảnh hưởng tiêu cực tới độ giá trị của đề thi; (ii) áp dụng quy trình chuẩn trong xây dựng đề thi bao gồm việc thẩm định câu hỏi thi bằng phương pháp chuyên gia và thử nghiệm trên mẫu. Trong đó, việc thử nghiệm trên mẫu đủ lớn và có tính đại diện là việc quan trọng, giúp xác định các đặc tính cũng như giá trị của đề thi trước khi được đưa vào sử dụng. Tóm lại, việc đảm bảo độ giá trị của đề thi trên diện rộng chỉ thực hiện được khi 

(i) Đảm bảo chắc chắn mục tiêu và mục đích bài thi được xác định rõ ràng và có thể triển khai được (operatonalized), đồng thời chỉ rõ các yêu cầu đối với người dự thi.

(ii) So sánh các phương pháp đánh giá với mục tiêu, mục đích cần đạt. Thêm vào đó, lấy ý kiến phản biện của giáo viên từ các cơ sở đào tạo khác để có ý kiến đánh giá khách quan từ bên ngoài - những người ít tham gia vào thiết kế câu hỏi thi.

(iii) Nên có sinh viên tham gia vào quá trình thiết kế đề thi: có thể tham khảo ý kiến đánh giá của sinh viên về cách sử dụng từ ngữ, cách diễn đạt hoặc các khó khăn mà người dự thi có thể gặp phải.

(iv) Nếu có thể, so sánh phương pháp đánh giá đang được sử dụng với các phương pháp khác hoặc dữ liệu có sẵn.

Khi đề thi đã xác định được độ giá trị, có thể áp dụng phương pháp cân bằng độ khó và neo đề (sẽ được trình bày cụ thể ở các bài viết sau) nhằm đảm bảo các đề thi tương thích nhau và kết quả các bài thi của các năm là có thể so sánh được. Khi đề thi được cân bằng độ khó thì chúng ta có thể mở rộng thời hạn sử dụng kết quả các đề thi. Việc này sẽ góp phần giảm áp lực thi cử không đáng có đối với học sinh và xã hội và có thể làm căn cứ để xây dựng các chính sách giáo dục tốt hơn.

TÀI LIỆU THAM KHẢO

[1] American Educational Research Association, American Psychological Association, & National Council on Measurement in Education.  (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association. 

[2] Guion, R. M. (1980). On trinitarian doctrines of validity. Professional Psychology, 11, 385-398. 

[3] Popham, W. J. (2008). All About Assessment / A Misunderstood Grail. 

[4] Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50, 741-749. 

[5] Nitko, J.J., Brookhart, S. M. (2004). Educational assessment of students. Upper Saddle River, NJ: Merrill-Prentice Hall. 

[6] Technical recommendations for psychological tests and diagnostic techniques. American Psychological Association, American Educational Research Association, & National Council on Measurement in Education. (1954). Washington, DC: The Association. 

[7] Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer & H. Braun (Eds.), Test Validity (pp. 19-32). Hillsdale, NJ: Lawrence Erlbaum. 

[8] Cronbach, L.J. (1954). Educational Psychology, Harcourt, Brace and Company 1960; Copyright 1954 edition.

[9] Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302.

[10] Cronbach, L. J. (1969). Validation of educational measures. Proceedings of the 1969 Invitational Conference on Testing Problems. Princeton, NJ: Educational Testing Service, 35-52.

[11] Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, 634-694. 

[12] Tenopyr, M. L. (1977). Content-construct confusion. Personnel Psychology, 30, 47-54. 

[13] Guion, R. M. (1977). Content validity–The source of my discontent. Applied Psychological Measurement, 1, 1-10.

[14] Brennan, L. R. (2006). Educational Measurement (4th ed.,). Washington DC: American Council on Education.

[15] Cureton, E. E. (1951). Validity. In E. F. Lindquist (Ed.), Educational measurement (1st ed., pp. 621–694). Washington DC: American Council on Education.

[16] Professional Testing Inc. Test Validity. PTI 2006

[17] Cronbach, L. J. (1971). Test validation. In R. L. Thorndike (Ed.). Educational Measurement (2nd ed.). Washington, D. C.: American Council on Education.

[18] Messick, S. (1989). Validity. In R. Linn (Ed.), Educational measurement (3rd ed., pp. 13–103). Washington, DC: American Council on Education / Macmillan.

[19] Guilford, J. P., & Fruchter, B. (1978). Fundamental statistics in psychology and education (6th ed.). New York: McGraw-Hill. 

[20] Crocker, L., and Algina, J. (1986).  Introduction to Classical and Modern Test Theory.  New York: CBS College Publishing.

[21] Lord, F.M. Psychometrika, “Mối quan hệ giữa độ tin cậy của câu hỏi đa lựa chọn và phân bổ độ khó của câu hỏi”, 1952, 18, 181-194.

[22] Công văn số 374/KTKĐCLGD-KT ngày 31 tháng 3 năm 2015 của Bộ Giáo dục và Đào tạo về việc Giới thiệu đề thi minh họa Kỳ thi Trung học phổ thông quốc gia 2015. http://www.moet.edu.vn/?page=1.29&view=20696

 Tác giả: Dương Thị Anh, Nguyễn Thu Hà