Tương Quan Là Gì

Có phải “tương quan” và “mối liên hệ” là một thực tế hiếm gặp trong các báo cáo khoa học xã hội của sinh viên ngày nay? Điều này không hoàn toàn đúng. Cách diễn giải như vậy có thể chấp nhận được trong một số trường hợp đơn giản, nhưng vẫn cần nhấn mạnh rằng nó chưa hoàn toàn chính xác. Nguyên nhân chính của hiểu lầm này có thể là do thói quen hoặc việc chưa hiểu rõ khái niệm khi sử dụng thuật ngữ.

Như chúng ta đã biết, việc phân tích mô tả đơn biến thông thường không đem lại nhiều thông tin có giá trị, vì chỉ mô tả được một chiều cạnh của dữ liệu. Đôi khi, các dữ liệu ngẫu nhiên lại có mối liên hệ liên quan tới nhau. Sự liên quan này có thể hiểu là khi một biến X có mối liên hệ với biến Y, ta sẽ hiểu rằng với mỗi giá trị X là một giá trị Y tương ứng. Để làm rõ mối quan hệ giữa các yếu tố, nhà nghiên cứu phải chỉ ra được mối liên hệ có ý nghĩa thống kê giữa hai hoặc nhiều biến. Điều này được gọi là “phân tích tương quan” hoặc “phân tích mối liên hệ”.

Tuy nhiên, một trong những nhầm lẫn cơ bản của việc học thống kê tại Việt Nam là việc hiểu đúng thuật ngữ thường được sử dụng bằng từ Hán – Việt, trong đó việc sử dụng từ “tương quan” hay “mối liên hệ” là một trong các nhóm từ dễ bị hiểu nhầm nhất.

Về mặt từ nguyên theo từ điển Hán – Việt: “tương” là cùng nhau, đối với nhau còn “quan” là có liên hệ, dính dáng tới nhau; “liên” là liền với nhau và “hệ” là buộc lại với nhau. Điều này vô tình tạo nên nhầm lẫn, lây truyền từ thế hệ này sang thế hệ khác. Xét về mặt ngữ dụng, từ “tương quan” được sử dụng trong bối cảnh so sánh cụ thể, ví dụ như “tương quan lực lượng”, nghĩa là không chỉ chỉ ra mối liên hệ giữa hai đối tượng cần so sánh, mà còn phải chỉ ra sự tương xứng về các chiều cạnh có thể đo đếm được. Các chiều cạnh đó thường được hiểu là các đặc tính số học, tức là các khía cạnh định lượng của vật thể.

Các tài liệu sử dụng tiếng Anh sử dụng từ “correlation” khi muốn đo lường mối liên hệ giữa hai biến định lượng (các biến liên tục và biến thứ bậc). Từ này trong tiếng Việt được dịch là “tương quan”. Do đó, nếu xét qua lớp vỏ hình thái từ để đi vào nội dung của chúng, ta sẽ phân biệt được một cách chính xác thuật ngữ nào được sử dụng theo nghĩa tương đương trong một ngôn ngữ khác. Xét về mặt hình thức, hai thuật ngữ “relationship” và “correlation” giống nhau khi nói về sự liên quan giữa hai biến, sự tương ứng với giá trị của biến này là giá trị của một biến khác – tuy nhiên điều này chưa đúng về mặt bản chất của dữ liệu.

Phân tích mối liên hệ (association hay relation) là một thuật ngữ chỉ về mối quan hệ giữa các biến trong phân tích nghiên cứu. Việc sử dụng từ “mối liên hệ” cũng đề cập đến một mối quan hệ không đòi hỏi sự đo lường có độ chính xác cao. Theo cách diễn giải chung nhất, thuật ngữ “mối liên hệ” có thể được sử dụng cho cả hai biến định tính và định lượng.

Phân tích tương quan (correlation analysis) là một nhóm các kỹ thuật được sử dụng để đo lường mức độ liên hệ giữa các biến. Phân tích tương quan là một trường hợp đặc biệt của phân tích mối liên hệ. Tương quan bàn về đặc thù có thể đo lường trong mối liên hệ giữa các biến ở việc sự thay đổi giá trị của biến này sẽ gây ra ảnh hưởng tới sự thay đổi và phân bố xác suất của biến kia.

Phân tích tương quan chỉ áp dụng cho các biến định lượng và phân tích dạng này được bàn tới ít nhất ba yếu tố quan trọng trong mối liên hệ giữa các biến, được viết tắt là “S – T – D”.

  • “S” là “Strength”: độ mạnh hoặc yếu của tương quan (căn cứ vào hệ số tương quan mẫu, được kí hiệu là “r”)
  • “T” là “Type”: dạng tương quan giữa các biến, bao gồm tương quan tuyến tính và tương quan phi tuyến
  • “D” là “Direction”: hướng của tương quan, bao gồm tương quan thuận, tương quan nghịch và không tương quan

Độ mạnh/yếu của một mối tương quan được thể hiện qua hệ số tương quan (r), là một con số nằm trong đoạn [-1; 1] dùng để đo lường mức độ tương quan tuyến tính giữa biến X và Y. Giá trị của r biểu hiện độ mạnh/yếu, dạng và phương hướng của mối tương quan giữa các biến. Trong nghiên cứu thống kê, r chỉ là hệ số tương quan của mẫu, còn hệ số tương quan của tổng thể thường được kí hiệu là p và p(X,Y) là hệ số tương quan lý thuyết của toàn bộ các phần tử trong tổng thể.

Việc diễn giải dữ liệu theo dạng “giới tính và nghề nghiệp có tương quan với nhau” là chưa chính xác về mặt bản chất. Vì cả hai biến “nghề nghiệp” và “giới tính” đều là biến định tính, do đó, chúng ta cần diễn giải theo cách khác, ví dụ như “giới tính và nghề nghiệp có mối liên hệ có ý nghĩa thống kê với nhau”.

Tuy nhiên, việc có hay không mối tương quan có ý nghĩa thống kê sẽ phụ thuộc vào việc thiết lập và bác bỏ giả thuyết trong kiểm định mối liên hệ giữa các biến. Nhưng giới hạn của bài viết này chỉ tập trung vào phân biệt khái niệm để diễn giải đúng. Hy vọng bài viết có thể giúp các bạn hiểu rõ hơn về hai khái niệm cơ bản trong thống kê và áp dụng phù hợp trong nghiên cứu của mình.