Nguyen Anh

Thu thập và hiển thị dữ liệu

5/10/2019 • ☕️☕️ 9 min read

Giới thiệu

Để đưa ra một giả thuyết, ta cần phải thu thập dữ liệu và quan sát chúng dưới các hình mẫu. Tuy nhiên, các tập dữ liệu thường khó quan sát vì có khi chúng chỉ là danh sách các số. Để khám phá ra các hình mẫu, ta thường sử dụng các đồ thị và các mô tả thống kê để tóm tắt và hiển thị dữ liệu. Bài viết này diễn giải các phương pháp tóm tắt và biểu diễn chúng dưới dạng các đồ thị.

Biến, đơn vị thí nghiệm và loại dữ liệu

Các thuộc tính cụ thể bạn có thể đo lường được khi bạn thu thập dữ liệu được gọi là các biến (variables) (v.d. nhiệt độ cơ thể, số lượng của một loài bọ cánh cứng trên vỏ đậu, lượng nấm gây hại trên mỗi lá,…). Những dữ liệu này được thu thập từ các đơn vị thử nghiệm, chúng có thể là một cá thể độc lập (v.d. một người hay một con cá voi) hoặc một cá thể được định nghĩa (v.d. một mét vuông biển, một chiếc lá hay một cái hồ). Nếu bạn chỉ đo một biến mỗi đơn vị thử nghiệm, tập dữ liệu là univariate. Dữ liệu cho hai biến mỗi đơn vị là bivariate, trong khi dữ liệu cho ba hoặc nhiều biến được đo trên cùng một đơn vị thử nghiệm là multivariate.

Biến có thể được đo lường trên bốn thang đo: thang đo tỉ lệ (scale), thang đo khoảng (interval), thang đo thứ tự (ordinal) và thang đo định danh (nominal)

  • Thang đo tỉ lệ mô tả một biến mà có giá trị số học bằng đúng bằng số lượng đo được.

    • Có một điểm zero mà không có giá trị nào nhỏ hơn nó (Ví dụ, một con thằn lằn không thể có chiều dài là một số âm).
    • Sự gia tăng của cùng một số lượng chỉ ra cùng số số lượng trên phạm vi đo lường. Ví dụ, một con thằn lằn 2cm và 40cm sẽ cùng tăng một đại lượng nhưu nhau nếu chúng cùng tằng độ dài 10cm.
    • Một tỉ lệ cụ thể được bảo toàn trên phạm vi của biến. Ví dụ, một con thằn lằn 40cm dài hơn 20 lần so với con thằn lằn dài 2cm, một con thằn lằn dài 100cm dài gấp 20 lần so với con thằn lằn 5cm.
  • Thang đo khoảng mô tả một biến có giá trị có thể nhỏ hơn 0.

    • Điểm zero là tùy ý (cho ví dụ, nhiệt độ đo được theo độ đo celsius có điểm zero mà tại đó nước đóng băng) nên có thể có giá trị âm. Điểm zero thực sự cho nhiệt độ là điểm mà hoàn toàn không có nhiệt, là zero kevin (khoảng -273°C, không giống thang đo celsius, thang đo Kelvin là thang đo tỉ lệ.
    • Khi tăng một đại lượng số học biểu thị cùng 1 số lượng trên khoảng đo lường. (ví dụ một lượng tăng 2°C chỉ ra rằng cùng lượng tăng nhiệt độ từ điểm khởi nhiệt (starting temperature)).
    • Do điểm zero là tùy ý, không có một tỷ lệ cụ thể được giữ trên trên khoảng của biến (ví dụ, một tỷ lệ của 6°C so với 1°C không giống như 60°C so với 10°C. Hai tỷ lệ theo thang đo Kelvin là 279 : 274 K and 333 : 283 K)
  • thang đo thứ tự áp dụng cho dữ liệu mà ác giá trị được xếp hạng. Thứ hạng này không nhất thiết chỉ ra sự khác biệt bất biến. Cho ví dụ, 5 đứa trẻ tuổi 2, 7, 9, 10 và 16 tuổi có tuổi được đo trong thang đo tỷ lệ. Nếu hạng của tuổi này theo thứ tự từ trẻ đến già, ví dụ hạng từ 1 đến 5, dữ liệu đã được chuyển sang thang đo thứ tự. Đứa trẻ thứ 2 không nhất thiết phải già hơn 2 lần đứa trẻ thứ nhất. Một lượng tăng của lượng số học tương ứng của bậc không nhất thiết giữ thông qua khoảng của biên.
  • Thang đo định danh áp dụng cho dữ liệu mà các giá trị được phân lớp theo các thuộc tính. Cho ví dụ, nếu chỉ có dạng lông chuột thì mẫu của chuột có thể chia nhỏ ra thành số lượng mà mỗi trong chố nó có 2 thuộc tính này.

Dữ liệu trong thang đo tỉ lệ, thang đo thứ tự và thang đo khoảng bao gồm cả dữ liệu liên tục và dữ liệu rời rạc, thang đo định danh chỉ có dữ liệu rời rạc.

Dữ liệu liên tục (Continuous data) nhận bất cứ giá trị nào trong một khoảng. Cho ví dụ, nhiệt độ có thể nhận bất cứ giá trị nào trong khoảng 10°C đến 20°C, chẳng hạn 15.3°C hay 17.82°C. Khác với dữ liệu liên tục, dữ liệu rời rạc (Discrete data) có giá trị cố định trong khoảng. Ví dụ, số lượng trẻ sinh ra tăng từ một số cố định đến số tiếp theo, bởi vì không thể có một phần đứa trẻ. Việc xác định loại dữ liệu đang xử lý là rất quan trọng bởi nó là yếu tố để quyết định sự lựa cho việc kiểm định thống kê (statistical test);

Hiển thị dữ liệu

Biểu đồ tần suất (Histogram)

Dưới đây là một danh sách số lần đi khám bác sĩ trong 6 tháng với mẫu là 60 học sinh được chọn ngẫu nhiên từ một lớp đại học năm nhất chuyên ngành sinh học. Dữ liệu là rời rạc univariate, ratio scaled:

1,11,2,1,10,2,1,1,1,1,12,1,6,2,1,2,2,7,1,2,1,1,1,1,1,3,1,2,1,2,1,4,6,9,1,2,8,1,9,1,8,1,1,1,2,2,1,2,1,2,1,1,8,1,2,1,1,1,1,7

Khó có thể nhìn ra bất cứ hình mẫu nào (pattern) từ những con số này, nhưng bạn có thể tổng hợp và hiển thị chúng bằng cách vẽ một biểu đồ tần suất. Để làm điều này, bạn phân tách số học sinh theo số lần thăm khám: không bao giờ khám bệnh, hay đi một, hai, ba lần,… và vẽ chúng như các hình chữ nhật trên đồ thị với trục X biểu diễn số lần đi khám và trục Y là số lượng sinh viên trong mỗi trường hợp đó. Kết quả như hình dưới

1

Số học sinh đi khám bệnh trong 6 tháng qua của 60 sinh viên được chọn ngẫu nhiên từ 600 sinh viên năm nhất

Tóm tắt trực quan này cho thấy phân phối bị lệch sang phải: hầu hết số sinh viên đều đi khám bệnh, nhưng một số sinh viên đã khám bệnh 6 lần hay nhiều hơn.

Nhìn vào đồ thị này, bạn có thể có một chút nghi ngờ do tất cả các học sinh đều đi khám bệnh ít nhất một lần. Trong được hỏi về điều này với cả lớp, thông tin được đưa ra rằng tất cả sinh viên đều có phải tham gia khám bệnh bắt buộc cho sinh viên năm nhất tại trường đại học, do đó dữ liệu này có phần sai lệch để có thể chỉ ra sức khỏe của nhóm.

Bạn có thể muốn vẽ một đường nối các điểm chính giữa ở trên mỗi cột để chỉ ra hình dáng của phân phối nhưng việc này đồng nghĩa ám chỉ rằng dữ liệu trên trục X là liên tục. Điều này không thể xảy ra trong trường hợp này do số lần khám bệnh là những số rời rạc.

Biểu đồ tần suất đường hoặc cột

Nếu dữ liệu là liên tục, nó có thể coi như vẽ một đường nối các điểm chính giữa trên đỉnh của mỗi cột trong biểu đồ tần suất. Đây là một ví dụ cho việc một số dữ liệu liên tục có thể tóm tắt như một đồ thị tần suất hay một đồ thị đường.

Thời gian phản hồi một kích thích (stimulus) của một người được gọi là thời gian phản ứng của họ. Việc này dễ dàng đo được trong phòng thí nghiệm bằng cách bấm một nút nay khi nhìn thấy ánh đền flash. Khoảng thời gian khi nút được ấn được định nghĩa như thời gian phản hồi. Một nhà nghiên cứu nghi ngờ rằng một phản ứng có thời gian dài bất thường có thể là cách hữu ích để chuẩn đoán sớm một số bệnh về thần kinh, do vậy họ chọn ngẫu nhiên 30 sinh viên đại học năm nhất từ lớp sinh học và đo thời gian phản ứng của những sinh viên này theo đơn vị giây (seconds). Dữ liệu thu được như sau

0.70, 0.50, 1.20, 0.80, 0.30, 0.34, 0.56, 0.41, 0.30, 1.20, 0.40, 0.64, 0.52, 0.38, 0.62, 0.47, 0.24, 0.55, 0.57, 0.61, 0.39, 0.55, 0.49, 0.41, 0.72, 0.71, 0.68, 0.49, 1.10, 0.59

Dữ liệu trên là liên tục nên việc tóm tắt dữ liệu không đơn giản như với dữ liệu rời rạc. Để hiển thị một biểu đồ tần suất cho dữ liệu liên tục, bạn cần chia nhỏ dữ liệu thành tần suất của các trường hợp cụ thể (case) trong chuỗi bởi các khoảng có độ rộng như nhau. Đầu tiên, bạn cần nhìn vào khoảng của dữ liệu (thời gian phản hồi trong khoản 0.24 đến 1.2) và quyết định kích thước của khoảng sẽ dùng hiển thị dữ liệu. Ở đây, giá trị được chọn là 0.999. Từ đó, bắt đầu từ 0.20, ta sẽ có 11 khoảng, với khoảng đầu tiên từ 0.20 đến 0.29.

Việc chọn độ rộng (kích thước) rất quan trọng trong việc quyết định hình dạng của phân phối. Nếu chọn khoảng có kích thước mà cả bộ dữ liệu chỉ nằm trong hai khoảng thì khi đó, trên biểu đồ tần suất chỉ có 2 cột. Hoặc nếu chọn nhiều hơn 20 khoảng thì khi đó có thể một số cột trên biểu đồ chỉ chứa một vài dữ liệu.

Biểu đồ tích lũy (Cumulative graphs)

Biểu đồ tích lũy thường hữu ích khi hiển thị dữ liệu như một biểu đồ tần suất tích lũy.

Đây là dạng biểu đồ hiển thị tổng số lũy tiến của các trường hợp, bắt đầu từ 0 hoặc 0% và kết thúc ở kích thước mẫu hoặc 100% trên trục Y.

Độ rộng khoảng Số sinh viên
0.20–0.29 1
0.30–0.39 5
0.40–0.49 6
0.50–0.59 7
0.60–0.69 4
0.70–0.79 3
0.80–0.89 1
0.90–0.99 0
1.00–1.09 0
1.10–1.19 1
1.20–1.29 2

Tổng hợp dữ liệu cho thời gian phản ứng theo giây của 30 sinh viên chọn ngẫu nhiên từ lớp Sinh học năm nhất.