Thống kê
Ngành khoa học về thu thập và phân tích dữ liệu với số lượng lớn / From Wikipedia, the free encyclopedia
Thống kê (Tiếng Anh: statistics) là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích, giải thích, trình bày và tổ chức dữ liệu[1]. Khi áp dụng thống kê trong khoa học, công nghiệp hoặc các vấn đề xã hội, thông lệ là bắt đầu với tổng thể thống kê hoặc một quá trình mô hình thống kê sẽ được nghiên cứu. Tổng thế có thể gồm nhiều loại khác nhau như “tất cả mọi người đang sống trong một đất nước” hay “tập hợp các phân tử của tinh thể”. Nó đề cập tới tất cả các khía cạnh của dữ liệu bao gồm việc lập kế hoạch, thu thập dữ liệu mẫu cho các cuộc khảo sát và thí nghiệm.[1]
Khi không thể thu thập được dữ liệu điều tra dân số, các nhà thống kê thu thập dữ liệu bằng cách phát triển các mẫu thí nghiệm và mẫu khảo sát cụ thể. Quá trình lấy mẫu đại diện đảm bảo rằng những suy luận và kết luận có thể được áp dụng từ mẫu cho đến tổng thể. Một nghiên cứu thực nghiệm bao gồm việc đo lường hệ thống được nghiên cứu, thao tác trên hệ thống và sau đó đo lường thêm, sử dụng cùng thủ tục mẫu để xác định xem các thao tác có thay đổi giá trị đo lường hay không Ngược lại, một quan sát nghiên cứu không liên quan đến thao tác thực nghiệm.
Hai phương pháp thống kê chính được sử dụng trong phân tích dữ liệu: thống kê mô tả, đây là phương pháp tóm tắt dữ liệu từ một mẫu sử dụng các chỉ số như là giá trị trung bình hoặc độ lệch chuẩn, và thống kê suy luận, rút ra kết luận từ dữ liệu biến thiên ngẫu nhiên (ví dụ: các sai số quan sát, mẫu của tổng thể)[2]. Thống kê mô tả được sử dụng thường xuyên nhất với hai thuộc tính phân phối (mẫu hoặc tổng thể): chiều hướng trung tâm (hoặc vị trí) tìm cách để mô tả giá trị trung bình hoặc giá trị đặc trưng của phân phối, trong khi phân tán (hoặc thay đổi) mức độ đặc trưng mà các thuộc tính của phân phối đi trệch so với nghiên cứu. Suy luận về thống kê toán học được thực hiện trong khuôn khổ của lý thuyết xác suất, trong đó đề cập tới việc phân tích các hiện tượng ngẫu nhiên. Để thực hiện một suy luận khi chưa biết số lượng, hoặc nhiều ước lượng được đánh giá bằng cách sử dụng mẫu.
Thủ tục thống kê tiêu chuẩn liên quan đến sự phát triển của một giả thuyết vô nghĩa ban đầu là không có mối quan hệ nào giữa hai đại lượng. Loại bỏ hoặc bác bỏ giả thuyết này là một nhiệm vụ quan trọng trong việc giải thích những quan điểm mới của khoa học thống kê, đưa ra một ý nghĩa chính xác trong đó một giả thuyết được chứng minh là sai. Những gì thống kê gọi là một giả thuyết khác chỉ đơn giản là một giả thuyết trái với giả thuyết vô nghĩa. Phân tích từ một giả thuyết hai hình thức cơ bản của lỗi này được ghi nhận: sai số loại I (giả thuyết vô nghĩa sai bị bác bỏ cho một tính chất xác thực không đúng) và sai số loại II (giả thuyết không được bác bỏ và sự khác biệt thật sự giữa các tổng thể được bỏ qua cho một phủ định sai). Một việc quan trọng là tập hợp các giá trị của các ước lượng dẫn đến bác bỏ giả thuyết vô nghĩa. Do đó sai số của xác suất loại I là xác suất các ước lượng thuộc các miền quan trọng cho rằng giả thuyết đúng (có ý nghĩa thống kê) và sai số của xác suất loại II là xác suất mà các ước lượng không phụ thuộc các lớp quan trọng được đưa ra rằng giả thuyết thay thế là đúng. Các chính sách thống kê của một bài đánh giá xác suất đúng khi bác bỏ giả thuyết vô nghĩa khi giả thuyết là sai. Nhiều vấn đề đã được liên kết với khôn khổ: từ việc có được một cỡ mẫu đủ để xác định một giả thuyết vô nghĩa thích hợp.
Quy trình đo lường để tạo ra các dữ liệu thống kê cũng có thể bị lỗi. Phần nhiều trong số các lỗi này được chia làm hai loại: ngẫu nhiên (noise - dữ liệu vô nghĩa) hoặc có hệ thống (bias – độ chệch), nhưng các loại sai lệch khác (ví dụ, sai lệch khi người phân tích báo cáo sai các đơn vị đo lường) cũng rất quan trọng. Sự xuất hiện của dữ liệu bị thiếu hoặc sự kiểm duyệt có thể dẫn đến các ước tính bị chệch và những kỹ thuật cụ thể đã được phát triển để giải quyết những vấn đề này.
Thống kê có thể được cho là đã bắt đầu trong nền văn minh cổ xưa, ít nhất là từ cuối thế kỷ thứ 5 TCN, nhưng cho đến thế kỷ 18 thì nó mới chịu ảnh hưởng nhiều hơn từ số học và lý thuyết thống kê. Thủ tướng Anh là Benjamin Disraeli nhận xét: có ba loại nói dối gồm nói dối, nói dối thậm tệ và thống kê[3]