(Tác giả: TS.BS. John P. A. Ioannidis. Quan điểm y khoa đăng trên JAMA ngày 22/3/2018)
Giá trị P và các phương pháp kiểm định mức ý nghĩa thống kê kèm theo nó đang tạo ra những thách thức trong y sinh học và nhiều chuyên ngành khác. Tuyệt đại đa số (96%) các bài báo có báo cáo giá trị P nhỏ hơn hoặc bằng 0,05 trong phần tóm tắt, toàn văn hoặc cả hai phần này [1]. Tuy nhiên, trong số các khẳng định mà các bài báo này đưa ra, nhiều trường hợp rất có thể là sai lầm [2]. Nhận thấy tầm quan trọng to lớn của câu đố về mức ý nghĩa thống kê, Hiệp hội Thống kê Hoa Kì (ASA) đã cho đăng tải một phát ngôn về giá trị P năm 2016. Nhiều người tin rằng còn phải bàn cãi về thực trạng vấn đề này, nhưng về cách thức đúng đắn để giải quyết vấn đề thì còn quá nhiều tranh cãi. Các tác giả của phát ngôn ASA cũng đã viết 20 chú thích độc lập kèm theo, tập trung vào các khía cạnh khác nhau và ưu tiên cho một số giải pháp. Một nhóm lớn khác, gồm 72 nhà khoa học về phương pháp nghiên cứu, gần đây cũng đã đề xuất một hướng đi cụ thể và đơn giản: đó là hạ thấp ngưỡng giá trị P thường dùng cho việc khẳng định mức ý nghĩa thống kê, từ 0,05 còn 0,005, đối với các phát hiện mới. Đề xuất đã nhận được sự tán đồng mạnh mẽ cũng như quan ngại ở các cộng đồng khoa học khác nhau.
Hiện nay giá trị P bị hiểu sai, cả tin cũng như lạm dụng. Những câu từ của phát ngôn ASA mổ xẻ rõ hơn 3 vấn đề này. Có rất nhiều cách hiểu sai về giá trị P, nhưng phổ biến nhất là giá trị này đại diện cho “xác suất để giả thuyết nghiên cứu là đúng” [3]. Giá trị P bằng 0,02 (2%) bị xem xét một cách sai lầm theo nghĩa rằng giả thuyết không (H0) (ví dụ, thuốc có hiệu quả như giả dược) có xác suất 2% là đúng và đối thuyết (ví dụ, thuốc có hiệu quả hơn giả dược) có xác suất 98% là đúng. Sự cả tin nghĩa là khi người ta quên đi rằng suy luận hợp lí cần có thông tin đầy đủ (full reporting) và sự tường minh (transparency)” [3]. Bản thân giá trị P đẹp (càng nhỏ) không đảm bảo cho việc thông tin đầy đủ và sự tường minh. Thực tế, giá trị P càng nhỏ lại có thể gợi ý việc thông tin chọn lọc (selective reporting) và sự không tường minh (nontransparency). Hiện tượng lạm dụng giá trị P phổ biến là đưa ra “các kết luận khoa học và quyết định thương vụ hoặc chính sách” dựa trên việc “giá trị P có vượt qua một ngưỡng cụ thể không” mặc dù “giá trị P, hay mức ý nghĩa thống kê, không đo lường mức độ của ảnh hưởng hay tầm quan trọng của kết quả nghiên cứu” và “bản thân giá trị P không phải là đánh giá đúng về bằng chứng” [3].
Ba vấn đề lớn nêu trên cho thấy việc vượt qua một ngưỡng mức ý nghĩa thống kê (vẫn hay dùng là P=0,05) hoàn toàn không đồng nghĩa với việc một phát hiện hoặc kết quả (ví dụ một mối liên hệ hoặc tác dụng điều trị) là đúng, xác thực và đáng để đưa ra hành động. Các cách hiểu sai này ảnh hưởng đến các nhà nghiên cứu, các bài báo và người sử dụng các bài báo nghiên cứu, thậm chí là giới truyền thông và cộng đồng sử dụng thông tin khoa học. Hầu hết các khẳng định được ủng hộ bởi một giá trị P hơi thấp hơn so với 0,05 rất có thể là sai lầm (nghĩa là không hề có mối liên hệ và tác dụng điều trị được khẳng định). Kể cả trong số những khẳng định thực sự là đúng, cũng có rất ít khẳng định đáng để đưa ra hành động về y khoa và chăm sóc sức khỏe.
Hạ thấp ngưỡng khẳng định mức ý nghĩa thống kê là ý tưởng đã cũ. Một số lĩnh vực khoa học đã cẩn thận xem xét cần hạ thấp giá trị P đến đâu để một phát hiện có khả năng đủ cao để trở nên “đúng”. Ví dụ, chấp nhận một ngưỡng mức ý nghĩa qui mô toàn bộ gen (P<5 x 10^-8) trong bộ gen quần thể làm cho các mối liên hệ được phát hiện trước nay có thể nghiên cứu lại nhiều lần và các mối liên hệ này cũng được thể hiện nhất quán khi kiểm định ở các quần thể mới. Tuy rằng bộ gen người rất phức tạp, nhưng người ta đã biết rõ phạm vi độ bội (multiplicity) của việc kiểm định mức ý nghĩa đang quan tâm, các phân tích thì có hệ thống và tường minh, và như vậy có thể đạt được yêu cầu P<5 x 10^-8 một cách thuyết phục.
Tuy nhiên, đối với hầu hết các lĩnh vực nghiên cứu y sinh học, người ta không biết rõ độ bội liên quan và các phân tích lại không hệ thống và không tường minh. Đối với hầu hết các nghiên cứu phát hiện mà không có qui trình nghiên cứu và kế hoạch phân tích đăng kí từ trước, việc tiến hành bao nhiêu phân tích và tìm ra các con đường phân tích nào khác là không rõ ràng. Giấu giếm độ bội, phát hiện không mang tính hệ thống và báo cáo chọn lọc thậm chí có thể ảnh hưởng đến cả nghiên cứu thực nghiệm và thử nghiệm ngẫu nhiên hóa. Mặc dù việc đăng tải qui trình nghiên cứu và kế hoạch phân tích thống kê có từ trước lên cơ sở dữ liệu công khai đang trở nên phổ biến hơn, song thực tế vẫn có sự tự do nhất định về cách thức phân tích dữ liệu và kết quả cũng như lựa chọn trình bày đích xác thông tin nào. Ngoài ra, nhiều nghiên cứu trong lâm sàng hiện nay tập trung vào các lợi ích hoặc nguy cơ nhỏ hơn; do đó, nguy cơ gặp nhiều sai số ảnh hưởng đến kết quả cũng tăng lên.
Dịch chuyển ngưỡng giá trị P từ 0,05 xuống 0,005 sẽ thay đổi khoảng 1/3 số kết quả được gọi là có ý nghĩa thống kê từ y văn trong quá khứ thành chỉ có tính “gợi ý” [1]. Sự dịch chuyển này là cần thiết cho những ai tin (có thể nói là một cách qua loa) vào sự trắng đen, có hay không có ý nghĩa thống kê. Đối với tuyệt đại đa số các nghiên cứu quan sát trong quá khứ, sự tái phân loại này sẽ rất được chào đón. Ví dụ, các nghiên cứu ngẫu nhiên của Mendel cho thấy chỉ có một số ít khẳng định trong quá khứ từ các nghiên cứu quan sát có P<0,05 thể hiện mối quan hệ nhân quả [5]. Như vậy, việc giảm mức ý nghĩa thống kê có thể loại bỏ hầu hết những ồn ào xung quanh mà gần như không làm mất các thông tin quan trọng. Đối với thử nghiệm ngẫu nhiên, tỉ lệ ảnh hưởng thực sự là đúng mà giá trị P trong khoảng 0,005 đến 0,05 sẽ cao hơn, có thể sẽ là phần lớn các kết quả ở một số lĩnh vực. Tuy nhiên, hầu hết các phát hiện đều không thể hiện tác dụng điều trị đủ lớn để có chỉ số đầu ra quan trọng đủ đến mức đáng phải hành động thêm. Như vậy, việc làm giảm ngưỡng giá trị P có thể mang lại nhiều ích lợi hơn là tác hại, mặc dù đôi khi cũng loại bớt đi một tác dụng điều trị thực sự tồn tại và có lợi khỏi vùng ý nghĩa mong muốn. Dù sao, cũng không thể phóng đại sự cần thiết việc tập trung cùng lúc vào mức độ của tất cả các tác dụng điều trị và sự không chắc chắn về các tác dụng này.
Hạ thấp ngưỡng mức ý nghĩa thống kê chỉ là biện pháp tình thế. Nó sẽ giống như một con đập giúp có thêm thời gian và đề phòng bị nhấn chìm trong dòng nước lũ ý nghĩa thống kê, trong khi xây dựng các giải pháp tốt và bền vững hơn [6]. Các giải pháp này có thể bao gồm việc bỏ đi toàn bộ các mức ý nghĩa thống kê hay giá trị P. Nếu vẫn còn tiếp tục sử dụng một ngưỡng nào đó thì rất có thể những ngưỡng thậm chí còn thấp hơn mới đáng dùng cho hầu hết các nghiên cứu quan sát. Các tổng quan toàn diện (umbrella reviews) đánh giá nhiều tổng quan hệ thống về các nghiên cứu quan sát đã đề xuất ngưỡng P<10^-6 [5]. Thêm nữa, các phương pháp sử dụng điểm kết thúc (endpoint) gây sai lệch (nghĩa là sử dụng ngưỡng giá trị P mà ở đó hầu hết các mối liên hệ với giả thuyết không đã được xác định rõ sẽ không thể vượt qua được) cũng sẽ dẫn tới giá trị P rất thấp [7]. Với sự hiện diện của các dữ liệu lớn, mức ý nghĩa thống kê sẽ ngày càng mang rất ít ý nghĩa vì các giá trị P cực kì thấp thường thu được khi các tín hiệu (dù đúng) có ích lợi là quá nhỏ.
Chấp nhận ngưỡng giá trị P thấp hơn có thể giúp xây dựng một hồ sơ nghiên cứu cải tổ với các nghiên cứu có số lượng ít hơn, qui mô lớn hơn, được xây dựng và thiết kế cẩn thận hơn với lực nghiên cứu đủ lớn để vượt qua các ngưỡng đòi hỏi ngày càng cao. Tuy nhiên, các tác hại bên cạnh đó cũng sẽ xuất hiện. Sai số có thể tăng lên thay vì giảm đi nếu các nhà nghiên cứu và các bên liên quan (ví dụ nhà tài trợ nghiên cứu vì lợi nhuận) cố tìm cách để đưa ra các kết quả có giá trị P thấp hơn. Các điểm kết thúc nghiên cứu được lựa chọn có thể trở nên ít phù hợp với lâm sàng hơn vì có được các giá trị P thấp với các điểm kết thúc đại diện thì dễ hơn là với các chỉ số lâm sàng khó thực hiện. Hơn nữa, các kết quả vượt qua ngưỡng giá trị P được hạ thấp có thể bị hạn chế bởi sự hồi qui nhiều hơn về giá trị trung bình và các phát hiện mới thậm chí có thể còn phóng đại hơn trước độ lớn của ảnh hưởng.
Do ngưỡng P<0,005 là không hoàn hảo, cũng cần tính đến các giải pháp khác dù khó khăn hơn nhưng bền vững hơn (Xem Bảng). Các giải pháp này khác nhau tùy theo mức độ chấp nhận nhanh chóng và dễ dàng của chúng. Các giải pháp có thể hướng đến việc sử dụng và biện giải các y văn trong quá khứ tính dồn đến nay hoặc các thiết kế và triển khai trong các y văn mới tích lũy trong tương lai. Tình hình rất khốc liệt đối với y văn trong quá khứ bởi lẽ không có cách sửa chữa hoàn hảo nào sau khi sự việc đã kết thúc. Về lâu dài, giới khoa học sẽ cần được tập huấn một cách phù hợp hơn về việc sử dụng các công cụ suy luận thống kê phù hợp nhất theo mục đích và cần hướng tới dự kiến giải quyết trước thay vì giải quyết hồi cứu lại sai số. Tuy nhiên, đây có thể lại tiếp tục là các mục tiêu gần như không thể đạt được.
Bảng: Đề xuất các giải pháp khác nhau cho việc tiến hành suy luận thống kê trên qui mô lớn
Các dữ liệu ngày càng trở nên phức tạp. Nếu vẫn còn hạn chế về thời gian tập huấn một cách kĩ lưỡng cho các nhà nghiên cứu và sử dụng nghiên cứu về phương pháp nghiên cứu và thống kê thì các thống kê y học kém dưới mức trung bình và sự biện giải sai lầm cùng với đó vẫn còn tiếp diễn. Tuy vậy, hi vọng rằng nhiều lĩnh vực sẽ chấp nhận các tiêu chuẩn tốt hơn về giá trị P, giảm dần sự phụ thuộc vào giá trị P và tăng cường chấp nhận các công cụ suy luận hữu ích khác (như thống kê Bayes) khi có thể. Sự nhanh chóng và mức độ của các thay đổi này là không thể tiên đoán được. Sự chấp thuận ít ỏi này trong quá khứ có thể gây ít nhiều bi quan. Tuy nhiên, một khởi đầu tươi mới và tăng tiến nhanh chóng cho việc chấp nhận những thực hành tốt hơn là luôn luôn có thể xảy ra. Sự khuyến khích từ các tạp chí và quĩ hỗ trợ lớn cũng như những thay đổi căn bản trong các khóa tập huấn có thể sẽ cần thiết nhằm đạt được những thay đổi rộng rãi và hiệu quả.
—————————————————————-
Tài liệu tham khảo:
Chavalarias D, Wallach JD, Li AH, Ioannidis JP. Evolution of reporting P values in the biomedical literature, 1990-2015. JAMA. 2016;315(11):1141-1148.
Ioannidis JP. Why most published research findings are false. PLoS Med. 2005;2(8):e124.
Wasserstein RL, Lazar NA. The ASA’s statement on P-values: context, process, and purpose. Am Stat. 2016;70(2):129-133.
Benjamin DJ, Berger JO, Johnson VE, et al. Redefine statistical significance. Nat Hum Behav. 2018;2:6-10.
Li X, Meng X, Timofeeva M, et al. Serum uric acid levels and multiple health outcomes. BMJ. 2017;357:j2376.
Resnick B. What a nerdy debate about P values shows about science-and how to fix it. https://www.vox.com/science-and-health/2017/7/31/16021654/p-values-statistical-significance-redefine-0005. Accessed February 1, 2018.
Prasad V, Jena AB. Prespecified falsification end points. JAMA. 2013;309(3):241-242.