Vì sao Trung Quốc Cho phép Mạng Xã hội Tự do hơn? Phản kháng vs. Giám sát và Tuyên truyền

Bei Qin, David Strömberg, và Yanhui Wu*

TÓM TẮT

Bài báo này khảo sát vai trò của truyền thông xã hội (social media, sau đây gọi là mạng xã hội) Trung Quốc trong ba lĩnh vực: tổ chức hoạt động tập thể, giám sát các quan chức chính phủ, và tuyên truyền. Nghiên cứu của chúng tôi dựa trên một bộ dữ liệu gồm 13,2 tỷ blog post được đăng trên Sina Weibo – nền tảng microblog nổi tiếng nhất Trung Quốc – trong giai đoạn 2009-2013. Chúng tôi thấy hàng triệu post thảo luận rõ ràng các cáo buộc tham nhũng và các sự kiện hoạt động tập thể, như các cuộc phản đối, đình công, và biểu tình. Việc sử dụng mạnh mạng Sina Weibo kết hợp đầy ý nghĩa với tỷ lệ cao hơn của các cuộc phản đối và các xung đột quy mô lớn. Chúng tôi cũng thấy rằng mạng xã hội là các công cụ hữu hiệu để giám sát: nội dung Sina Weibo dự đoán các sự kiện tập thể một ngày trước khi chúng xảy ra và các lời buộc tội tham nhũng trước một năm. Cuối cùng, chúng tôi ước lượng rằng dữ liệu của chúng tôi chứa 600.000 tài khoản liên kết với chính quyền mà đóng góp 4% tất cả các post về các vấn đề chính trị và kinh tế trên Sina Weibo. Phần của các tài khoản chính quyền là lớn hơn trong các khu vực với một mức kiểm duyệt cao hơn và nơi các báo có một thiên vị phò chính phủ mạnh. Tổng thể, các phát hiện của chúng tôi gợi ý rằng chính phủ Trung Quốc điều tiết mạng xã hội để cân bằng các đe doạ đối với sự ổn định chế độ đối lại các lợi ích về sử dụng thông tin từ dưới lên.

1 Dẫn nhập

Vào khoảng nửa đêm 29-3-2014, một số người Trung Quốc chơi internet khuya đã để ý rằng hệ số nguy hiểm của P-Xylene (PX) đã thay đổi từ ‘thấp’ lên ‘cao’ trên Baidu Encyclopedia – tương đương như Wikipedia ở Trung Quốc. Sáng hôm sau, hàng trăm người phản đối đã tụ tập ở Maoming – một thành phố ở khu trung tâm công nghiệp của Trung Quốc – nơi một nhà máy PX quy mô lớn được dự tính. Vào 8:38 sáng, một thông báo với các bức ảnh của cuộc phản đối được post trên Sina Weibo – tương đương với Twitter ở Trung Quốc. Hàng chục ngàn người đã gia nhập cuộc phản đối, đòi các câu trả lời từ các quan chức địa phương, đốt cháy một ô tô, ném chai lọ cho đến khi cảnh sát giải tán những người phản đối bằng hơi cay và dùi cui. Ngày tiếp theo, các bức ảnh về những người phản đối đầy máu me đã lan truyền trên mạng. Hàng ngàn post tranh luận về dự án PX và lên án hành động của chính quyền đã xuất hiện trên các mạng xã hội khác nhau.

Trong thời đại công nghệ thông tin tiên tiến, mạng xã hội trong một số trường hợp có thể cung cấp một cú sốc thông tin khổng lồ cho một nước như Trung Quốc, mà trong đó thông tin và truyền thông công cộng bị giới hạn bởi sự kiểm soát chính phủ. Một cú sốc thông tin như vậy do mạng xã hội gây ra tác động thế nào đến sự tham gia của các công dân Trung Quốc vào các sự kiện chính trị? Và chính phủ Trung Quốc phản ứng ra sao với cú sốc thông tin này? Một bước đầu tiên trong giải quyết các câu hỏi này là lập tư liệu thông tin được công bố và truyền đưa trên mạng xã hội Trung Quốc.

Trong bài báo này, chúng tôi lập tư liệu các sự thực cơ bản liên quan đến các cuộc thảo luận công khai về các vấn đề chính trị gây tranh cãi trên mạng xã hội Trung Quốc. Việc lập tư liệu của chúng tôi dựa trên một bộ dữ liệu gồm 13,2 tỷ blog post được công bố trên Sina Weibo nền tảng microblog nổi tiếng nhất Trung Quốc trong giai đoạn 2009-2013. Chúng tôi cũng thảo luận các ngụ ý của các phát hiện của chúng tôi.

Phát hiện đầu tiên của chúng tôi là. một số lượng lớn gây sốc của các post về các đề tài hết sức nhạy cảm đã được đăng và lưu truyền trên mạng xã hội. Thí dụ, chúng tôi thấy hàng triệu post thảo luận các cuộc phản đối như sự kiện chống-PX trong 2014. Và các post này mang thông tin dự đoán sự xuất hiện của các sự kiện cụ thể. Chúng tôi thấy một số còn lớn hơn các post với các cáo buộc tham nhũng rõ rang, và rằng các post này dự đoán các sự buộc tội tham nhũng tương lai của các cá nhân cụ thể.

Loại này của nội dung mạng xã hội có thể làm tăng sự tiếp cận của các công dân đến thông tin và kiềm chế khả năng của các chính phủ độc đoán để hành động mà không có sự giám sát. Ở Trung Quốc, mạng xã hội rõ ràng có tiềm năng để đóng một vai trò như vậy bởi vì tính phổ biến rộng lớn của chúng. Gần nửa dân cư có tiếp cận đến internet, và hai trong mỗi mười người Trung Quốc sử dụng Weibo một cách tích cực. Mỗi ngày, hàng triệu blog post được tạo ra, được trao đổi, và được bình luận. Nhiều trong số các post này đi đến hàng ngàn hoặc thậm chí hàng triệu bạn đọc. Là rất tốn kém cho chính phủ Trung Quốc để theo dõi hàng triệu người dùng, đặc biệt khi họ thi thoảng post trong các đợt sóng cồn lớn vào giữa đêm.

Tuy vậy, mạng xã hội cũng tạo cho các chính phủ độc đoán các cơ hội mới cho việc kiểm soát chính trị như được lưu ý bởi Egorov, Guriev, and Sonin (2009). Shirky (2011), Morozov (2012), và Lorentzen (2014). Thông điệp mạng xã hội được truyền đi dưới dạng điện tử qua một hạ tầng cơ sở thường được chính phủ kiểm soát. Các tiến bộ gần đây về phân tích văn bản tự động, các kỹ thuật học máy, và máy tính công suất cao đã làm giảm đáng kể chi phí nhận diện các người dùng hay chỉ trích và kiểm duyệt các thông điệp (Edmond 2013). Các chính phủ có thể sử dụng các phương pháp này để theo dõi và phân tích các hoạt động online, để đánh giá dư luận, và để kiềm chế các đe doạ trước khi chúng lan đi.

Trong một chế độ chuyên quyền, một hệ thống giám sát dựa trên mạng xã hội có thể hữu hiệu thế nào? Chúng tôi đánh giá khả năng này bằng thăm dò một công cụ giám sát không phức tạp, và chúng tôi thấy rằng mạng xã hội có thể rất hiệu quả cho việc giám sát sự phản kháng. Hầu hết các cuộc phản kháng thế giới-thực và các cuộc đình công mà chúng tôi nghiên cứu có thể được dự đoán một ngày trước dựa trên nội dung mạng xã hội. Phương pháp dò là đơn giản, và chi phí thì thấp.

Thực vậy, các cơ quan chính quyền Trung Quốc khắp nước đã đầu tư mạnh vào các hệ thống giám sát mà khai thác thông tin trên mạng xã hội. Kết quả được minh hoạ bởi một sự kiện chống-PX nữa, mà đã diễn ra theo cách khác, một năm trước. Một số công dân ở Thành Đô đã post các thông điệp trên Sina Weibo kêu gọi các cuộc biểu tình chống lại việc khởi đầu một dự án PX địa phương vào thứ Bảy, 4-5-2013. Lời kêu gọi này đã được chính quyền Thành Đô tóm được và đã lập tức đưa ra các biện pháp kể cả biến Thứ Bảy và Chủ Nhật của tuần đó thành các ngày làm việc và yêu cầu các học sinh phải ở trường trong những ngày đó. Bởi thế, cuộc biểu tình ở Thành Đô đã bị giới hạn ở mức vài trăm người tham gia, trong khi một cuộc phản đối chống-PX tương tự ở Côn Minh cùng ngày đã thu hút hơn 10.000 người tham dự. Trong trường hợp này, giám sát nội dung mạng xã hội đã giúp chính quyền kiềm chế một cuộc phản đối.

Một chức năng giám sát quan trọng khác của mạng xã hội là để giám sát các chính quyền và các quan chức địa phương. Ở Trung Quốc, nhiều quyết định chính trị và kinh tế được phân cấp cho các chính quyền địa phương. Các quyết định này cần được giám sát, nhưng tin tức và các báo cáo địa phương chắc là bị méo mó bởi vì các chính trị gia địa phương kiểm soát báo chí và bộ máy hành chính địa phương. Ngược lại, các chính trị gia quốc gia điều tiết mạng xã hội. Trong mạng xã hội, đầy rẫy những lời phàn nàn không thương xót về các quan chức địa phương. Các post phơi bày các quan chức đeo đồng hồ Rolex, sống trong các lâu đài, hay có bồ nhí đã dẫn đến các cuộc điều tra và sa thải. Không ngạc nhiên, chúng tôi quan sát hàng triệu post với các cáo buộc tham nhũng rõ ràng trong dữ liệu của chúng tôi.

Chúng tôi thấy rằng các post mạng xã hội liên quan đến các chủ đề tham nhũng là có kết quả cho sự giám sát tham nhũng. Các post này giúp nhận diện khi nào và ở đâu tham nhũng là thịnh hành hơn. Ngoài ra, chúng tôi có thể dự đoán các chính trị gia cụ thể nào muộn hơn sẽ bị kết án tham nhũng, cho đến một năm trước sự tố tụng pháp lý đầu tiên. Kết quả này cho thấy rằng thông tin mạng xã hội có thể là một công cụ hữu ích để nhận diện tham nhũng, mà có lẽ cũng đúng ở các nước khác nữa.

Không phải là không có rủi ro để post thông tin về các cuộc phản đối và thông tin tiêu cực về các lãnh đạo địa phương, và một số người dùng đã bị trừng phạt vì làm vậy (Freedom House 2012; Reporters Without Borders 2013). Tuy nhiên, trong chừng mực chúng tôi biết, không có nghiên cứu trước có tính hệ thống nào về mức độ và tính hiệu quả của dạng này của sự kiểm soát bằng cảnh sát. Chúng tôi khảo sát quy mô của các thực hành này bằng việc lần vết những người sử dụng đã post về các vấn đề nhạy cảm và xem liệu các tài khoản của họ sau đó có bị đóng hay không.

Chính quyền cũng có thể sử dụng mạng xã hội như một kênh tuyên truyền. Trong các thí dụ chống-PX ở trên, các chính quyền đã tiến hành các chiến dịch tuyên truyền mạnh mẽ qua các tài khoản của họ trên mạng xã hội. Trong một trường hợp, các tài khoản của chính quyền đã liên tục blog rằng “PX không gây ra ung thư nhiều hơn cà phê.” Mức độ của loại này của các post của chính quyền là khó để biết bởi vì chúng phát ra từ quá nhiều tài khoản ngang các vùng và các mức chính quyền. Trong 2012, Sina Weibo đã báo cáo rằng khoảng 50.000 được vận hành bởi các cơ quan chính quyền hay các cá nhân quan chức, nhưng không có ước tính bên ngoài nào về loại hiện diện này của chính quyền trên mạng xã hội.

Chúng tôi tìm cách để nhận diện các tài khoản chính quyền từ các tên người dùng và phân tích văn bản của các post trong dữ liệu của chúng tôi. Dựa vào cách tiếp cận này, chúng tôi ước lượng có 600.000 tài khoản có liên kết đến chính quyền, mà đóng góp bốn phần trăm của tất cả các post về các vấn đề chính trị và kinh tế trên Sina Weibo, sử dụng một số đo bao gồm các người dùng (thuộc) tổ chức chính quyền, tổ chức quần chúng và báo chí. Ngay cả khi hạn chế ở định nghĩa thu hẹp nhất của người dùng chính quyền, con số được Sina Weibo báo cáo ước lượng quá thấp sự hiện diện của chính quyền trên Sina Weibo.

Các phát hiện của chúng tôi thách thức một quan điểm phổ biến rằng một chế độ độc đoán sẽ kiểm duyệt không thương xót hặc thậm chí cấm mạng xã hội. Thay vào đó, sự tương tác của một chính quyền độc đoán với mạng xã hội có vẻ phức tạp hơn. Từ quan điểm của chính quyền, mạng xã hội không chỉ là (1) ít hấp dẫn như một phương tiện truyền thông cho sự phản kháng xã hội được tổ chức mà cũng là (2) một phương pháp có ích để giám sát các quan chức địa phương và (3) đo ý kiến công chúng, cũng như (4) một phương pháp để phổ biến tuyên truyền. Từ quan điểm của các công dân, bất kể lợi ích được cảm thấy nào của mạng xã hội cần được đánh giá trong một khung cảnh của (5) sự kiểm soát thâm nhập khắp có thể của cảnh sát, sự trừng phạt, và (6) sự kiểm duyệt phương tiện truyền thông như vậy. Như đã nhắc tới ở trước, sự tương tác phức tạp này đã được các nhà nghiên cứu thảo luận. Tuy nhiên, nghiên cứu theo lối kinh nghiệm chặt chẽ về chủ đề này là ít. Một ngoại lệ là Enikolopov, Makarin, and Petrova (2016), những người thấy rằng mạng xã hội đã có tác động đến các cuộc phản kháng ở Nga trong 2011. Sự ngoại lệ khác là kiểm duyệt, mà đã được nghiên cứu rộng rãi (chẳng hạn, Bamman O’Connor, and Smith 2012; Fu, Chan, and Chau 2013; King, Pan, and Roberts 2013, 2014; Zhu, Phipps, Pridgen, Crandall, and Wallach 2013). Ngược lại, chúng tôi sẽ không thảo luận sự kiểm duyệt, nhưng trình bày bằng chứng then chốt cho tất cả năm điểm khác được liệt kê ở trên.

Chúng tôi bắt đầu với một tổng quan về sự phát triển của mạng xã hội ở Trung Quốc, tiếp theo bằng một mô tả dữ liệu. Chúng tôi tiếp tục phân tích các cuộc phản đối, sự tham nhũng, và sự hiện diện của chính quyền trên Sina Weibo. Cuối cùng chúng tôi thảo luận các ngụ ý của mạng xã hội, dựa vào các kết quả của chúng tôi.

2 Bối cảnh

Vào 2013, đã có 618 triệu người Trung Quốc dùng internet, chiếm khoảng 46 phần trăm dân số Trung Quốc. Tỷ lệ này là cao hơn trung bình toàn cầu 39 phần trăm (China Internet Network Information Center 2014; International Telecommunication Union 2013). Trong số người sử dụng internet này, 281 triệu (45 phần trăm) đã tham gia tích cực vào việc viết microblog, mà ám chỉ đến các phương tiện mạng xã hội chú tâm đến các thông điệp ngắn, các ảnh cá nhân, hay có lẽ các đường dẫn video (ngược với mạng xã hội như Facebook mà có tiềm năng cho dạng dài hơn hay truyền thông chi tiết hơn).

Tính phổ biến của các microblog là một hiện tượng gần đây. Trong 2006, người dân Trung Quốc đã biết về Twitter; năm tiếp theo, các bản sao Trung Quốc chính – Fanfou, Digu, and Jiwai – đã được khai trương. Tuy vậy, số các microblogger đầu tiên đã tăng chậm. Sau các cuộc nổi loạn Urumqi tháng Bảy 2009, chính phủ Trung Quốc không chỉ đã chặn Twitter và Facebook mà cũng đã đóng cửa hầu hết các dịch vụ microblog nội địa. Thị trường microblog về cơ bản đã bỏ trống cho đến khi Sina Weibo xuất hiện trong tháng Tám 2009, và NetEase, Sohu và Tencent đã tiếp theo trong 2010. Số người sử dụng microblog đã dấy lên từ 63 triệu vào cuối 2010 lên 195 triệu vào giữa 2011 (China Internet Network Information Center 2011).

Sina Weibo là một hỗn hợp của Twitter và Facebook: đến 140 ký tự Trung Quốc cho mỗi tweet, cho phép các ảnh hay video được chèn vào, và những người sử dụng có thể gửi các thông điệp riêng, lời bình, và post lại. Với sự tiếp cận và sử dụng dễ dàng của nó, Sina Weibo mau chóng trở thành nền tảng thông dụng nhất để viết microblog ở Trung Quốc. Vào 2010, nó đã có 50 triệu người dùng có đăng ký, và con số này đã tăng gấp đôi trong 2011, đạt đỉnh điểm hơn 500 triệu vào cuối 2012. Kể từ 2013, Sina Weibo đã mất một số vị trí cho WeChat, một dịch vụ mạng xã hội dựa trên cơ sở điện thoại di động, nhưng vẫn là một nền tảng có ảnh hưởng.[1]

Trong các năm gần đây, các microblog đã cung cấp một số thảo luận và tranh luận sâu rộng nhất ở Trung Quốc. Theo các Báo cáo về Dư luận (Reports on Public Opinion) 2010-2013, chẳng hạn, trong 2012, hai nền tảng mạng xã hội kiểu-Facebook ở Trung Quốc – Renren và Kaixin – đã phủ 20 sự kiện công cộng cao nhất được liệt kê bởi Cơ quan Giám sát Công Luận (Public Opinion Monitoring Agency được vận hành bởi Nhân dân Nhật báo của chính quyền) trong 20 triệu post. Tuy nhiên, Sina Weibo – trang microblog hàng đầu lúc đó – đã phủ cùng các sự kiện đó trong hơn 230 triệu post.

Chính phủ trung ương Trung Quốc đã có sức mạnh và các công cụ để hạn chế nội dung nhạy cảm trên mạng xã hội, nếu nó muốn. Nội dung mạng xã hội nhạy cảm mà chúng tôi thấy không chắc là kết quả của sự bất lực để dọn dẹp mạng xã hội. Thay vào đó, chính phủ phải nhận thấy các lợi ích từ việc để nội dung này có thể thấy được. Hai công cụ chủ yếu được sử dụng để hạn chế nội dung.

Công cụ đầu tiên là việc kiểm soát bằng cảnh sát – để trừng trị các người sử dụng đưa lên nội dung nhạy cảm nhằm gây ra sự tự-kiểm duyệt và để tránh đăng nội dung. Việc kiểm soát bằng cảnh sát được tiến hành bởi hàng chục ngàn nhân viên thông tin và những người giám sát internet những người hoạt động tích cực ở mọi mức của chính quyền (Chen and Ang 2011). Các chính trị gia địa phương có thể dùng cảnh sát internet của riêng họ để cấm thông tin tiêu cực về các vùng dưới chính quyền của họ, cho dù nếu việc viết blog về thông tin này được khoan thứ hoặc được cổ võ bởi chính phủ trung ương. Những người dùng mà post nội dung không mong muốn có thể nhận được các lời cảnh cáo, tài khoản của họ bị đóng, hoặc thậm chí bị bỏ tù. Reporters Without Borders (2013) đã lập tư liệu tổng cộng 69 công dân mạng ở trong các nhà tù Trung Quốc vào tháng Hai 2013, mặc dù con số của các trường hợp không được báo cáo có thể lớn hơn nhiều. Không có nghiên cứu trước có hệ thống nào về mức độ của việc kiểm soát bằng cảnh sát, trong chừng mực chúng tôi biết. Chúng tôi sẽ khảo sát quy mô của các thực hành này bằng theo dõi những người sử dụng post đều dặn về các vấn đề nhạy cảm để xem liệu tài khoản của họ sau đó có bị đóng hay không.

Tất nhiên, sự trừng trị cá nhân có thể xảy ra chỉ nếu một người sử dụng được nhận diện. Ban đầu chính phủ Trung Quốc đã cho phép những người dùng Sina Weibo để post một cách nặc danh. Trong tháng Ba 2012, nhà chức trách kiểm soát báo chí đã yêu cầu những người dùng tiết lộ danh tính cho các nhà cung cấp mạng xã hội. Tuy vậy, ba năm sau, các nhà cung cấp dịch vụ còn phải thực hiện quy định này một cách hoàn toàn.

Công cụ kiểm soát khác là sự kiểm duyệt. Sự kiểm duyệt được điều tiết ở cấp quốc gia bởi Ban Tuyên truyền của Đảng Cộng sản Trung Quốc, cũng như bởi một số văn phòng kiểm soát báo chí quốc gia. Tuy vậy, trong thực tiễn, sự kiểm duyệt được thực hiện chủ yếu bởi các nhà cung cấp dịch vụ tư nhân mà được đăng ký ở Bắc Kinh. Mức độ kiểm duyệt được ước lượng của Sina Weibo trải từ 0,01 phần trăm các post bởi một mẫu của những người dùng được ưu tiên, gồm các nhà bất đồng chính kiến, các nhà văn, các học giả, các nhà báo, những người dùng VIP (Fu et al. 2013), đến 13 phần trăm các post về các chủ đề nhạy cảm được chọn lựa (King et al. 2013). King et al. thấy rằng chính phủ Trung Quốc cho phép sự phê phán các quan chức và công chức nhưng kiểm duyệt thông tin về hoạt động tập thể ngặt ngèo hơn (27 phần trăm của các post bị kiểm duyệt). Tổng quát hơn, Bamman (2012) và Fu et al. (2013) thấy rằng sự kiểm duyệt internet ở Trung Quốc tập trung vào các vấn đề chính trị và nhóm thiểu số. Zhu et al. (2013) thấy rằng việc thực hiện kiểm duyệt là nhanh: 30 phần trăm sự xoá xảy ra trong vòng nửa giờ đầu tiên và 90 phần trăm trong vòng 24 giờ. Nhưng không giống các nghiên cứu này, bài báo của chúng tôi xem xét nội dung sẵn có trên các microblog hơn là những gì bị loại bỏ.

Chính quyền có thể tác động đến các cuộc thảo luận và ý kiến trên mạng xã hội bằng cách tích cực post nội dung của riêng họ. Các chính quyền Trung Quốc ở mọi mức đã mở các tài khoản microblog trong một cố gắng để lái dư luận. Trong 2012, Sina Weibo đã báo cáo gần 50.000 tài khoản được vận hành bởi các cơ quan chính quyền hay cá nhân các quan chức. Các chính quyền ở các mức khác nhau cũng thuê các troll internet, được đặt tên giễu là “đảng 50-xu ” bởi vì một số được trả công với giá sản phẩm 50 xu một post. Một số dư luận viên, theo chỉ thị của các chính trị gia địa phương, có thể post các nhận xét tích cực giả về các chính trị gia hay các vùng thuộc sự quản lý của họ.

3 Dữ liệu

Dữ liệu gốc của chúng tôi, các post Sina Weibo, được thu thập bởi Weibook Corp., trong giai đoạn 2009-2013. Công ty này đã thực hiện một chiến lược thu thập dữ liệu khổng lồ để tải các post của những người dùng tích cực xuống. Đầu tiên, họ đã nhận diện những người dùng như 200-300 triệu người thực tích cực trên cơ sở thông tin cá nhân và sự tương tác với những người dùng khác. Thứ hai, gọ đã phân lớp những người dùng thành sáu lớp dựa trên số người đi theo (follower). Họ đã tải các microblog của những người dùng lớp trên cùng ít nhất hàng ngày, các lớp thứ hai và thứ ba mỗi 2-3 ngày, và lớp thấp nhất được tải xuống trên cơ sở tuần. Như thế, dữ liệu bao gồm chí ít một số post mà muộn hơn bị kiểm duyệt. Đối với mỗi post, họ đã cung cấp nội dung, thời gian post, và thông tin người dùng (kể cả chỗ được tự báo cáo).

Tổng cộng, bộ dữ liệu mà chúng tôi nghiên cứu chứa 13,2 tỷ post được đăng từ 2009 đến 2013. Theo ước lượng của chúng tôi, dữ liệu Weibook chứa khoảng 95 phần trăm của toàn bộ các post được đăng trên Sina Weibo.[2] Như được minh hoạ trên Hình 1. đường xanh cho biết số post trên tháng được bao gồm trong dữ liệu Weibook, and đường đỏ là ước lượng của chúng tôi về tổng số post được đăng trên Sina Weibo.

Từ cơ sở dữ liệu Weibook này, chúng tôi chiết xuất các microblog nhắc tới bất kể từ khoá nào trong khoảng 5.000 từ khoá mà liên quan đến các chủ đề xã hội và chính trị. Các từ khoá phân làm hai nhóm. Nhóm thứ nhất nói đến các loại vấn đề, kể cả các vị trí chính trị từ mức trung ương đến mức làng xã, tên của các lãnh đạo chính trị cấp cao, các vấn đề xã hội và kinh tế (như tham nhũng, ô nhiễm, các vấn đề thực phẩm và thuốc, các tai hoạ và tai nạn, và các tội), và các sự kiện hoạt động tập thể (như đình công, phản kháng, kiến nghị, và các xung đột đông người). Một số từ xuất hiện với tần suất rất cao. Chúng tôi thu thập một mẫu ngẫu nhiên gồm chỉ 10-phần trăm của các post nhắc đến các từ này. Nhóm thứ hai của các từ khoá nhắc tới các sự kiện cụ thể mà chúng tôi đã ghi được, kể cả các thứ trong các chỉ thị kiểm duyệt được đưa ra bởi các nhà chức trách kiểm soát báo chí và một số lớn các sự kiện to lớn từ 2009 đến 2013. Tổng cộng, chúng tôi đã chiết ra dữ liệu chứa 202 triệu post từ 30,6 triệu những người dùng khác nhau.[3]

4 Các Xung đột, Phản đối và Đình công

Chúng tôi phân tích 545 sự kiện hoạt động tập thể đã xảy ra ở Trung Hoa Đại lục giữa 2009 và 2012. Danh mục các sự kiện được lấy từ việc đưa tin của Radio Free Asia (Châu Á Tự do), một đài phát thanh phi lợi nhuận có cơ sở ở Washington, D.C. Chúng tôi phân lớp các sự kiện hoạt động tập thể này thành bốn loại, được xếp hạng theo tính nhạy cảm. Loại đầu tiên chứa các sự kiện nhạy cảm nhất, mà gồm các sự đối đầu trực tiếp giữa chính quyền và công chúng, kể cả các sự kiện dính đến nổi loạn và bạo lực. Loại thứ hai chứa các cuộc phản đối, kể cả các cuộc biểu tình đường phố và các cuộc phản đối quần chúng, mà một cách tiêu biểu được trông chờ và có tổ chức hơn, ít bạo lực hơn, và thậm chí thường được chính quyền chấp thuận. Trong vài trường hợp, cuộc phản kháng biến thành náo loạn, như trong Sự kiện Wansheng ở Trùng Khánh trong 2012; chúng tôi mã hoá các sự kiện như vậy như “xung đột.” Loại thứ ba chứa các cuộc đình công, kể cả các cuộc đình công ở nhà máy và bãi khoá ở trường học và giữa các lái xe taxi. Loại cuối cùng gồm các cuộc biểu tình chống-Nhật.
Chúng tôi chọn các từ khoá nhận diện các post về mỗi loại sự kiện và chiết xuất tất cả các post có nhắc đến các từ khoá này từ toàn bộ bộ dữ liệu Weibook. Phương pháp cho chiết xuất các từ khoá được mô tả trong phụ lục.

4.1 Nội dung và Những người dùng

Ban đầu chúng tôi đã nghĩ rằng sự đưa tin các sự kiện này trên mạng xã hội là rất hạn chế. Như vừa mới nhắc tới, đã được lập tư liệu kỹ về những người Trung Quốc dùng internet đã bị trừng phạt sau khi đăng về các cuộc phản đối và các sự kiện hoạt động tập thể khác (thí dụ, Freedom House 2012) và rằng các loại post này bị kiểm duyệt (King, Pan, and Roberts 2013). Nhưng chúng tôi ngạc nhiên thấy một số lớn các post đưa tin thậm chí các sự kiện hoạt động tập thể nhạy cảm nhất dựa trên sự phân lớp của chúng tôi. Trong dữ liệu của mình, chúng tôi nhận diện 382.000 post trong loại “xung đột” và hơn 2,5 triệu post trong loại “phản đối”. Vì khám phá này thu hút sự hoài nghi nào đó khi chúng tôi trình bày bài báo, chúng tôi sử dụng các cách tiếp cận khác nhau để xem xét nó thêm nữa.

Như một điểm xuất phát, chúng tôi đặc trưng “các chủ đề nóng’ trong các post về hoạt động tập thể. Các chủ đề này được nhận diện bởi các từ được dùng thường xuyên trong các post hoạt động tập thể hơn trong toàn bộ mẫu của các post. Chính xác hơn, chúng tôi so sánh tần suất của mỗi từ trong một loại cho trước với tần suất tổng thể của từ đó trong bộ dữ liệu của chúng tôi, như trong Kleinberg (2006). Bảng 1 trình bày các chủ đề nóng theo thứ tự của ý nghĩa thống kê. Thí dụ, trong loại xung đột, “đàn áp” có tần suất sử dụng cao không bình thường nhất. Lưu ý rằng sự xếp hạng chủ đề không dựa trên tần suất tuyệt đối của các từ, mà dựa trên sự sử dụng của từ so với sự sử dụng chung của nó. Thí dụ, “bom hơi cay” được xếp hạng trên “chính quyền” bởi vì từ sau được dùng thông thường nói chung. Các từ chủ đề khác trong loại này gồm “cảnh sát” “bạo lực,” “nổi loạn,” và “nổ súng.”

Để mô tả đặc trưng các dữ liệu này thêm nữa, chúng tôi khảo sát một mẫu ngẫu nhiên của 1. 000 post cho mỗi trong ba loại hoạt động tập thể đầu tiên trong Bảng 1 và cho các cuộc biểu tình chống-Nhật. Chúng tôi mã hoá một cách thủ công liệu và bằng cách nào các post phủ một loại cá biệt sự kiện, với kết quả cho thấy trong Bảng 2. Từ các mẫu 1.000 post của chúng tôi, phần của các post mà thực sự phủ các sự kiện trải từ 50,4 phần trăm cho loại chống-Nhật đến 31,2 phần trăm cho loại đình công. Các sự kiện nhạy cảm hơn như xung đột và phản đối nhận được sự đưa tin dưới dạng của những bình luận chung và hồi tưởng lại. Ở đây là vài thí dụ để chuyển một cảm giác về việc mã hoá của chúng tôi.

· “Tôi đã thấy hàng trăm cảnh sát vũ trang đầy vũ khí. Lửa đã ở khắp nơi, sau khi một số bình gas bị ném.” [Xung đột, đang xảy ra]

· “Một đám đông lớn đang tụ họp trước toà nhà chính quyền giữ các biểu ngữ ‘Không được Ép buộc Phá dỡ Nhà’.” [Phản đối, đang xảy ra]

· “Tiền từ bán đất đều chảy vào túi các quan. Họ chẳng khác gì bọn côn đồ. Chúng ta chẳng có lựa chọn nào ngoài nổi loạn.” [Phản đối, nói chung]

· “Thật ư? Các lái xe Taxi lại đình công!” [Đình công, đang xảy ra.]

· “Lương thấp, lao động rẻ. Chúng ta tạo ra hàng tấn thứ Made-in-China, nhưng đổi lại nhận được ít. Công nhân di cư, hãy đình công!” [Đình công, nói chung]

· “Chúng ta sẽ diễu hành đến Sứ quán Nhật hôm nay. Tập trung tại Quảng trường Nhân dân lúc 10 giờ sáng. Có ai muốn tham gia?” [Chống-Nhật, sắp xảy ra]

Nội dung Weibo này dự đoán các sự kiện hoạt động tập thể thế giới thực, Panel A của Bảng 3 báo cáo số trung bình của các post cho mỗi loại sự kiện được đăng bởi những người dùng trong quận (prefecture, chuyên khu) nơi một sự kiện đã xảy ra vào ngày của sự kiện và vào ngày trước. Giả sử, thí dụ, rằng một cuộc đình công đã xảy ra trong một quận và ngày cho trước. Rồi chúng ta đếm số các post chứa bất kể từ khoá nào của chúng ta liên quan đến đình công bởi những người dùng từ quận này vào cùng ngày như cuộc đình công và vào ngày trước đình công. Chúng ta làm việc này cho tất cả các cuộc đình công và báo cáo số trung bình trong bảng. Số trung bình của các post là cao hơn nhiều vào ngày của và vào ngày trước một sự kiện hoạt động tập thể so với các ngày khác. Để làm cho chắc chắn rằng các post của ngày trước thực sự có dự đoán các sự kiện này, và không nảy sinh vì các lý do giả như sự mã hoá nhầm của các ngày tháng post lên, cột cuối cùng của Bảng 3 khảo sát các tai nạn mỏ than. Các tai nạn này phải rõ ràng không được dự đoán bởi các post microblog. Chúng tôi nhận được dữ liệu về các địa điểm và ngày của 253 tai nạn mỏ than trong giai đoạn 2010 -2012 từ Cơ quan Nhà nước Quản lý An toàn Mỏ Than. Chúng tôi tìm các chuỗi từ liên quan đến các tai nạn mỏ than trong bộ dữ liệu của chúng tôi. Trong khi các tai nạn mỏ than được tường thuật nhiều hơn nhiều vào ngày của tai nạn, chúng đã không được thảo luận thường xuyên hơn vào ngày trước tai nạn so với những ngày khác. Phát hiện này có liên hệ với Acemoglu, Hassan, and Tahoun (2014) những người thấy rằng số người phản đối ở Quảng trường Tahrir vào bất kể ngày cho trước nào đã được dự đoán bởi số tweet với các hashtag Tahrir. Tất nhiên, sự kiểm soát báo chí ở Ai Cập trong 2011 đã ít ngặt nghèo hơn Trung Quốc rất nhiều. 
Chúng tôi cũng tiến hành một phân tích chi tiết hơn, xem xét sự thảo luận microblog dự đoán tốt ra sao so với các tờ báo về khi nào và ở đâu các sự kiện hoạt động tập thể sẽ diễn ra. Chúng tôi sử dụng các tường thuật tin tức từ 62 tờ báo quan tâm chung, có tường thuật ít nhất một trong các sự kiện này trong giai đoạn 2010- 2012. Các panel B và C của Bảng 3 trình bày các kết quả từ việc tính hồi quy một chỉ số cho một sự kiện xảy ra trên số của các post Weibo từ những người dùng trong một quận mà nhắc đến các từ khoá sự kiện vào ngày xảy ra sự kiện (panel B) hoặc vào ngày trước sự kiện (panel C). Trong khi các microblog là hết sức có ý nghĩa trong dự đoán nơi và khi các sự kiện hoạt động tập thể xảy ra, thì sự đưa tin của báo về loại sự kiện này lại thiếu thông tin hữu ích. Tóm lại, chúng tôi thấy, theo nghĩa đen, hàng triệu post trên Sina Weibo thảo luận các sự kiện hoạt động tập thể nhạy cảm. Nhiều trong số các post này được post trước hay đồng thời với các sự kiện và dự đoán các sự kiện. Sự thực rằng người dân bắt đầu thảo luận các sự kiện trước khi chúng xảy ra cho thấy rằng Sina Weibo có thể được dùng để tổ chức hoặc chí ít để điều phối các sự kiện hoạt động tập thể. Để khảo sát liệu những người dùng, mà post loại nội dung nhạy cảm này, có bị nhận diện và có lẽ bị trừng trị hay không, chúng tôi xem xét các post tiếp sau của những người dùng đã đăng trên blog về các sự kiện hoạt động tập thể, 16 phần trăm của các post này là post cuối cùng được xuất bản bởi một người dùng trong dữ liệu mà chứa bất cứ từ khoá nào trong số 5.000 từ khoá. Trong các loại “xung đột” và “phản đối”, các tỷ lệ tương ứng là 17 và 23 phần trăm. Phần của những người dùng mà rời khỏi dữ liệu của chúng tôi trong vòng năm hay mười post thêm là cao hơn một chút trong dữ liệu đầy đủ (38 và 49 phần trăm) so với trong các loại xung đột và phản đối (33-34 và 41-42 phần trăm). Nói ngắn gọn, chúng tôi thấy rằng những người dùng mà đã post về các chủ đề này đã tiếp tục post ở một mức độ giống như những người dùng khác, cho biết rằng các tài khoản của họ đã không chắc có nhiều khả năng hơn để bị đóng, các post của họ cũng chẳng bị im đi.

Một cách khác để khảo sát liệu những người dùng có lo về kiểm duyệt không là đi xem liệu các post về các chủ đề nhạy cảm có khuynh hướng đến từ các tài khoản người dùng với tương đối ít số post – mà có thể là dấu hiệu rằng những người dùng tạo ra các tài khoản Sina Weibo tách biệt cho các thông điệp gây tranh cãi, có lẽ thậm chí với các địa chỉ IP được che giấu. Tuy vậy, số trung bình của các post từ những người dùng mà đăng về các chủ đề nhạy cảm không thấp hơn đáng kể so với số trung bình của một mẫu so sánh được rút thăm một cách ngẫu nhiên của những người dùng (sự rút thăm sử dụng số các post bởi mỗi người dùng như các trọng số lấy mẫu). Điều mấu chốt là, mặc dù có các trường hợp được được chứng minh bằng tư liệu về những người bị trừng trị sau khi post nội dung nhạy cảm, điều này không có vẻ xảy ra trên một quy mô lớn. Nói chung, người dân không có vẻ sợ để post về các chủ đề này.

4.2 Giám sát

Chúng tôi xem xét thông tin mạng xã hội hữu hiệu ra sao cho việc chính quyền giám sát các sự kiện hoạt động tập thể. Như đã nhắc tới ở trước, các cơ quan chính quyền khắp Trung Quốc đã đầu tư mạnh vào software để theo dõi và phân tích các hoạt động online, để đo dư luận, và để kiềm chế các mối đe doạ trước khi chúng lan ra (như được báo cáo trong Epstein 2013). Có lẽ, các cơ quan chính quyền này mong muốn một hệ thống cảnh báo sớm về các sự kiện hoạt động tập thể. Chúng ta hình dung rằng một hệ thống như vậy có thể hoạt động theo hai bước. Bước thứ nhất được tự động hoá: chỉ có software cảnh giác đối với những ngày khi việc nhắc đến các sự kiện nào đó tăng đột ngột trên mạng xã hội; thứ hai, thuê những con người thực để đọc các post được đăng trong những ngày đó.

Chúng tôi thăm dò phương pháp tự động-cộng-sức người này. Chúng tôi nghiên cứu 316 quận suốt các ngày từ 1-1-2010 đến 31-12-2012. Chúng tôi nghiên cứu các sự kiện chống-Nhật và các cuộc đình công bởi vì các sự kiện này chắc là không bị kiểm duyệt và vì thế chúng tôi có cùng thông tin Weibo post như chính phủ có. Cho bước đầu tiên, chúng tôi có software cảnh báo chúng tôi suốt các ngày khi một người dùng từ một thành phố viết một post nhắc đến bất kỳ từ khoá nào trong số từ khoá sự kiện của chúng tôi. Trước một ngày, sự báo động này nhận diện 42 trong số 43 sự kiện chống-Nhật và 115 trong số 130 cuộc đình công. Việc này đòi hỏi sự điều tra 109.726 và 104.241 quận-ngày, một cách tương ứng (từ tổng số 346.020 quận-ngày).

Rất dễ để cải thiện phương pháp thô thiển này, để tìm ra nhiều sự kiện hơn và đồng thời làm giảm số các quan sát được tìm kiếm. Các công cụ học máy (machine learning tool) đã được phát triển cho chính xác vấn đề này (xem, thí dụ, Sasaki et al., 2010). Chúng tôi thăm dò cái gì đó đơn giản hơn nhiều. Chúng tôi dự đoán xác suất của sự xảy ra sự kiện trong thời gian và địa điểm cho trước, dựa vào số các post trên Weibo của những người dùng trong địa điểm đó nhắc đến các từ khoá cho sự kiện này vào ngày này, ngày trước, và tổng số các post Weibo.

Trong việc xây dựng loại hệ thống báo động sớm này, các chính quyền địa phương đối mặt với một sự đánh đổi tiêu chuẩn giữa lỗi loại 1 và lỗi loại 2. Họ có thể điều tra tất cả các trường hợp nơi xác suất được dự đoán của một sự kiện là dương, dẫu nhỏ thế nào. Việc này sẽ tìm thấy nhiều sự kiện nhất (tức là nó có một tỷ lệ dương đúng cao) nhưng cách tiếp cận này cũng sẽ nhận nhiều số dương giả. Ngoài ra, họ có thể hạn chế sự chú ý cho các trường hợp nơi xác suất này là rất cao, dẫn đến một tỷ lệ dương giả thấp nhưng cũng dẫn đến một tỷ lệ dương đúng thấp.

Hình 2 cho thấy sự đánh đổi này cho các cuộc biểu tình chống-Nhật và các cuộc đình công. Nó vẽ tỷ lệ dương đúng đối lại tỷ lệ dương giả, cho các ngưỡng xác suất sự kiện khác nhau. Thí dụ, để tìm thấy tất cả các sự kiện chống-Nhật (tỷ lệ dương đúng là một), các chính quyền địa phương sẽ phải tìm kiếm 40 phần trăm của các quan sát với không sự kiện nào (tỷ lệ dương giả là 0, 4) sử dụng thông tin sẵn có một ngày trước và khoảng 15 phần trăm với thông tin hiện thời. Bằng số tuyệt đối, ta phải tìm kiếm 55.000 quận-ngày để nhận diện 100 trong số 130 cuộc đình công trước một ngày. Một hệ thống cảnh báo ít thông tin hữu ích sẽ tạo ra một đường cong dọc đường 45-độ, Đồ thị cho thấy rằng một số thống kê đơn giản dựa vào các từ khoá chứa rất nhiều thông tin để nhận diện các ngày khi các sự kiện có khả năng xảy ra.

Cho bước thứ hai, chúng tôi đọc một cách thủ công các post mạng xã hội liên quan đến đình công trong 100 quận-ngày với các xác suất có một cuộc đình công, tổng cộng chúng tôi đã tốn khoảng 2 giờ để đọc. (Hãy nhớ, các thông điệp này là rất ngắn!) Như thế, chi phí-thời gian được ước lượng của chúng tôi cho việc phân tích 55.000 quận-ngày cần thiết để thấy rõ 100 cuộc đình công một ngày trước khi chúng xảy ra là 1.100 người-giờ. Con số này là chi phí thời gian tổng hợp cho tất cả các quận (316 quận) trải ra trong ba năm, Từ tiến độ đó, chi phí là rất nhỏ. Điểm cốt lõi là, các sự kiện hoạt động tập thể đủ lớn để gây ra các mối đe doạ tiềm tàng cho chế độ là dễ được phát hiện bằng sử dụng dữ liệu mạng xã hội, và chúng có thể được phát hiện ra một ngày trước.

Vài điểm lý thú khác nổi lên từ phân tích trên. Một là, khi việc đọc thủ công tất cả các post mạng xã hội liên quan đến đình công cho 100 ngày đỉnh cao, chúng tôi đã phát hiện ra 23 cuộc đình công trong các quận-ngày này mà cũng đã ở trong bộ dữ liệu gốc của chúng tôi. Tuy vậy, chúng tôi cũng đã nhận diện thêm 14 cuộc đình công. Thủ tục của chúng tôi, như thế, cho thấy mạng xã hội có thể được sử dụng ra sao như một công cụ thu thập dữ liệu ở các nước, nơi thiếu dữ liệu về các kết cục xã hội liên quan, nhưng dữ liệu từ mạng xã hội lại dư dả.

5 Giám sát các Chính trị gia Địa phương

Mạng xã hội có thể cung cấp thông tin xác đáng để buộc các chính trị gia địa phương có trách nhiệm giải trình với các chính trị gia mức cao hơn? Đầu tiên, chúng tôi sẽ mô tả nội dung trên Sina Weibo liên quan đến tham nhũng. Rồi chúng tôi phân tích 200 vụ tham nhũng dính đến các lãnh đạo cấp cao của chính phủ Trung Quốc hay Đảng Cộng sản (ĐCS) Trung Quốc, dựa trên các thí dụ về tham nhũng từ Uỷ ban Kỷ luật Trung ương của ĐCS và Bộ Giám sát, cũng như các tin được đăng bởi hãng thông tấn phát ngôn của chính phủ Trung Quốc, Tân hoa xã. Chúng ta thấy rằng các post Weibo dự đoán một số vụ tham nhũng trước một năm. Để xem xét việc đưa tin về tham nhũng trên mạng xã hội, chúng tôi kết hợp hai loại post microblog: các post nhắc tới các chính trị gia hay các chức vụ chính trị và các post nhắc đến ứng xử tham nhũng. Cho loại thứ nhất, chúng tôi truy xuất các post nhắc tới bất cứ chức vụ chính trị lớn nào ở mức trung ương, tỉnh, quận, huyện, và làng xã. Chúng tôi nhận được hơn 11 triệu post trong loại này, Cột 1 của Bảng 4 cho thấy số các post đưa tin mỗi chức vụ hay lãnh đạo chóp bu. Bảng được sắp xếp theo số các post trên chức vụ, được cho thấy trong Cột 2 – (thí dụ, có 31 chức cho các chức vụ mức tỉnh). Tập Cận Bình, chủ tịch Trung Quốc và tổng bí thư của ĐCSTQ đương nhiệm, là lãnh đạo được thảo luận nhiều nhất, với hơn 1,3 triệu post nhắc tới tên ông, tiếp sau là Ôn Gia Bảo, cựu thủ tướng Trung Quốc. Nhìn chung, các quan chức ở các mức cao hơn được thảo luận rộng hơn, và được đưa tin nhiều hơn các bí thư đảng. Về loại thứ hai của các post nhắc tới ứng xử tham nhũng, tha hoá, chúng tôi tìm kiếm các từ được dùng rộng rãi để mô tả ứng xử tham nhũng, việc làm sai trái, và sự trừng phạt các quan chức. Các từ chủ đề nóng trong loại này là “tham ô,” “tha hoá,” “tiền chính phủ,” “nhận hối lộ,” và “đưa hối lộ” (như được thấy sớm hơn trong Bảng 1, Cột 4). Chúng tôi nhận diện trên 5,3 triệu post thuộc loại này.

5.1 Nội dung và Những người dùng

Để mô tả đặc trưng các post về tham nhũng, chúng tôi đích thân xem xét kỹ 1.000 post được chọn một cách ngẫu nhiên. Hầu hết các post này đưa ra các bình luận chung về tham nhũng. Trong số 419 post thảo luận các vụ tham nhũng cụ thể, 293 đã được viết sau khi chính quyền đã tiến hành tố tụng. Tuy nhiên, 126 post thảo luận các trường hợp tham nhũng trước tố tụng của chính quyền. Có thể chia 126 post này thành hai loại. Một loại nhắm vào các quan chức chính quyền cụ thể, được minh hoạ trong hai thí dụ sau đây.

· “XXX, bí thư đảng của làng XXX, đã dùng sai tiền được chuyển từ chính phủ trung ương cho người dân có thu nhập thấp để chi cho các thành viên gia đình và họ hàng của ông ta.”

· “XXX, quan chức đứng đầu của huyện XXX, đã biển thủ tiền công bằng cách trao tất cả các hợp đồng dự án lớn của chính quyền cho công ty của em ông ta. Còn tồi hơn, ông đã thuê bọn côn đồ để để đâm những người đã báo cáo việc tham nhũng của ông ta lên chính quyền cấp cao hơn.”

Loại khác truyền đạt sự phẫn uất về và sự tức giận đối với các quan chức tham nhũng nào đó. Trong hầu hết các trường hợp, các post này nói về các chức vụ và các cơ quan chính quyền mà không định rõ tên của các quan chức. Vài thí dụ được lập tư liệu như sau.

· “Thị trường đen cho các chức vụ chính quyền ở quận XXX là tràn lan. Giá cả ngày càng cao, các quan chức chóp bu trong quận này đang trở nên giàu hơn và giàu hơn, và tham nhũng sẽ ngày càng nghiêm trọng bởi vì những người mua cần kiếm được đủ tiền để bù cho chi phí của họ.”

· “Không có sự ủng hộ của bí thư quận uỷ và phó thống đốc quận, làm sao các quan chức quận này dám bán các chức vụ chính quyền? Hãy đả hổ!”

· “Tiền tỷ đã chảy vào túi của các quan chức địa phương và các đối tác kinh doanh của họ! Chủ tịch Tập, thủ tướng Lý, và bí thư Vương trong Ban Thanh tra Kỷ luật Trung ương, các ông có đọc các microblog của chúng tôi? Các ông có nghe tiếng nói của chúng tôi? Hãy tiệt trừ các quan chức tham nhũng này! Ngay bây giờ!”

Cột 3 của Bảng 4 cho thấy số điểm phần trăm được ước lượng của các post nhắc tới chức vụ của một lãnh đạo mà thảo luận các vụ tham nhũng cụ thể. Một cách cụ thể, chúng tôi dự đoán xác suất rằng một post về một chức vụ mà thảo luận các vụ tham nhũng cụ thể dựa vào các tần suất của các từ được sử dụng. Thí dụ, dòng cuối cho thấy rằng hơn bốn phần trăm của tất cả các post mà nhắc đến các bí thư đảng xã hay huyện cũng nhắc đến các vụ tham nhũng cụ thể. Để nhận được một số đo rộng hơn về ý kiến của nhân dân đối với các lãnh đạo của họ, chúng tôi trừ số các từ tiêu cực khỏi số các từ tích cực trong tất cả các post nhắc đến các lãnh đạo này (sử dụng Từ điển Tình cảm của Đại học Quốc gia Đài Loan). Cột 4 của Bảng 4 cho thấy rằng các bí thư đảng ở huyện và xã nhận được ý kiến tiêu cực nhất và đại diện phần lớn nhất của các post tham nhũng. Một diễn giải của phát hiện này là, hai loại này của các quan chức thường được coi như các chính trị gia cấp thấp hùng mạnh nhất có cơ hội để tham nhũng. Một cách nhìn khác là, họ là các quan chức dễ bị tổn thương nhất trong các chiến dịch chống-tham nhũng bởi vì họ ở đáy của hệ thống thứ bậc chính quyền Trung Quốc. Ước lượng từ mẫu ngẫu nhiên gồm 1.000 post, bộ dữ liệu của chúng tôi chứa khoảng 668.000 post có thảo luận các trường hợp cụ thể về tham nhũng trước khi chính quyền hành động. Điều này cung cấp nhiều thông tin cho các chính quyền cấp cao hơn tìm cách để bắt các chính trị gia cấp thấp hơn chịu trách nhiệm giải trình. Rõ ràng, các post thuộc loại này không bị chính phủ trung ương kiểm duyệt. 
Chúng tôi thấy một số post phê phán thẳng thừng các lãnh đạo quốc gia chóp bu, mặc dù các post này không chứa các cáo buộc tham nhũng rõ rệt. Các post như vậy, thí dụ, cho rằng dân chủ và sự ổn định xã hội đã giảm dưới triều Hồ Cẩm Đào, rằng chiến dịch chống Bạc Hy Lai đã được Tập Cận Bình khởi xướng như một phần của cuộc đấu đá chính trị, và rằng Ôn Gia Bảo đã chuyển vốn đến Wenzhou (Ôn Châu) để giúp con em của một số lãnh đạo chóp bu. Chúng tôi không thấy bằng chứng nào rằng những người dùng, mà post loại nội dung nhạy cảm này, được nhận diện và bị trừng trị một cách có hệ thống. Những người dùng, mà post về tham nhũng, tiếp tục post ở mức độ như những người dùng khác. Cũng có vẻ rằng người dân không sợ việc post các cáo buộc tham nhũng cụ thể dính líu đến các chính trị gia địa phương hùng mạnh, vì các post này không được tạo ra từ các tài khoản đặc biệt với ít post. Một lý do có thể là, cho dù các chính quyền địa phương có thể nhận diện những người dùng bạo gan này, là rủi ro cho họ để có hành động chống lại những người dùng này bởi vì việc đó có thể kích một phản ứng còn lớn hơn trong mạng xã hội, mà có thể gây nguy hiểm thêm nữa cho sự nghiệp của chính trị gia bị dính líu.

5.2 Dự đoán và Giám sát

Để kiểm tra liệu các post mạng xã hội có dự đoán các sự buộc tội tham nhũng trong tương lai không, chúng tôi nghiên cứu một mẫu về 200 sự buộc tội tham nhũng: 15 ở mức quốc gia, 39 ở mức tỉnh, 114 ở mức quận, và 32 ở mức huyện, Để so sánh, chúng tôi dựng một mẫu kiểm tra đối sánh của 480 chính trị gia đã không bị buộc tội tham nhũng. Các chính trị gia đối sánh giữ các chức vụ chính trị tương đương và ở các khu vực địa lý gần với các chính trị gia bị buộc tội.

Chúng tôi đếm số các post nhắc tới tên của mỗi trong 680 chính trị gia này và số các post nhắc cả đến chính trị gia và bất kể từ nào trong loại tham nhũng của chúng tôi. Chúng tôi tính số các post 2 -7 tháng (cũng như 12 -23 tháng) trước một sự buộc tội tham nhũng. Bảng 5a cho thấy rằng các quan chức tham nhũng và không tham nhũng được nhắc đến về đại thể cùng số các post 2 -7 tháng trước một sự buộc tội tham nhũng: 49 và 44,4 post, một cách tương ứng, Tuy vậy, các quan chức tham nhũng xuất hiện thường xuyên hơn nhiều trong các post mà nhắc tới các từ tham nhũng của chúng tôi (3,9 so với 0, 4). Một hình mẫu tương tự được tìm thấy trong các post được đăng 12 -23 tháng trước một sự buộc tội. Căn cứ vào sự khác biệt lớn trong số các post tham nhũng, không ngạc nhiên rằng trong phân tích hồi quy hình thức hơn, các post này rất có sức dự đoán về các sự buộc tội tham nhũng.

Bảng 5b trình bày các kết quả của một hồi quy của biến số chỉ dấu buộc tội-tham nhũng trên số các post nhắc đến tên một quan chức và sự tham nhũng. Đơn vị quan sát là quan chức (200 bị buộc tội và 480 không bị buộc tội). Biến số phụ thuộc là một biến số giả (dummy) cho biết liệu quan chức đã bị buộc tội tham nhũng hay không. Hồi quy cũng bao gồm số các post nhắc chỉ đến tên quan chức. Biến số này chẳng bao giờ có ý nghĩa (thống kê). Các cột 2, 4 và 5 gồm các biến dummy cho các chỉ số vụ, cùng giá trị cho một quan chức bị buộc tội tham nhũng và các quan chức đối sánh. Các sai số chuẩn trong ngoặc, được phân cụm bởi mã số gọi là case id (lãnh đạo bị buộc tôi và các lãnh đạo kiểm soát đối sánh). Bảng cho thấy rằng các sự buộc tội tham nhũng được dự đoán tốt bởi số các post nhắc đến tham nhũng 2 -7 và 12 -23 tháng trước hành động đầu tiên của chính quyền.

Tuy vậy, một số đáng kể của các quan chức tham nhũng bay dưới radar mạng xã hội. Đặc biệt, 133 quan chức muộn hơn được thấy là tham nhũng, nhưng đã chẳng bao giờ được nhắc tới trong một post tham nhũng hai tháng hay hơn trước hành động đầu tiên của chính quyền chống lại họ. Từ quan điểm của chính phủ trung ương Trung Quốc, mà nhắm tới tấn công chống tham nhũng, một quy tắc đơn giản là để điều tra tất cả các quan chức với ít nhất một post tham nhũng. Trong trường hợp của chúng tôi, quy tắc này sẽ dẫn tới điều tra 192 quan chức, trong đó 67 người muộn hơn đã bị buộc tội tham nhũng.

Các post mạng xã hội dự đoán các chính trị gia chóp bu nào sẽ bị buộc tội tham nhũng một năm trước hành động pháp lý đầu tiên. Lý do có hể là, các cá nhân này quả thực bị tha hoá hơn. Một lý do khác có thể là, chính phủ trung ương bỏ kiểm duyệt hoặc khả năng có thể xảy ra rằng chính phủ gài các post tham nhũng về các lãnh đạo đã mất sự ủng hộ chính trị và muộn hơn sẽ bị kết tội tham nhũng. Để xem xét việc gài các câu chuyện, chúng tôi đã khảo sát một vụ bê bối được tường thuật kỹ dính líu đến Bạc Hy Lai, một quan chức cấp cao. Chúng tôi thấy rằng đã có sự kiểm duyệt chung của các post nhắc đến Bạc Hy Lai giữa sự bắt đầu điều tra vào 15-3-2012, và hành động cuối cùng được ĐCS tiến hành vào 28-9-2012. Chúng tôi không thấy bằng chứng nào rằng sự kiểm duyệt đã tập trung vào các post ủng hộ Bạc Hy Lai hoặc rằng đã có một xu hướng trong các câu chuyện tham nhũng trước sự suy sụp của ông.

Tóm lại, một lượng khổng lồ của các post trên Sina Weibo thảo luận tham nhũng. Các post này giúp nhận diện các chức vụ chính trị, các vùng, thời gian, và các cá nhân dính líu trong các vụ tham nhũng. Sự thiếu kiểm duyệt cho thấy rằng đối với chính phủ trung ương Trung Quốc, sự giám sát được cải thiện đối với các quan chức mức thấp hơn có nhiều tác dụng hơn sự quảng bá tiêu cực của sự đưa tin tham nhũng. Các kết quả cũng gợi ý rằng các chính trị gia địa phương chí ít không hiệu quả trong việc áp đặt sự tự-kiểm duyệt lên những người dùng hoặc mặt khác để làm méo thông tin.

6 Tuyên truyền

Tuyên truyền được post lên mạng xã hội chủ yếu được tạo ra bởi những người dùng gắn với chính quyền: các bộ; các tổ chức quần chúng, như các trường học và các bệnh viện và các hội công nghiệp mà là phần của khu vực công; báo chí do nhà nước sở hữu (lưu ý rằng, theo quy chế, tất cả báo chí được quan tâm chung mà được phép công bố nội dung chính trị được sở hữu bởi hay bị giám sát bởi chính phủ.) Chúng tôi sẽ nghiên cứu các loại của những người dùng có sức mạnh cao này. Chúng tôi không nghiên cứu internet trolls do chính phủ thuê để đánh lạc hướng sự thảo luận công (King, Pan, and Roberts 2016). Chúng tôi sử dụng hai cách tiếp cận để nhận diện các post chính quyền. Trên một quy mô nhỏ, chúng tôi mã hoá thủ công các post được công bố bởi những người dùng được chọn một cách ngẫu nhiên; trên quy mô lớn, chúng tôi sử dụng các kỹ thuật máy học để phân biệt các hình mẫu ngôn ngữ được sử dụng bởi những người dùng chính quyền được biết kỹ và như thế dự đoán các tài khoản nào được gắn với chính phủ Trung Quốc. Sau đó chúng tôi điều tra các mục tiêu của những người dùng gắn với chính quyền này.

6.1 Số lượng

Trong 2012, Sina Weibo đã báo cáo rằng có khoảng 50.000 tài khoản trên Sina Weibo được điều hành bởi các cơ quan chính quyền hoặc cá nhân các quan chức. Ước lượng của chúng tôi cho thấy rằng ngay cả khi giơi hạn ở định nghĩa hạn chế nhất về người dùng chính quyền (loại bỏ những người dùng tổ chức-quần chúng và báo chí), con số được báo cáo này ước lượng quá thấp sự hiện diện của chính quyền trên Sina Weibo.

Chúng tôi mã hoá một cách thủ công một mẫu 1.000 người dùng Sina Weibo được chọn một cách ngẫu nhiên từ toàn bộ cơ sở dữ liệu của chúng tôi gồm 30 triệu người dùng. Một người dùng được phân lớp như một người dùng chính quyền nếu các post tiết lộ rõ rệt căn cước của người dùng hoặc hầu hết liên quan đến các hoạt động của một chức năng chính quyền; những người dùng tổ chức quần chúng được mã hoá một cách tương tự. Một tài khoản được phân lớp như một tài khoản báo chí nếu các post tiết lội rằng người dùng là một cơ quan báo chí hay một bộ phận. Bảng 6 cho thấy kết quả. Trong mẫu ngẫu nhiên của 1.000 người dùng, 0,5 phần trăm là những người dùng chính quyền, ngụ ý rằng có khoảng 150.000 (với một độ lệch chuẩn 67.000) người dùng chính quyền trong toàn bộ bộ dữ liệu của chúng tôi. Những người dùng báo chí nhà nước sở hữu và tổ chức quần chúng đóng góp một phần còn lớn hơn. Tổng cộng, các loại này của những người dùng gắn với chính quyền gồm 2 phần trăm – hay 600.000 – người dùng.

Như thế, chúng tôi ước lượng rằng các tài khoản gắn với chính quyền đóng góp 3,6 phần trăm của tất cả các post trong cơ sở dữ liệu của chúng tôi (với sai số chuẩn được bootstrap (bootstrapped standard errors) là 1,6 phần trăm); xem panel bên phải trong Bảng 6. Số điểm phần trăm này là lớn hơn 2 phần trăm của những người dùng gắn với chính quyền bởi vì những người dùng này đăng nhiều post hơn những người khác. Lưu ý rằng các ước lượng này là hạn chế cho mẫu các post có nhắc tới các từ liên quan đến các vấn đề chính trị và kinh tế. Bởi vì chúng tôi không tính đến những người dùng viết về các đề tài khác, nên tổng số tài khoản gắn với chính quyền trên Sina Weibo chắc là cao hơn các ước lượng của chúng tôi. Tuy vậy, phần của các post chính quyền có thể thấp hơn đáng kể về các chủ đề ngoài chính trị và kinh tế.

6.2 Nhận diện sự Gắn với Chính quyền bằng Ngôn ngữ

Chúng tôi cũng sử dụng một cách tiếp cận dựa vào ngôn ngữ học để dự đoán xác suất rằng một người dùng được gắn với chính quyền. Chúng tôi giới hạn sự chú ý của mình đến 5,6 triệu người dùng mà đăng nhiều hơn năm post trong bộ dữ liệu của chúng tôi. Những người dùng này đóng góp hơn ba phần tư tổng các post. Đầu tiên chúng tôi nhận diện 1.042 tài khoản quan chức, gắn với chính quyền, và 538 tài khoản báo chí bằng xem xét kỹ các blog của hàng ngàn người dùng với các tên người dùng gắn một cách tiêu biểu với các chức năng này. Đấy chỉ là một tập con nhỏ của tất cả các tài khoản quan chức, nhưng chúng tôi có thể sử dụng nó để xác định các từ nào là đặc trưng của các tài khoản chính quyền và sau đó dùng chúng để ước lượng tổng số các tài khoản chính quyền.

Với mục đích này, đầu tiên chúng tôi chấp nhận và theo một thuật toán phân lớp được sử dụng rộng rãi (Support Vector Machine (SVM)) để nhận diện loại này của người dùng từ mẫu 1 phần trăm (28.440) của những người dùng được rút thăm ngẫu nhiên dựa trên các tần suất của các từ nhất định trong các post của họ.[4] Dựa vào thành tích trong các nhiệm vụ phân lớp khác, các SVM đã được nhận diện như một trong các phương pháp phân lớp hiệu quả nhất (Dumais, Platt, Heckerman, and Sahami 1998; Joachims 1998; Sebastiani 2002). Trong phân lớp SVM, một số lớn từ là quan trọng. Tuy vậy, chỉ để cho một cảm giác về sự phân lớp, các từ với trọng số cao nhất là “Liên đoàn Thanh niên Cộng sản”. “Thành Uỷ Đảng Cộng sản” và “Hội nghị”. Để đánh giá SVM thực hiện tốt ra sao, chúng tôi sử dụng kiểm chứng chéo nơi chúng tôi ước lượng lặp đi lặp lại mô hình bỏ đi một tài khoản chính quyền và 17 tài khoản không-chính quyền và sau đó phân lớp các quan sát bị bỏ đi. Bộ phân lớp này có một độ chính xác là 0,81 và một độ hồi tưởng 0,41. Một thống kê quen thuộc hơn có lẽ là t-statistic của một hồi quy probit* của một biến cho biết một tài khoản chính quyền trên tham số SVM-output được dùng cho phân lớp. T-statistic này là 56, có nghĩa rằng ngôn ngữ có tính dự đoán cao cho các tài khoản chính quyền.
Vì các tài khoản chính quyền đã được lấy mẫu quá (over-sampled) trong mẫu ước lượng trên, chúng tôi không thể dùng nó để ước lượng phần của các tài khoản chính quyền. Thay vào đó chúng tôi đưa ra một mẫu ngẫu nhiên mới gồm 500 người dùng, Trong mẫu này, chúng tôi ước lượng một mô hình probit của xác suất để là một tài khoản chính quyền có điều kiện trên tham số SVM. Quá trình này được biết đến như Platt scaling và là một cách thông thường để ánh xạ các ước lượng tham số SVM vào các xác suất (Platt, 1999). Chúng tôi kết hợp các tham số SVM với các ước lượng probit để ước lượng xác suất dự đoán rằng mỗi tài khoản là một tài khoản chính quyền. Chúng tôi sử dụng kết quả được ước lượng từ mẫu kiểm chứng này để dự đoán xác suất rằng mỗi trong 5,6 triệu người dùng là được gắn với chính quyền. Chúng tôi tính trung bình của xác suất trong tổng thể, theo tỉnh, và theo quận. Việc này cung cấp cho chúng tôi một số đo về phần của những người dùng gắn với chính quyền ngang các vùng địa lý.

Ở mức quốc gia, chúng tôi ước lượng rằng 3,1 phần trăm của 5,6 triệu người dùng là gắn với chính quyền (với một sai số chuẩn 0,8 phần trăm). Con số này là cao hơn 2 phần trăm trong toàn bộ mẫu, nhưng hai ước lượng tuy nhiên là nhất quán, bởi vì những người dùng chính quyền đóng góp nhiều post hơn và như thế được đại diện mạnh hơn trong mẫu những người dùng với nhiều hơn năm post, Phần được ước lượng của các post được đăng bởi những người dùng gắn với chính quyền trong mẫu này là 3,9 phần trăm (với một độ lệch chuẩn 1,0 phần trăm).

6.3 Các Mục tiêu của những Người dùng Chính quyền

Những người dùng chính quyền của mạng xã hội có thể cung cấp thông tin trung tính hay tuyên truyền. Có vài hình mẫu mà có thể giúp chúng ta để phân biệt giữa hai khả năng. Thí dụ, trong các vùng nơi chính quyền cảm thấy rằng nhu cầu cho ảnh hưởng là cao, chúng ta phải quan sát nhiều cả kiểm duyệt lẫn tuyên truyền và một tương quan dương mạnh giữa chúng. Chúng ta cũng phải quan sát một tương quan dương giữa các post từ những người dùng chính quyền và sự thiên vị chính quyền trong báo chí truyền thống, mà bị sự kiểm soát chính quyền lớn hơn mạng xã hội. Ngược lại, các tương quan này phải vắng nếu những người dùng chính quyền chủ yếu cung cấp thông tin trung tính.

Nghiên cứu sớm hơn cũng gợi ý vài luận đề khác về tuyên truyền. Tuyên truyền có thể hiệu quả hơn lên các độc giả chia sẻ quan điểm của người gửi thông điệp, trong khi tác động của tuyên truyền có thể tiêu cực khi độc giả giữ các quan điểm đối lập. Thí dụ, Adena, Enikolopov, Santarosa, and Zhuravskaya (2014) thấy rằng radio Nazi trong các năm 1930 đã hiệu quả nhất ở các địa phương nơi chủ nghĩa bài Do Thái đã cao về mặt lịch sử và đã có tác động tiêu cực lên sự ủng hộ các chính sách Nazi ở các địa phương với mức chủ nghĩa bài Do Thái thấp về mặt lịch sử. Tương tự, trong một cuộc thí nghiệm phòng thí nghiệm, DellaVigna, Enikolopov, Mironova, Petrova, and Zuravskaya (2014) thấy rằng sự phơi ra với radio Serbia đã gây ra tình cảm chống-Serbia giữa những người Croat. Nếu chế độ Trung Quốc tin vào lý lẽ này, thì chúng ta sẽ kỳ vọng thấy nhiều tài khoản gắn với chính quyền trong các thành trì của Đảng Cộng sản.

Cuối cùng, tuyên truyền chắc làm giảm sự đánh giá của những người tiêu dùng về mạng xã hội. Trong chừng mực mà các nhà cung cấp dịch vụ có thể có tác động đến số lượng tuyên truyền, chúng ta phải thấy ít tài khoản quan chức hơn ở các vùng nơi thị trường quảng cáo là có giá trị và nơi cạnh tranh vì những người tiêu dùng là cao. Mặc dù chúng tôi thiếu các số đo trực tiếp của các nhân tố này, chúng chắc liên quan đến thu nhập hay GDP trên đầu người địa phương.

Chúng tôi kiểm chứng các giả thuyết này sử dụng số đo riêng của chúng tôi về những người dùng chính quyền trên Sina Weibo ngang các tỉnh của Trung Quốc đối lại một số đo về kiểm duyệt và đối lại một số đo về sự thiên vị trong các báo Trung Quốc. Panel bên trái của Hình 3 vẽ phần được ước lượng của những người dùng chính quyền đối lại số đo sự thiên vị báo chí trong các nhật báo được kiểm soát ngặt nghèo bởi ĐCS (từ Qin, Ströberg, and Wu 2016). Số đo sau dựa trên chín loại nội dung, kể cả các lời nhắc nhủ của lãnh đạo, các trích dẫn của thông tấn xã chính thống của ĐCS, và sự đưa tin các câu chuyện phê phán chế độ. Panel bên phải của Hình 3 vẽ phần được ước lượng của những người dùng chính quyền đối lại một số đo về kiểm duyệt được Bamman, O’Connor, and Smith (2012) phát triển: phần của các post bị xoá, Quảng Đông (Guang dong) có phần thấp nhất của những người dùng chính quyền (2,5 phần trăm), còn Ninh Hạ (Ningxia) và Cam Túc (Gansu) có phần cao nhất (6 phần trăm). Đồ thị nhìn hầu như cũng thế nếu chúng ta sử dụng phần của các post được đăng bởi những người dùng chính quyền thay cho phần của những người dùng chính quyền.

Hai hình cho thấy rằng phần được ước lượng của những người dùng chính quyền tương quan mạnh với cả phần của các post bị xoá lẫn của sự thiên bị báo chí (hệ số tương quan là 0,7 trong cả hai trường hợp). Tương quan dương này cho biết rằng sự kiểm duyệt, sự thiên vị báo chí, và các tài khoản quan chức trên Sina Weibo được sử dụng cho cùng mục đích tuyên truyền. Lưu ý rằng, trong Hình 3, Tây Tạng (Tibet) có nhiều post bị xoá hơn được kỳ vọng. Có lẽ điều này là một dấu hiệu rằng tuyên truyền không được xem là đặc biệt hiệu quả ở Tây Tạng bởi vì sự ủng hộ cơ sở yếu hơn cho chính phủ trung ương Trung Quốc.

Hai hình cho thấy rằng phần được ước lượng của những người dùng chính quyền tương quan mạnh với cả phần của các post bị xoá lẫn sự thiên vị báo chí (hệ số tương quan là 0,7 trong cả hai trường hợp). Tương quan dương này là phù hợp với giả thuyết rằng sự kiểm duyệt, sự thiên vị báo chí, và các tài khoản quan chức trên Sina Weibo được sử dụng cho cùng mục đích tuyên truyền. Lưu ý rằng, trong Hình 3, Tây Tạng có nhiều post bị xoá hơn được kỳ vọng. Có lẽ điều này là một dấu hiệu rằng tuyên truyền không được xem là đặc biệt hiệu quả ở Tây Tạng bởi vì sự ủng hộ cơ sở yếu hơn cho chính phủ trung ương Trung Quốc.

Các tương quan khác cũng phù hợp với niềm tin rằng những người dùng chính quyền của mạng xã hội đang tiến hành tuyên truyền. Bảng 7 cho một hồi quy chéo để minh hoạ. Biến phụ thuộc là phần của những người dùng chính quyền của Sina Weibo ngang các quận của Trung Quốc. Chúng tôi dùng GDP như một số đo về phát triển kinh tế. Chúng tôi tính đến một biến “thành trì ĐCSTQ,” cho biết các vùng nơi ĐCS được đánh giá cao hơn một cách tương đối do các lý do lịch sử (Qin, Ströberg, and Wu 2016). Ngược lại, một số vùng có một lịch sử của ảnh hưởng Tây phương, nhất là, các vùng đã là phần của một hiệp ước cảng được kiểm soát bởi các cường quốc phương Tây trong giai đoạn 1840-1910 (Jia 2014). Các biến khác trong hồi quy gồm khoảng cách tới Bắc Kinh, vĩ độ, kinh độ, và dân số.

Phần được chúng tôi ước tính của những người dùng chính quyền ngang các quận là thấp hơn đáng kể trong các vùng với các mức GDP cao và là cao hơn trong các thành trì của ĐCSTQ. Kết quả sau là phù hợp với quan điểm rằng tuyên truyền là hiệu quả hơn trong các vùng nơi độc giả chia sẻ ý thức hệ của người gửi. Phần được ước lượng của những người dùng chính quyền cũng tỏ ra cao hơn trong các vùng gần Bắc Kinh hơn và trong các vùng đông dân cư hơn. Tóm lại, các hình mẫu này là phù hợp với tuyên truyền là mục tiêu chính của nội dung mạng xã hội chính quyền này.

7 Kết luận

Chúng tôi sử dụng một bộ dữ liệu lớn về các post blog từ nền tảng microblog Trung Quốc xuất sắc nhất Sina Weibo trong giai đoạn 2009-2013 để chứng minh bằng tư liệu một số sự thực cơ bản. Bây giờ chúng tôi thảo luận làm thế nào để hiểu các sự thực này và chúng ta có thể ngụ ý những gì cho các kết cục mà rốt cuộc chúng ta quan tâm đến, như tham nhũng, sự ổn định hệ thống, trách nhiệm giải trình địa phương và trung ương, và sự cân bằng quyền lực trung ương-địa phương.

Căn cứ vào các cố gắng rộng lớn để kiểm soát bằng cảnh sát và kiểm duyệt mạng xã hội, có thể có vẻ ngạc nhiên đến bối rối rằng chúng tôi thấy rất nhiều tài liệu nhạy cảm sẵn có trên mạng xã hội. Những sự đền đáp riêng để post các tài liệu này là những gì? Vì sao chế độ không trừng trị những người dùng trên một quy mô lớn, và vì sao chế độ không kiểm duyệt tất cả các tài liệu nhạy cảm? Chúng tôi gợi ý sự giải thích sau đây.

Chính phủ trung ương hạn chế sự kiểm duyệt của nó bởi vì chỉ một phần nhỏ của tài liệu nhạy cảm chắc là có khả năng đưa ra một thách thức có ý nghĩa đối với chế độ. Mặc dù dư luận đa dạng và thậm chí bất đồng ý kiến có thể làm phật lòng chế độ, một sự quét sạch nội dung nhạy cảm có thể làm suy yếu năng lực của chế độ để học từ thông tin từ dưới lên và để giải quyết các vấn đề xã hội trước khi chúng trở nên đe doạ. Vì thế, có một sự đánh đổi tế nhị trong sự kiểm soát thông tin đối mặt một chế độ độc đoán.

Những người dùng mạng xã hội có một khuyến khích để cất lên tiếng nói về các vấn đề địa phương vì họ kỳ vọng chính quyền trung ương để giải quyết các vấn đề này. Trong các post về tham nhũng, chúng tôi tìm thấy các lời thỉnh cầu thường xuyên rõ ràng về hành động của chính quyền trung ương. Các post về các cuộc phản kháng và các cuộc đình công có thể giúp tổ chức các sự kiện, nhưng, khá quan trọng, chúng cũng làm cho chính quyền trung ương có thể nhìn thấy các sự kiện này. Việc này có thể buộc các lãnh đạo địa phương giải quyết các vấn đề gây ra các cuộc phản đối và các cuộc đình công. Dòng suy luận này có thể cũng giải thích vì sao các cuộc phản đối và các cuộc đình công đang tăng lên ở Trung Quốc mặc dù chúng ta thấy là đơn giản và rẻ để sử dụng mạng xã hội để nhận diện các sự kiện này trước một ngày. Các quan chức địa phương có thể không muốn đàn áp chúng bằng cảnh sát và bạo lực bởi vì việc này sẽ kích một phản ứng còn lớn hơn nữa trên mạng xã hội.

Tác động nâng cao tính dễ thấy của mạng xã hội có thể cũng giải thích vì sao chúng ta không thấy bằng chứng nào về sự trừng trị quy mô lớn đối với những người dùng bất đồng ý kiến. Người ta có thể nghĩ rằng sự phát hiện này chỉ phản ánh sự nhất quán giữa sự kiểm duyệt và việc kiểm soát bằng cảnh sát – các post mà chúng ta quan sát đã không đủ nhạy cảm để bị kiểm duyệt, và như thế người dân không bị trừng trị vì việc post chúng. Tuy nhiên, những người kiểm duyệt và cảnh sát internet là những người khác nhau. Chính quyền trung ương thực hiện việc kiểm duyệt còn các chính quyền địa phương có thể dựa chỉ vào việc kiểm soát bằng cảnh sát. Cho nên câu hỏi là vì sao các chính trị gia địa phương không trừng trị những người dùng mà các post của họ có thể gây nguy hiểm cho sự nghiệp của họ, thí dụ, những người cáo buộc họ tham nhũng. Một lý do là, các chính trị gia địa phương không có khả năng để nhận diện những người dùng này. Một lý do khác là, mạng xã hội có thể làm cho việc các chính trị gia địa phương trừng trị những người dùng bất đồng ý kiến là có thể thấy được đối với các nhà lãnh đạo quốc gia, mà đặt các chính trị gia địa phương đối mặt các rủi ro chính trị lớn.

Do chính quyền trung ương sử dụng thông tin từ mạng xã hội để giám sát quan chức địa phương, không ngạc nhiên rằng các quan chức địa phương tích cực vận hành các microblog của họ trên Sina Weibo. Các chính trị gia địa phương có thể báo hiệu lòng trung thành của họ với chính quyền trung ương bằng việc nghĩ ra sự tuyên truyền thúc đẩy đường lối của đảng trong khi cũng làm trệch hướng các cáo buộc tham nhũng và chứng tỏ năng lực của họ để nhận diện và giải quyết các vấn đề địa phương. Tuy vậy, là tốn kém để tạo ra sự tuyên truyền có chất lượng cao để chi phối một sự thảo luận giữa hàng triệu người dùng. Chúng tôi ước lượng rằng các tài khoản gắn với chính quyền đóng góp khoảng 4 phần trăm của tất cả các post về chính trị và kinh tế trên Sina Weibo. Trong khi con số này là lớn hơn con số chính thức của Sina Weibo rất nhiều, nó không tràn ngập. Dưới ánh sáng này, không ngạc nhiên rằng chúng tôi thấy các lãnh đạo địa phương không có khả năng để pha loãng một cách hiệu quả thông tin tiêu cực về, chẳng hạn, tham nhũng và hoạt động tập thể.

Các ngụ ý cho các kết cục mà rốt cuộc chúng ta quan tâm là những gì? Các phát hiện của chúng tôi gợi ý rằng mạng xã hội ở Trung Quốc chủ yếu tác động đến những kết cục mà trong đó chế độ trung ương và những người dùng nói chung chia sẻ một sự quan tâm chung. Thí dụ, chế độ và những người dùng mạng xã hội, cả hai đều được lợi từ sự đấu tranh chống tham nhũng địa phương và sự lạm dụng quyền lực khác bởi các lãnh đạo địa phương. Trong khía cạnh này, mạng xã hội Trung Quốc có vẻ đóng một vai trò tích cực trong các công việc chung ở mức địa phương, cải thiện sự tiếp cận của công chúng đến thông tin, sự tham dự vào tranh luận công, và năng lực của họ để điều phối các hoạt động đông người và đáp ứng các vấn đề địa phương.

Ngược lại, các kết cục mà trong đó chế độ trung ương và những người dùng có các lợi ích đối lập nhau chắc là ít bị ảnh hưởng. Thí dụ, một số rất hạn chế các post thảo luận các nhà lãnh đạo quốc gia theo cách tiêu cực. Tương tự, sự đưa tin của mạng xã hội về các xung đột quy mô lớn bị bóp nghẹt, hoặc bởi sự kiểm duyệt hay bởi sự tự-kiểm duyệt. Vì thế, người ta có thể chờ đợi mạng xã hội để tăng phạm vi tác động của các cuộc phản đối quy mô nhỏ và vừa, trong khi làm giảm xác suất của các cuộc phản đối lớn đe doạ chế độ. Như thế, còn xa mới rõ rằng mạng xã hội có khả năng kiềm chế chính quyền trung ương Trung Quốc.

Các phát hiện của chúng tôi cuối cùng gợi ý rằng mạng xã hội ở Trung Quốc chắc là để làm tăng quyền lực của chính quyền trung ương làm tổn hại đến các chính quyền địa phương, mà sẽ bị giám sát sít sao hơn và có ít sự sự tuỳ ý hơn. Cuối cùng, nó có thể dẫn đến sự tập trung hoá tăng lên của quyền lực vì khuyến khích của chính quyền trung ương để phân quyền quyết định bị giảm đi bởi năng lực của nó được cải thiện để kiếm được thông tin địa phương.

Do công nghệ IT tiến bộ và phong cảnh chính trị Trung Quốc thay đổi, là tự nhiên để đặt câu hỏi về các kết quả của bài báo này là xác đáng thế nào bên ngoài giai đoạn lấy mẫu của chúng tôi mà cấm dứt trong 2013. Kể từ 2012, Sina Weibo đã mất vị trí cho các dịch vụ khác, nhất là cho WeChat và Qzone. Nhìn tổng thể, ứng xử của người dùng và sự kiểm duyệt của chính phủ trên các dịch vụ này là tương tự như đối với Sina Weibo, nhưng phải lưu ý đến vài sự khác biệt. Theo Ng (2015), một phần nhỏ của các post bị kiểm duyệt trên WeChat hơn trên Weibo. WeChat cung cấp một công cụ ít hiệu quả hơn một chút để tổ chức hoạt động tập thể quy mô lớn hay để phơi bày các quan chức tham nhũng, vì chỉ những người đăng ký đối với một tài khoản mới có thể thấy một post. Như thế, không ngạc nhiên rằng, trong khi WeChat là nền tảng phổ biến nhất cho nhắn tin tức thì, Sina Weibo và Qzone là các nền tảng phổ biến nhất cho chia sẻ thông tin công khai. Một báo cáo dựa trên điều tra do CNNIC đưa ra cho thấy rằng trong 2015, số những người dùng mạng xã hội mà đã liệt kê Sina Weibo như lựa chọn đầu tiên của họ để theo dõi các sự kiện tin tức hiện thời và các vấn đề xã hội đã gấp đôi những người đã liệt kê Qzone.[5]

Kể từ 2012, các chính quyền Trung Quốc đã leo thang các cố gắng của họ để kiểm soát mạng xã hội. Như phần của sự cố gắng này, kể từ tháng Ba 2012, những người dùng đã được yêu cầu phải tiết lộ nhận diện thật của họ cho các nhà cung cấp mạng xã hội. Bởi vì giai đoạn lấy mẫu của chúng tôi kéo dài cho đến cuối 2013, chúng tôi có thể cung cấp một cái nhìn thoáng qua về tác động của sự siết chặt kiểm soát và sự cạnh tranh tăng lên từ WeChat. Dữ liệu của chúng tôi cho thấy một sự sụt khoảng 30 phần trăm về số của tổng số các post trên Weibo từ 2012 sang 2013. Tuy vậy, số các post về các chủ đề nhạy cảm (xung đột, các cuộc phản đối, các cuộc đình công, và tham nhũng) đã thay đổi không đáng kể. Kết quả này cho biết rằng lưu lượng mà đã chuyển sang WeChat và các dịch vụ khác đã tập trung vào các chủ đề không công cộng như đời sống cá nhân và tán gẫu riêng tư. Nó cũng gợi ý rằng chế độ nghiêm ngặt hơn vẫn đã thấy nó trong lợi ích của họ để không kiểm duyệt hoàn toàn các post về các chủ đề nhạy cảm mà chúng tôi nghiên cứu.

Tài liệu tham khảo

[1] Acemoglu, Daron, Tarek A, Hassan, and Ahmed Tahoun, 2014, “The Power of the Street: Evidence from Egypt’s Arab Spring.” NBER Working Paper 20665.

[2] Adena, Maja, Ruben Enikolopov, Veronica Santarosa, and Katia Zhuravskaya, 2014, “Radio and the Rise of Nazis in Pre-War Germany”, forthcoming in Quarterly Journal of Economics 130(4): 1885 -1939.

[3] Bamman, David, Brendan O’Connor, and Noah Smith, 2012, “Censorship and Deletion Practices in Chinese Social Media”, First Monday 17(3).

[4] China Internet Network Information Center. 2011, “The 28nd Statistical Report on Internet Development in China” July 2011, Beijing.

[5] China Internet Network Information Center. 2013. “The 32nd Statistical Report on Internet Development in China” January 2013, Beijing.

[6] China Internet Network Information Center. 2014, “The 34th Statistical Report on Internet Development in China” January 2014, Beijing.

[7] Chen, Xiaoyan and Peng Hwa Ang, 2011, “Internet Police in China: Regulation, Scope and Myths”. In Online Society in China: Creating, Celeb- rating, and Instrumentalising the Online Carnival, ed. David Herold and Peter Marolt, 40 -52, New York: Routledge.

[8] DellaVigna, Stefano, Ruben Enikolopov, Vera Mironova, Maria Petrova and Ekaterina Zhuravskaya, 2014, “Cross-border media and nationalism: Evid- ence from Serbian radio in Croatia.” American Economic Journal: Applied Economics 6(3): 103 -32.

[9] Dumais, S., Platt, J., Heckerman, D., & Sahami, M., 1998, “Inductive learning algorithms and representations for text categorization”. Proceedings of the 7th international conference on information and knowledge management, 48-155. ACM Digital Library.

[10] Edmond, Chris, “Information manipulation, coordination, and regime change.” The Review of Economic Studies (2013): rdt020.

[11] Egorov, Georgy, Sergei Guriev, and Konstantin Sonin, 2009, “Why resource-poor dictators allow freer media: A theory and evidence from panel data.” American Political Science Review 103.04: 645-668.

[12] Enikolopov, Ruben, Alexey Makarin, and Maria Petrova, 2016, “Social Media and Protest Participation: Evidence from Russia.” Available at SSRN 2696236.

[13] Epstein, Gady, 2013, “China’s Internet: A Giant Cage,” The Economist. April 6, http://www.economist.com/news/special-report/21574628-internet-was-expected-help-democratise-china-instead-it-has-enabled

[14] Freedom House, 2015, “2015 Freedom of the Press Data” https://freedomhouse.org/report/freedom-world/freedom-world-2015#.WFxACX3CB1A

[15] Fu, King-wa, Chung-hong Chan, and Marie Chau, 2013, “Assessing cen- sorship on microblogs in China: Discriminatory keyword analysis and the real-name registration policy.” Internet Computing, IEEE 17(3): 42-50.

[16] International Telecommunication Union, 2013, “The World in 2013: ICT Facts and Figures,” Geneva. http://www.itu.int/en/ITU- D/Statistics/Documents/facts/ICTFactsFigures2013-e.pdf

[17] Jia, Ruixue, 2014, “The Legacies of Forced Freedom: China’s Treaty Ports”, Review of Economics and Statistics, Vol. 96(4): 596-608.

[18] Joachims, Thorsten, 1998, “Text categorization with Support Vector Ma- chines: learning with many relevant features”, 10th European Conference on Machine Learning, volume 1398 of Lecture Notes in Computer Science, 137-142, Berlin: Springer Verlag.

[19] Joachims, Thorsten, 1999, “Making large-Scale SVM Learning Practical”. Advances in Kernel Methods – Support Vector Learning, B. Scholkopf and C. Burges and A. Smola (ed.), MIT-Press.

[20] King, Gary, Jennifer Pan, and Margaret E Roberts, 2013, “How Censorship in China Allows Government Criticism but Silences Collective Expression”, American Political Science Review, 107(2(May)): 1-18

[21] King, Gary, Jennifer Pan, and Margaret E Roberts, 2014, “Reverse- Engineering Censorship in China: Randomized Experimentation and Par- ticipant Observation.” Science 345 (6199): 1-10.

[22] Kleinberg, Jon, 2006, “Complex Networks and Decentralized Search Algorithms”, Proceedings of the International Congress of Mathematicians (ICM).

[23] Lorentzen, Peter, 2014, “China’s Strategic Censorship.” American Journal of Political Science 58.2: 402-414.

[24] Morozov, Evgeny, 2012, “The Net Delusion: The Dark Side of Internet Freedom.” Public Affairs, Reprint edition (February 28. 2012).

[25] Ng. Jason Q. 2015, “Politics, Rumors, and Ambiguity: Tracking Censorship on WeChat’s Public Accounts Platform.” University of Toronto, mimeo.

[26] Platt, John C. 1999, “Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods.” Advances in large margin classifiers 10(3): 61-74.

[27] Public Opinion Monitoring Agency, Various years, Reports on the Online Public Opinion (2010 -2013). Published by People’s Daily.

[28] Qin, Bei, David Stromberg, and Yanhui Wu, 2016, “Media Bias in China,” working paper.

[29] Reporters Without Borders. 2013, “2013 World Press Freedom Index: Dashed Hopes after Spring,” https://rsf.org/en/news/2013-world-press- freedom-index-dashed-hopes-after-spring.

[30] Sakaki, Takeshi, Makoto Okazaki, and Yutaka Matsuo, 2010, “Earthquake shakes Twitter users: real-time event detection by social sensors,” Proceed- ings of the 19th international conference on World Wide Web. ACM.

[31] Sebastiani, Fabrizio, 2002, “Machine learning in automated text categoriz- ation”, ACM Computing Surveys, 34(1). 1 -47.

[32] Shirky, Clay, 2011, “The Political Power of Social Media: Technology, the Public Sphere, and Political Change”. Foreign Affairs, January/February.

[33] Zhu, Tao, David Phipps, Adam Pridgen, Jedidiah R, Crandall, and Dan S, Wallach, 2013, “The Velocity of Censorship: High-Fidelity Detection of Microblog Post Deletions,” arXiv preprint. arXiv:1303.0597. 23

Hình 1: Số được ước lượng của Sina Weibo post bởi Weibook và API

clip_image002

Số được ước lượng của các post Sina Weibo mỗi tháng; xanh lam: tổng Weibook; xanh lá cây: các post về chính trị và kinh tế; đỏ: tổng được ước lượng (ya hei)

Hình 2: Dự đoán và phát hiện Sự kiện

clip_image004

Bộ phân lớp sự kiện chống-Nhật Bộ phân lớp sự kiện đình công

Trục dọc: tỷ lệ dương đúng; trục ngang: tỷ lệ dương sai

Đường đen: thông tin hiện thời; đường đỏ: trước một ngày

Hình 3

Phần của Những người dùng chính quyền trên Sina Weibo ngang các Tỉnh đối lại sự Thiên vị Báo chí và Kiểm duyệt

clip_image006

Người dùng chính quyền và sự Thiên vị của Báo Người dùng chính quyền và các post bị xoá

Trục ngang: phần của các người dùng chính quyền;

Trục dọc: bên trái: không có thiên vị báo giữa các nhật báo; bên phải: phần của các post bị xoá trên weibo

Ghi chú: Mỗi chấm đại diện một tỉnh ở Trung Quốc. Panel bên trái vẽ phần được ước lượng của những người dùng chính quyền đối lại số đo về sự thiên vị báo chí trong các nhật báo bị ĐCS kiểm soát nghiêm ngặt (từ Qin et al. 2016). Panel bên phải vẽ phần được ước lượng của những người dùng chính quyền đối lại số đo về kiểm duyệt do Bamman et al. (2012) phát triển, phần của các post bị xoá.

Bảng 1: Các chủ đề nóng theo loại

Xung đột (độ nhạy cảm: rất cao)

Phản đối (độ nhạy cảm: cao)

Đình công (độ nhạy cảm: trung bình)

Tham nhũng

# tổng số post: 382.232

# tổng số post: 2.526.325

# tổng số post: 1.348.964

# tổng số post: 5.326.897

Tần suất

Từ

Dịch

Tần suất

Từ

Dịch

Tần suất

Từ

Dịch

Tần suất

Từ

Dịch

322.797

镇压

trấn áp

647.711

示威

biểu tình

1.361.854

罢工

bãi công

1.455.878

贪污

tham ô

32.117

冲突

xung đột

534.784

静坐

biểu tình ngồi

69.068

罢课

bãi khoá

1.658.687

腐败

hủ bại

19.124

警民

cảnh sát

và dân

430.112

自焚

tự tử

101.887

工人

công nhân

681.055

公款

tiền

17.460

催泪弹

bom hơi cay

260.574

讨薪

đòi đền bù

98.822

电脑

máy tính

674.503

受贿

nhận hối lộ

31.161

矛盾

mâu thuẫn

346.836

游行

diễu hành

65.557

出租车

taxi

556.609

贿赂

đưa hối lộ

40.286

警察

cảnh sát

164.367

请愿

thỉnh nguyện

164.549

nước mắt

975.187

官员

quan chức

14.271

官民

quan dân

113.936

示威者

người biểu tình

46.219

工会

công đoàn

393.125

廉政

liêm chính

31.935

暴力

bạo lực

109.339

堵路

ngăn đường

91.051

抓狂

điên (rồ)

639.293

利益

lợi ích

130.036

bị

166.600

抗议

kháng nghị

55.687

司机

lái xe

1.002.491

政府

chính phủ

74.391

政府

chính phủ

101.845

集会

hội họp

48.845

集体

tập thể

245.606

挪用

biển thủ

12.002

宽恕

khoan thứ

118.262

农民工

lao động di cư

52.066

员工

nhân viên

512.006

集团

nhóm

12.764

武力

vũ lực

103.975

tư duy

157.937

今天

hôm nay

201.891

吃喝

ăn uống

18.951

军队

quân đội

80.481

静静

tĩnh

24.477

的士

taxi

153.731

职权

chức quyền

29.566

民众

dân chúng

60.237

闲谈

tán gẫu

22.559

法国人

người Pháp

572.569

tiền

14.701

叙利亚

Syria

58.318

人非

thiếu sót của dân

51.479

上班

đi làm

247.942

贪官

quant ham

20.170

抗议

kháng nghị

72.753

民工

dân công

16.290

罢市

bãi thị

156.363

滥用

lạm dụng

60.068

人民

nhân dân

63.719

白宫

Nhà Trắng

40.827

抗议

kháng nghị

291.309

nguyên. cựu

21.521

村民

thôn dân

130.198

ngồi

86.612

手机

điện thoại

288.287

干部

cán bộ

10.264

起义

khởi nghĩa

60.957

riêng mình

17.679

đình công

123.827

行贿

đút lót

10.150

开枪

nổ súng

37904

玩火自焚

chơi với lửa và đốt mình

41586

工资

tiền lương

126.820

情妇

bồ nhí

Ghi chú: Bảng này trình bày các từ chủ đề nóng, được sắp xếp theo tần suất của một từ là cao không bình thường ra sao trong các post đưa tin về một loại cá biệt (thí dụ, xung đột) so với tần suất trong toàn bộ bộ dữ liệu.

Bảng 2

Các post hoạt động tập thể

Từ một mẫu ngẫu nhiên gồm 1.000 post

Tổng số post chứa từ khoá

Các post thực sự về chủ đề xác định

Sự kiện sắp xảy ra

Sự kiện đang xảy ra

Sự kiện quá khứ

Bình luận chung

Xung đột

382.232

398

1

11

156

230

Phản đối

2.526.325

317

2

19

172

124

Đình công

1.348.964

312

5

178

39

90

Chống-Nhật

2.506.944

504

9

188

42

265

Ghi chú: Đối với mỗi loại chủ đề nóng, trong tổng số các trường hợp của từ được sử dụng, chúng tôi khảo sát một mẫu ngẫu nhiên của 1.000 post. Chúng tôi mã hoá một cách thủ công các post có phủ hay không và phủ thế nào một loại cá biệt của sự kiện.

Bảng 3: Dự đoán và Phát hiện Sự kiện (# trên quận và ngày)

BIẾN SỐ

Xung đột

Phản đối

Đình công

Chống-Nhật

Tai nạn mỏ than

Panel A

# Weibo post: ngày sự kiện

6,1

62,6

167,3

2036,6

3,0

# Weibo post: ngày trước sự kiện

3,4

54,3

48,1

924,6

0,7

# Weibo post: ngày không có sự kiện

0,7

4,4

2,5

4,5

1,2

Panel B

Hệ số hồi quy

# Weibo post

0,647***

(0,196)

1,013***

(0,166)

1,777***

(0,310)

1,105***

(0,209)

1,213***

(0,286)

# bài báo

0,002*

(0,001)

0,002*

(0,001)

0,001

(0,002)

-0,000

(0,001)

Số quan sát

346.336

346.336

346.336

346.336

346.336

R-bình phương

0,002

0,006

0,007

0,005

0,004

Panel C

Hệ số hồi quy

# Weibo post ngày trước sự kiện

0,381***

(0,137)

0,639***

(0,143)

0,802***

(0,200)

0,614***

(0,133)

-0,143*

(0,082)

# bài báo ngày trước sự kiện

-0,000

(0,001)

0,001

(0,001)

0,000

(0,002)

0,000

(0,000)

Số quan sát

346.336

346.336

346.336

346.336

346.336

R-bình phương

0,001

0,006

0,005

0,003

0,004

Ghi chú: Panel A: Đối với mỗi loại, Bảng này trình bày số trung bình của các post được đăng bởi những người dùng trong quận (prefecture) nơi một sự kiện đã xảy ra vào ngày của sự kiện (dòng đầu) và vào ngày trước sự kiện (dòng thứ hai). Dòng thứ ba cho biết số trung bình tương tự của các post vào những ngày không có sự kiện như vậy xảy ra. Panels B và C: Đơn vị quan sát là quận và ngày. Biến phụ thuộc là một dummy cho sự xuất hiện của một sự kiện. Các biến số độc lập chủ yếu là log của (1 + số các post Sina Weibo nhắc tới các từ liên quan tới sự kiện) và log của (1 + số bài báo nhắc tới các từ liên quan tới sự kiện). Các hệ số và sai số chuẩn được nhân với 1.000 để làm cho Bảng dễ đọc hơn. Các (biến) điều khiển gồm quận và các tác động cố định năm. Các sai số chuẩn, được ghép cụm theo quận, trong dấu ngoặc.

Bảng 4

Đưa tin về các Chính trị gia

(1)

(2)

(3)

(4)

Tên/Chức vụ

# post

# post trên chức vụ

% post thảo luận các vụ tham nhũng cụ thể

Số đo ý kiến

Tập Cận Bình

1.374.780

1.374.780

0,23

0,88

Ôn Gia Bảo

1.338.882

1.338.882

0,15

0,51

Lý Khắc Cường

401.451

401.451

0,14

0,81

Hồ Cẩm Đào

347.158

347.158

0,10

1,16

Thống đốc Tỉnh

728.386

23.469

1,88

-0,19

Bí thư Tỉnh uỷ

403.074

13.002

1,91

0,52

Thị trưởng

3.541.029

10.305

1,39

0,17

Bí thư Thị uỷ

718.856

2.159

2,81

0,28

Huyện trưởng

719.634

251

1,21

-0,70

Bí thư huyện uỷ

324.522

113

4,40

-0,88

Trưởng Thôn

1.053.346

25

0,65

-0,51

Bí thư Thôn

144.742

3

4,26

-1,40

Ghi chú: Cột (1) cho thấy số các post đưa tin mỗi chức vụ hay tên lãnh đạo chóp bu. Bảng được sắp xếp theo Cột (2)—số các post trên chức vụ. Cột (3) cho thấy số điểm phần trăm được ước lượng của các post nhắc đến chức vụ của một lãnh đạo mà thảo luận các vụ tham nhũng cụ thể. Cột (4) trình bày một số đo rộng về ý kiến (tình cảm) của nhân dân đối với lãnh đạo hay loại lãnh đạo. Chi tiết xem văn bản.

Bảng 5a

Số trung bình của các post theo sự Buộc tội Tham nhũng

2-7 tháng trễ

12-23 tháng trễ

Tên

Tham nhũng

Tên

Tham nhũng

Quan tham

40,9

3,9

148,3

4,7

Quan không tham

44,4

0,4

121,1

1,8

Ghi chú: Để khảo sát liệu các post mạng xã hội có dự đoán sự buộc tội tham nhũng trong tương lai không. Chúng tôi nghiên cứu một mẫu của 200 sự buộc tội tham nhũng. Để so sánh, chúng tôi dựng một mẫu kiểm chứng đối sách của 480 chính trị gia đã không bị buộc tội tham nhũng. Chúng tôi đếm số các post nhắc đến tên của mỗi trong số 680 chính trị gia này và số các post nhắc đến cả chính trị gia lẫn bất kỳ từ nào trong loại tham nhũng của chúng tôi. Chúng tôi tính số các post 2–7 tháng (cũng như 12–23 tháng) trước một sự buộc tội tham nhũng.

Bảng 5b

Biến phụ thuộc: vụ tham nhũng dummy

BIẾN SỐ

I

II

III

IV

V

Hệ số hồi quy

# post nhắc đến tên và (2-7 tháng trước việc kiện đầu tiên)

0,0042***

(0,0010)

0,0065***

(0,0015)

0.0038***

(0,0009)

# post nhắc đến tên và (12-23 tháng trước việc kiện đầu tiên)

0,0035**

(0,0014)

0,0050**

(0,0024)

0,0029

(0,0019)

Số quan sát

680

680

680

680

680

R-bình phương

0,0014

0,053

0,009

0,044

0,052

Các tác động Cố định

No

Case Id

No

Case Id

Case Id

Ghi chú: Đơn vị quan sát là quan chức. Hồi quy cũng gồm số các post nhắc đến tên của quan chức. Biến này luôn luôn không có ý nghĩa. Các sai số chuẩn trong ngoặc, được tạo cụm bởi case id (lãnh đạo bị buộc tội và các lãnh đạo kiểm chứng đối sánh).

Bảng 6

Sự Hiện diện của Chính quyền trên Sina Weibo

Những người dùng

Các post

Phần trăm

# ước lượng

Độ lệch chuẩn

Phần trăm

Độ lệch chuẩn

Chính quyền

0,5

149.746

66.801

0,2

0,1

Báo chí

0,5

149.746

66.801

2,3

1,6

Tổ chức quần chúng

1,0

299.491

94.233

1,1

0,5

Gắn với chính quyền

2,0

598.982

132.590

3,6

1,6

Khác

98,0

29.350.118

132.590

Ghi chú: Dựa trên 1.000 người dùng Sina Weibo được chọn ngẫu nhiên từ toàn bộ cơ sở dữ liệu gồm 30 triệu người dùng của chúng tôi. Một người dùng được phân loại như người dùng chính quyền nếu các post tiết lộ rõ rệt nét nhận diện của người dùng hoặc liên quan phần lớn đến các hoạt động của một chức năng chính quyền; những người dùng tổ chức quần chúng được mã hóa tương tự. Một tài khoản được phân loại như một tài khoản báo chí nếu các post tiết lộ rằng người dùng là một cơ quan báo chí hay một chi nhánh của cơ quan báo chí. “Gắn với chính quyền” là tổng của “chính quyền,” “báo chí,” và “tổ chức quần chúng.”

Bảng 7

Biến phụ thuộc: Phần của những người dùng chính quyền

I

GDP

-0,849***

(0,103)

Thành trì của ĐCSTQ

0,533**

(0,236)

Hiệp ước cảng

-0,079

(0,166)

Khoảng cách đến Bắc Kinh

-0,464***

(0,165)

Dân số

0,366***

(0,129)

Vĩ độ

0,052***

(0,016)

Kinh độ

-0,037***

(0,014)

Số quan sát

259

R-bình phương

0,358

Ghi chú: Đơn vị quan sát là quận (chuyên khu-prefecture). Kết quả nhận được bởi hồi quy bình phương tối thiểu chéo bình thường. Các giá trị GDP và dân số là từ 2010, mà là năm đầu tiên Sina Weibo được dùng. Các sai số chuẩn vững chãi (robust) ở trong ngoặc. “ĐCSTQ” là Đảng Cộng sản Trung Quốc,” “Hiệp ước cảng” là một proxy cho ảnh hưởng Tây phương.


*** p<0,01.

** p<0,05.

* p<0,1.

Phụ lục: các từ khoá

Tiết đoạn này lập danh mục các chuỗi tìm kiếm mà chúng tôi đã dùng để nhận diện các post trong mỗi chủ đề xung đột, phản đối, đình công, tham nhũng và các chức vụ chính trị/chính trị gia.

Bảng A1: Xung đột, các cuộc phản đối và các cuộc đình công

Xung đột

Phản đối

Đình công

被袭击

堵路

罢弛

被袭击 and ( 政府 or 官员 or 干部)

非法集会

罢工

威胁政府

集会and(群众or 公众or 大规模)

罢课

催泪弹and(群众or 政府or 警察)

静坐

罢驶

官民and(矛盾or 冲突or 暴力or 对抗)

请愿

罢市

军民and(矛盾or冲突or 暴力or 对抗)

请愿

罢运

镇压

示威

讨薪

学潮

工潮

游行

学生 and 闹事

封堵and (政府 or 群众 or 工人or 公路)

自焚

千人下跪

not 反日

not 抗日

not 反日

Bảng A2: Tham nhũng

Tham nhũng

腐败 and (政府 or 部门 or 官员 or 干部 or 官员)

腐败分子

公款

贿赂

廉政

买官

卖官

挪用

社保 and (贪污 or 腐败 or 挪用)

受贿

索贿

贪污

行政腐败

徇私

滥用职权

利益集团

侵占 and (政府 or 官员 or 部门 or 干部)

情妇 and (政府 or 官员 or 部门 or 干部)

失职 and (政府 or 官员 or 部门 or 干部)

私分 and (政府 or 官员 or 部门 or 干部)

私生 and (政府 or 官员 or 部门 or 干部)

伪造 and (政府 or 官员 or 部门 or 干部)

舞弊 and (政府 or 官员 or 部门 or 干部)

虚报 and (政府 or 官员 or 部门 or 干部)

虚开 and (政府 or 官员 or 部门 or 干部)

诈骗犯 and (政府 or 部门 or 官员 or 干部)

诈骗罪 and (政府 or 部门 or 官员 or 干部)

Bảng A3: Các chính trị gia

Chức vụ chính trị/người

Các từ khoá

Tập Cận Bình

习近平

Tập Cận Bình

习大大

Tập Cận Bình

习总

Lý Khắc Cường

李克强

Hồ Cẩm Đào

胡锦涛

Ôn Gia Bảo

温家宝

Ôn Gia Bảo

温总理

Thống đốc Tỉnh

省长 or 区主席 or 省主席 or 区副主席 or 省副主席

Bí thư Tỉnh uỷ

(书记 and (省委 or 自治区)) or 省书记 or 省副书记

Thị trưởng

市长 or 州主席 or 州专员 or 地区专员

Bí thư Thị uỷ

(书记 and (市委 or 地委 or 自治州)) or 市书记 or 市副书记

Huyện trưởng

县长

Bí thư Huyện uỷ

书记 and 县委

Trưởng Thôn

村长

Bí thư đảng uỷ Thôn

村支书


* Bài báo này (Why Does China Allow Freer Social Media? Protests vs. Surveillance and Propaganda) đã được lưu truyền trước như “The Political Economy of Social Media in China.” Một phiên bản ngắn hơn được đăng tại Journal of Economic Perspectives, số mùa đông 2017, tr. 117-140. [Nguyễn Quang A dịch].

Bei Qin là Assistant Professor tại School of Economics and Finance. Faculty of Business and Economics. University of Hong Kong. Hong Kong. David Strömberg là Professor tại Institute for International Economic Studies. Stockholm University. Stockholm. Sweden. Yanhui Wu là Assistant Professor về Finance and Business Economics. Marshall School of Business. University of Southern California. Los Angeles. California. USA. Địa chỉ email của họ là beiqin@hku.hk. david.stromberg@iies.su.se. and yanhuiwu@marshall.usc.edu.

[1] Dữ liệu của chúng tôi cho nghiên cứu này kết thúc trong 2013. Trong năm đó, số người sử dụng Weibo đã sụt gần 28 triệu và tỷ lệ sử dụng đã sụt 9,2 điểm phần trăm, theo China Internet Network Information Center (2014).

[2] Sử dụng API public của Sina Weibo, chúng tôi đã tải xuống tất cả các post chứa các từ trung tính “ya” hoặc “hei” trong các khoảng thời gian bốn năm phút mỗi ngày và sau đó chia cho phần trung bình của các post chứa các từ này và phần trung bình của các post chứa trong các khoảng năm-phút trong một ngày. Chúng tôi đã không có khả năng để làm việc này cho các năm muộn hơn bởi vì public timeline API đã từ chối sự tiếp cận.

[3] Để phân tích các tần suất từ trong văn bản tiếng Hoa. chúng tôi sử dụng Bộ Phân đoạn Từ Stanford (Stanford Word Segmenter) để phân đoạn các từ trong mỗi post microblog. Chúng tôi bỏ các từ dừng (stopword), các dấu chấm câu, các URL, các tên người dùng và các ký tự phi-Trung Hoa trừ các từ viết tắt tiếng Anh có ý nghĩa khỏi văn bản. Chúng tôi loại bỏ các từ với hơn 30 ký tự và các từ xuất hiện ít hơn 5 lần. Chúng tôi nhận được 3,2 triệu từ riêng biệt và 6,0 tỷ biểu hiện (token, tức là số lần xuất hiện từ).

[4] Các tần suất từ trong mỗi post được tính sau tiền xử lý được mô tả tại tiết đoạn sớm hơn trong chú thích 3. Như các đầu vào cho SVM. chúng tôi sử dụng tần suất thuật ngữ – nghịch đảo các tuần suất tài liệu (term-frequency – inverse document frequencies). Chúng tôi sử dụng phần mềm SVM-light Joachims (1999). Dùng một mẫu ngẫu nhiên mới gồm 500 người dung, chúng tôi ước lượng mô hình probit của xác suất là một tài khoản chính quyền tuỳ thuộc vào điều kiện tham số SVM. Xem phụ lục online để biết chi tiết.

[Ghi chú thêm của người dịch: tần suất thuật ngữ t, TF(t) = (số lần thuật ngữ t xuất hiện trong tài liệu)/ (tổng số các thuật ngữ trong tài liệu); nghịch đảo tần suất tài liệu IDF (t) = loge(Tổng số tài liệu/ Số tài liệu chứa t); TF coi các thuật ngữ quan trọng như nhau; IDF đo thuật ngữ quan trọng thế nào.]

* Trong hồi quy probit biến phụ thuộc chỉ có thể lấy 2 giá trị. thí dụ 1 và 0.

[5] Phiên bản tiếng Hoa của báo cáo có thể được tải từ http://www.cnnic.cn/.

Comments are closed.