Bên trong Kế hoạch của Đảng Dân chủ để Sửa chữa Hệ thống Dữ liệu đang Đổ vỡ của họ

Tháng 7 năm 2017, khi Raffi Krikorian đặt chân vào văn phòng mới tại Ủy ban Quốc gia Dân chủ, những lời của Hillary Clinton vẫn còn vang vọng trong tai anh. Chỉ vài tháng trước đó, cựu thư ký quốc gia và ứng cử viên Dân chủ vừa bị đánh bại cho chức tổng thống đã ngồi trên sân khấu tại hội nghị công nghệ của Recode và một cách không thương tiếc chê bai cơ sở hạ tầng dữ liệu của Đảng Dân chủ.
“Tôi nhận được sự đề cử. Vì vậy, tôi bây giờ là ứng cử viên của Đảng Dân chủ. Tôi thừa kế không gì từ Đảng Dân chủ,” Clinton giải thích. “Ý nghĩa là nó phá sản, nó trên bờ vực phá sản, dữ liệu của nó tệ đến từ trung bình đến kém, không tồn tại, sai.”
Lời chỉ trích chua chát của Clinton đã khiến một số người trong đảng cảm thấy như là trách móc và làm đau lòng những người chuyên nghiệp dữ liệu của DNC đã cố gắng giúp bà đắc cử, bao gồm cựu giám đốc khoa học dữ liệu của đảng, người gọi những lời bình luận của bà là “làm mẹ nó điều đó” trong một tweet đã bị xóa sau đó. Với vai trò Giám đốc Công nghệ mới của DNC, nhiệm vụ của Krikorian là tìm hiểu rõ điều Clinton muốn nói là gì—và quan trọng hơn là có thể làm gì về vấn đề này.
Krikorian là một người mới vào chính trị, vừa rời khỏi vị trí lãnh đạo dự án ô tô tự lái của Uber sau khi xây dựng sự nghiệp tại Twitter, nhưng anh nhanh chóng nhận ra rằng những vấn đề về dữ liệu mà Clinton đang đề cập đến, mặc dù phức tạp và có nhiều lớp, nhưng đều có một điểm chung: một hệ thống được gọi là Vertica.
Từ năm 2011, Vertica đã là kho lưu trữ trung ương của Đảng Dân chủ cho dữ liệu—nơi để lưu trữ hồ sơ cử tri của mỗi bang, mỗi lần gõ cửa và cuộc gọi điện thoại mà tổ chức thực hiện, và mỗi phần nhỏ của dữ liệu có sẵn thương mại mà chiến dịch thu thập. Nó đã đóng một vai trò quan trọng trong chiến dịch tái đắc cử của Tổng thống Obama vào năm 2012, khẳng định rằng việc có một hoạt động dữ liệu mạnh mẽ là trung tâm của chiến dịch hồi đại. Tuy nhiên, chỉ sau vài năm, hệ thống đã bắt đầu lộ diện độ tuổi tác của mình, và nhiều người Dân chủ lo ngại rằng thiếu một hệ thống dữ liệu mạnh mẽ có thể làm tổn thương ứng cử viên của họ trong năm 2020 và sau đó.
Krikorian nghe những gì anh gọi là “câu chuyện chiến tranh” về Vertica hầu như ngay lập tức, khi anh phỏng vấn các cựu nhân viên chiến dịch như Robby Mook, quản lý chiến dịch của Clinton, và Stephanie Hannon, một cựu nhân viên Google và giám đốc công nghệ của Clinton. Hệ thống nổi tiếng vì thường sập trong suốt 16 giờ liên tục. Một giám đốc dữ liệu ở Bắc Carolina kể cho anh rằng cô từng ngủ trưa trong ô tô của mình chỉ chờ đợi Vertica trở lại trực tuyến. Mook, Krikorian nhớ lại, đã so sánh Vertica với Beirut—khi hệ thống quá tải, như nó thường xuyên làm, nó sẽ tắt nguồn cho đến khi những pháo đài dừng lại.
“Đó không phải là lỗi của hệ thống khi nó không hoạt động,” Mook nói với MYTOUR. “Nó không được xây dựng để tồn tại lâu dài hoặc có số lượng người dùng nhiều như nó cuối cùng đã có.”
Đối với Krikorian, Vertica dường như là rào cản chính đối với tiến triển công nghệ trong đảng. “Tôi đến với một loạt các mục tiêu cao cả về những điều chúng ta muốn đạt được tại đảng,” Krikorian nói. “Sau khi tôi bóc tảo, tất cả đều trở về việc, chúng ta không thể thực hiện Điều Thú Vị X cho đến khi Vertica được sửa chữa.”
Vì vậy, trong những tháng trước cuộc bầu cử trung kỳ 2018, một cuộc bầu cử quan trọng cho Đảng Dân chủ, anh đã đặt một cược mạo hiểm bằng cách chia đội ngũ công nghệ của mình, gồm 40 người, thành hai nhóm. Một nhóm sẽ phải giữ Vertica sống đến ngày bầu cử; nhóm kia sẽ chịu trách nhiệm xây dựng cái gì đó sẽ đến sau đó.
Chặng Đường Tổng Thống Của Andrew Yang: Kiểu 21 Của Thế Kỷ
Người Điều Hành Công Nghệ của DNC 'Lừa Đảo' Nhân Viên. Tốt Hay Xấu?
The shift comes as Krikorian is stepping down from his position at the DNC to move back to California with his wife and two kids. Lindsey Schuh Cortés, Krikorian’s deputy and former CEO of the Democratic data firm BlueLabs, is taking on the role of acting CTO until the party hires someone new.
Đảng Dân chủ cũng đang chuẩn bị thiết lập một sàn trao đổi dữ liệu được mong đợi từ lâu, cho phép đảng và các nhóm chính trị bên ngoại chia sẻ dữ liệu của họ lần đầu tiên, mà không vi phạm luật tài chính chiến dịch. Sàn trao đổi này, sẽ do cựu Chủ tịch DNC Howard Dean chủ trì, được mô phỏng theo GOP Data Trust, một tổ chức tương tự ở phe Cộng hòa. Một số Dân chủ tin rằng tổ chức này đã mang lại ưu thế lớn cho Tổng thống Trump vào năm 2016, vì nó mở ra một thế giới dữ liệu cho chiến dịch của ông, vượt ra ngoài những gì RNC có thể thu thập được một mình. Nhưng việc xây dựng một trung tâm trao đổi dữ liệu phức tạp như vậy sẽ là không thể với Dân chủ dưới hệ thống Vertica.
Khi DNC lần đầu mua công nghệ Vertica để chuẩn bị cho chiến dịch tái cử Tổng thống Obama năm 2012, ý tưởng một kho chứa trung tâm có thể giữ tất cả dữ liệu của đảng dường như là một đột phá. Trước đây, thông tin quý báu này được lưu trữ trong các cơ sở dữ liệu khác nhau, làm cho việc kết hợp chúng lại và có cái nhìn toàn diện về những người cử tri và những điều họ quan tâm trở nên khó khăn, nếu không là không thể. Việc có tất cả dữ liệu đó ở một nơi đã giúp chiến dịch Obama lọc thông tin để tập trung tiếp cận cử tri và quảng cáo ở mức cá nhân, thay vì chỉ đơn giản là phân loại họ thành các hạng mục rộng như, ví dụ, bà mẹ bóng đá hoặc bố Nascar.
Nhưng các nhược điểm của Vertica nhanh chóng trở nên rõ ràng. Một điều là giao diện của nó nguyên vẹn với những người mới vào chính trị và các chiến dịch nhỏ hơn với kinh nghiệm phân tích dữ liệu hạn chế. “Nó chỉ là các cột của bảng, với tất cả các con số này, và có thể cột có tên là, ‘Đây là đúng 2014 Booker,’” Schuh Cortés nói. “Bạn phải biết hoặc đã từng tham gia vào chiến dịch trước đó để hiểu rõ hộp nào hữu ích và dữ liệu nào thực sự tốt.”
Vertica cũng ra đời trước nhiều hệ thống dựa trên đám mây hiện đại ngày nay. Thay vào đó, nó yêu cầu DNC thiết lập máy chủ, những máy chủ này thực sự không được thiết kế để chịu đựng áp lực của terabytes dữ liệu đổ vào chúng hoặc hàng nghìn chuyên viên phân tích dữ liệu cố gắng truy cập dữ liệu trong những ngày cuối cùng trước một cuộc bầu cử. “Nếu bạn nói với tôi rằng công cụ công nghệ tương tự sẽ được sử dụng vào năm 2018, tôi đã gọi bạn là điên,” nói Josh Hendler, người đã làm CTO của DNC từ 2009 đến 2011.
Sau năm 2012, thiếu bảo trì và quá nhiều dữ liệu đã khiến Vertica rơi vào tình trạng hư hại, ngay cả khi nhu cầu về chiến dịch chủ động bằng dữ liệu tăng lên. Đến cuộc bầu cử năm 2016, đội ngũ của Clinton, bao gồm những tài năng kỹ thuật hàng đầu từ Silicon Valley, đau đầu với hệ thống mà họ kế thừa. “Đó là một màn trình diễn tồi tệ từ lúc tôi bắt đầu làm việc ở đó,” nói Gerard Niemira, người làm giám đốc sản phẩm cho chiến dịch. Anh nhớ rõ Vertica bị sập trong 72 giờ vào ngày đầu tiên của mình, sau khi một nhà phân tích mới viết một truy vấn đơn giản.
Theo Schuh Cortés, đồng nghiệp BlueLabs của cô, Elan Kriegel, là giám đốc phân tích dữ liệu của Clinton, đội ngũ Clinton phải có hàng chục kỹ sư sẵn sàng làm việc suốt cả ngày đêm, sẵn sàng khởi động lại hệ thống mỗi khi nó sập.
“Những gì chiến dịch của họ đang phản ứng là do sự thất bại trong suốt những năm của thời kỳ Obama để hiệu quả duy trì tốc độ hiện đại hóa bên trong DNC,” nói Michael Slaby, người làm chief innovation officer cho chiến dịch của Tổng thống Obama năm 2012 và công ty cũ của ông, The Groundwork, đã làm việc với chiến dịch của Clinton năm 2016. “Công nghệ không dừng lại trong 10 năm.”
Khi Krikorian gia nhập DNC vào năm 2017, ông thấy trực tiếp có bao nhiêu nguồn lực đảng đang lãng phí để giữ hệ thống hoạt động, ngay cả trong giai đoạn nghỉ giải. Trong năm 2018, trong một cuộc bầu cử giữa kỳ với độ cường độ cao, cần sự chăm sóc liên tục từ các kỹ sư của DNC để giữ cho Vertica sống, và nó vẫn đảm bảo bị sập trong khoảng một đợt 10 giờ qua đêm. Sau khi Đảng Dân chủ tái chiếm Quốc hội vào ngày 6 tháng 11, kế hoạch thay thế nó đã được triển khai đầy đủ. Schuh Cortés nói, “Mọi người đã sẵn sàng.”
Một mục tiêu lớn khác là tìm kiếm một nền tảng ổn định hơn, một nền tảng không yêu cầu Dân chủ phải duy trì các máy chủ của họ. DNC tìm kiếm công cụ mới từ nhiều công ty khác nhau, và họ chọn Google’s BigQuery vì, như Jennifer Kane, người đứng đầu quản lý sản phẩm của DNC nói, “Chúng tôi không cần phải thức dậy lúc 3 giờ sáng để chăm sóc Google’s BigQuery. Họ đã đảm bảo điều đó.”
Đảng đã gây quỹ 5 triệu đô la từ các nhà tài trợ một cách rõ ràng cho dự án này, và đội ngũ đã dành nhiều tháng tiếp theo để thiết lập Data Warehouse mới, hy vọng rằng nó sẽ đáng tin cậy hơn và cũng thân thiện hơn với các chiến dịch nhỏ hơn. Vào tháng 2, DNC bắt đầu onboard chiến dịch tổng thống đầu tiên của mình và gần đây đã tổ chức các buổi đào tạo cho nhân viên dữ liệu Dân chủ từ khắp cả nước.
“Chúng tôi có cơ hội trao chìa khóa của một chiếc xe Lamborghini dữ liệu cho các chiến dịch lập pháp tiểu bang, điều mà trước đây là không thể,” Schuh Cortés nói. Cô thêm, Vertica, sẽ chính thức được chôn cất vào mùa hè này.
Kho dữ liệu mới là nền tảng cơ bản để đạt được một trong những mục tiêu chính của đảng trước năm 2020: tạo ra một sàn trao đổi dữ liệu.
Ủy ban Bầu cử Liên bang cấm sự phối hợp giữa các chiến dịch và các nhóm bên ngoài, điều này truyền thống có nghĩa là chiến dịch của ứng cử viên và siêu PAC của nó không thể so sánh hoặc trộn lẫn dữ liệu mà mỗi bên đang thu thập. Nhưng Đảng Cộng hòa đã tìm ra một cách để vượt qua quy tắc đó, bằng cách tạo ra một tổ chức bên thứ ba mang tên Data Trust vào năm 2011. Công ty này nằm ngoài Đảng và hoạt động như một trung tâm làm sạch dữ liệu. Một loạt các nhóm Cộng hòa cấp giấy phép dữ liệu của họ cho Trust, cho phép các nhóm khác mua quyền truy cập mà không vi phạm quy định của FEC.
Sau cuộc bầu cử năm 2016, Schuh Cortés nói rằng, Đảng Dân chủ bắt đầu xem mô hình này như một ưu thế cạnh tranh cho Đảng Cộng hòa. “Khi bạn chỉ có quyền truy cập vào một nửa bức tranh về tất cả các liên lạc trong tập tin cử tri, bạn đưa ra quyết định dựa trên những gì bạn biết,” cô nói. “Việc thiết lập sàn trao đổi dữ liệu mở ra nửa còn lại của tất cả các đầu tư đang được thực hiện trong liên lạc cử tri.”
Niemira hy vọng điều đó sẽ giúp với việc, như Clinton nói, chất lượng dữ liệu của DNC từ “trung bình đến kém, không tồn tại, sai.” “Vâng, dữ liệu tệ. Nếu bạn đã nói chuyện với bất kỳ ai từng tham gia cuộc điện thoại cho bất kỳ ứng cử viên Dân chủ nào, bạn sẽ thấy điều đó,” anh nói, lưu ý rằng Dân chủ có thói quen gõ cửa của người chết. “Vấn đề kiểu đó sẽ được giải quyết thông qua sàn trao đổi, vì đó là về việc thông tin di chuyển một cách hiệu quả giữa hai bên.”
Nhưng các quan chức Đảng tiểu bang, người quản lý tập tin cử tri của tiểu bang của họ, ban đầu do dự để từ bỏ quyền kiểm soát của Đảng đối với nguồn lực quý giá nhất của đảng. Cuối cùng, đảng đạt được một thỏa thuận: Dữ liệu chính sẽ được lưu trữ trong DNC. Sàn trao đổi dữ liệu chỉ theo dõi ai đang cung cấp và lấy thông tin gì và xây dựng các đường ống kết nối các bộ dữ liệu. Việc tạo ra Kho dữ liệu mới, Schuh Cortés nói, có nghĩa là những đường ống đó có một cái gì đó ổn định để kết nối. “Luồng dữ liệu đó sẽ làm cho [Vertica] sập ngay từ ngày đầu tiên,” cô nói.
Tháng 2, DNC công bố rằng cựu thống đốc Vermont Howard Dean sẽ làm chủ tịch hội đồng trao đổi, với cựu trợ lý của Obama Jen O'Malley Dillon điều hành công ty hàng ngày. “Thỏa thuận trao đổi dữ liệu có nghĩa là một lần gõ cửa ở Iowa có thể là lợi ích cho toàn bộ hệ sinh thái,” Dean nói với MYTOUR trong một tuyên bố.
Chỉ vào tuần trước, tuy nhiên, Dillon thông báo cô sẽ đảm nhiệm vai trò quản lý chiến dịch cho chiến dịch tổng thống của nghị sĩ Texas Beto O'Rourke. Bây giờ, vấn đề là về tiến triển đang được đưa ra trên sàn trao đổi và, quan trọng nhất, ai sẽ điều hành nó trong tương lai. Dillon không trả lời các yêu cầu bình luận từ MYTOUR.
Không có nghi ngờ gì trong số các nhà điều hành Dân chủ rằng cơ sở dữ liệu cơ bản về dữ liệu của đảng cần phải được nâng cấp cấp thiết. Nhưng có một kho lưu trữ dữ liệu chỉ là chức năng là chưa đủ. Một điều quan trọng, có sự nhận thức ngày càng cao rằng Dân chủ cũng cần phải suy nghĩ lại cách tiếp cận quảng cáo kỹ thuật số.
Trong năm 2016, chiến dịch của Trump đã chi một cách đáng kể hơn so với chiến dịch của Clinton trên các nền tảng như Facebook. Brad Parscale, giám đốc kỹ thuật của Trump và hiện là quản lý chiến dịch, đã lập luận rằng Facebook là lý do khiến Trump chiến thắng. Bây giờ, theo các con số vừa được tổng hợp gần đây về quảng cáo kỹ thuật số tổng thống, lịch sử đang đe dọa lặp lại. “Họ đang chi nhiều tiền hơn tổng cộng tất cả các ứng viên Dân chủ, điều đó nên làm sợ tất cả mọi người ở phe trái,” Slaby nói về chiến dịch của Trump. Không chỉ vậy, chiến dịch của Trump có lợi thế lớn, khi bổ nhiệm Parscale làm quản lý chiến dịch chỉ một năm sau khi Tổng thống Trump nhậm chức.
Krikorian sử dụng một bảng điều khiển để theo dõi những con số quảng cáo tương tự. “Mọi người khác đều bị nhỏ bé bởi số lượng chi tiêu mà anh ấy đã làm,” anh ấy nói. “Điều đó nhất định làm tôi lo lắng.”
Niemira cũng lo lắng về việc liệu kho dữ liệu mới có đủ sẵn sàng cho những nhân viên chiến dịch không biết cách lập trình hay không, vì vẫn cần ít nhất là một số kỹ năng lập trình. Điều đó có thể là một thách thức lớn, ông nói, đối với nhiều giám đốc dữ liệu địa phương, họ thực sự chỉ là những nhân viên hiệu suất cao đã được thăng chức. Với khả năng kỹ thuật hạn chế trong đảng, Niemira tin rằng quan trọng cho Dân chủ là xây dựng các công cụ mà nhân viên chiến dịch bình thường có thể dễ dàng truy cập. (Công ty của ông, Acronym, đang xây dựng một công cụ như vậy.) “Để thành công vào năm 2020 và sau đó, chúng ta phải tìm cách để người sử dụng có kỹ năng thấp có thể kéo dữ liệu xung quanh hệ sinh thái này,” ông nói.
Có thực tế là đảng vẫn chưa thu thập nhiều dữ liệu kỹ thuật số theo bất kỳ cách chuẩn nào. Để xác định cửa nào để gõ hoặc người nào để nhắm đến với quảng cáo, Dân chủ đã phụ thuộc vào hồ sơ cử tri trong nhiều năm, cũng như thông tin về các cuộc liên lạc cử tri trước đó được truyền từ công cụ tổ chức lĩnh vực có tên là VoteBuilder. Nhưng vài năm qua, đã xuất hiện một làn sóng sản phẩm kỹ thuật số mới dành cho Dân chủ và một đám mây những gì Mook gọi là “khói mù” phát ra từ các nền tảng truyền thông xã hội. Không rõ liệu bất kỳ đảng nào đã biết cách sử dụng nó đầy đủ chưa.
“Cả hai đảng đều đang đối mặt với việc xác định cách sử dụng lượng dữ liệu lớn tồn tại trong hệ sinh thái, những gì mọi người đăng trên truyền thông xã hội và những dấu vết kỹ thuật số khác … và sử dụng nó để có cái nhìn tốt hơn về ai có thể ủng hộ ứng cử viên nào,” Mook nói. “Vấn đề của Đảng Dân chủ hiện nay là cho đến khi chúng ta hoàn thành cơ sở hạ tầng cơ bản này, chúng ta thậm chí không ở trong tình hình để tiến triển trong cuộc cạnh tranh đó.”
Krikorian đã dành một năm và một nửa qua để đưa cơ sở hạ tầng đó vào chỗ --- và làm cho chắc rằng ứng viên Dân chủ năm 2020 không có những lời phàn nàn giống như Clinton về dữ liệu của đảng. Anh ấy đã tuyển mộ một đội ngũ công nghệ đa dạng từ ngành tư nhân, và anh ấy nói rằng các ứng viên được phỏng vấn để thay thế anh ấy đến từ “các công ty công nghệ rất lớn.” Anh ấy thừa nhận rằng ai là người đó sẽ phải làm việc hết sức khó khăn, nhưng ít nhất bây giờ, anh ấy nói, “Tôi thực sự cảm thấy như mọi thứ đều có thể thực hiện được.”
Đã cập nhật 4-2-19, 9:03 sáng EDT: Câu chuyện này đã được cập nhật để sửa chữa chức danh công việc của Jennifer Kane. Cô ấy là người quản lý sản phẩm của DNC, không phải là người quản lý dự án.
- Bạn thật sự muốn bao nhiêu thông tin gen thai nhi?
- Theo dõi vua robocall
- Quyết định thực sự bạn đưa ra khi đăng ký dịch vụ của Apple
- Lịch sử toán học của một tổ hợp màu hoàn hảo
- Đối với người làm việc tự do, tương tác với khách hàng có thể trở nên ... kỳ lạ
- 👀 Đang tìm kiếm những thiết bị công nghệ mới nhất? Kiểm tra các hướng dẫn mua sắm và các ưu đãi tốt nhất của chúng tôi suốt cả năm
- 📩 Nhận thêm nhiều thông tin nội bộ của chúng tôi với bản tin hàng tuần Backchannel của chúng tôi
