Tôi đã nhân bản chính mình bằng AI. Nhân vật này đã qua mặt được cả ngân hàng và gia đình tôi.

0
46

Cù Tuấn

– Cù Tuấn biên dịch từ Wall Street Journal.

Tóm tắt: Người viết chuyên mục của chúng tôi đã thay thế chính mình bằng giọng nói và video AI để xem công nghệ này có thể giống con người đến mức nào. Kết quả thật đáng lo ngại.

Tin tốt về AI Joanna: Cô ấy không bao giờ mất giọng, cô ấy có tư thế nổi bật và thậm chí một chiếc xe mui trần đang chạy với tốc độ 180 kim/h qua cơn lốc xoáy cũng không thể làm rối mái tóc của cô ấy.

Tin xấu: Nhân vật AI này có thể đánh lừa cả gia đình tôi và qua mặt cả ngân hàng của tôi.

Có thể bạn đã từng thử với các chatbot như ChatGPT của OpenAI và Bard của Google hoặc các trình tạo hình ảnh như Dall-E. Nếu bạn nghĩ rằng chúng đã làm mờ ranh giới giữa AI và trí thông minh của con người, thì chứng tỏ bạn vẫn chưa nhìn thấy—hoặc nghe thấy— cái gì.

Trong vài tháng qua, tôi đã thử nghiệm Synthesia, một công cụ tạo hình đại diện dùng trí thông minh nhân tạo từ video và âm thanh đã ghi (còn gọi là deepfakes). Nhập bất cứ câu nói gì và hình đại diện video của bạn sẽ nhắc lại nguyên xi.

Vì tôi làm rất nhiều công việc về hội thoại và video, nên tôi nghĩ điều này có thể giúp tôi làm việc hiệu quả hơn và bớt đi một số công việc cực nhọc. Rốt cuộc, đó là lời hứa của AI. Vì vậy, tôi đã đến một phòng thu và ghi lại khoảng 30 phút video và gần hai giờ âm thanh mà Synthesia sẽ sử dụng để huấn luyện bản sao của tôi. Vài tuần sau, AI Joanna đã sẵn sàng.

Sau đó, tôi đã thử thách nó theo phong cách Ferris Bueller. Liệu nhân vật trí tuệ nhân tạo này—được ghép nối với văn bản do ChatGPT tạo ra—có thể thay thế tôi thực trong video, cuộc họp và cuộc gọi điện thoại không? Đó là… một cú mở mang tầm mắt tuyệt vời, tôi dám nói là nó sẽ mở mang trí tuệ nhân tạo. (Hãy đổ hết lỗi cho AI Joanna vì những trò đùa tồi tệ nhất của tôi.)

Cuối cùng, AI Joanna có thể viết báo và đóng vai tôi trong các cuộc nói chuyện qua mạng. Hiện tại, phần mềm này đang minh họa tốt nhất con dao hai lưỡi của các công cụ video và giọng nói tổng hợp dùng trí tuệ nhân tạo.

Hình đại diện video do AI tạo ra của tôi trông giống như một hình đại diện thật sự.

Video của tôi gồm rất nhiều việc phải làm. Làm tóc, trang điểm, quần áo, máy ảnh, ánh sáng, micro. Synthesia hứa hẹn sẽ làm thay tôi và đó là lý do tại sao các tập đoàn đã sử dụng nó. Bạn đã xem những video đào tạo nhàm chán rồi chứ? Tại sao phải trả tiền cho các diễn viên để đóng vai chính trong phiên bản hành động khi AI có thể làm tất cả? Synthesia tính phí 1.000 đô la một năm để tạo và duy trì hình đại diện tùy chỉnh, cộng với phí đăng ký bổ sung hàng tháng. Nó cung cấp hình đại diện với chi phí hàng tháng thấp hơn.

Tôi đã yêu cầu ChatGPT tạo một kịch bản video TikTok nói về một mẹo trên iOS, được viết bằng giọng của Joanna Stern. Tôi đã dán nó vào Synthesia, nhấp vào “Tạo mới” và đột nhiên tôi thấy “tôi” đang nói. Việc này giống như nhìn vào hình ảnh phản chiếu của tôi trong gương, mặc dù loại bỏ cử chỉ tay và nét mặt. Đối với các câu nhanh, hình đại diện của tôi có thể nói khá thuyết phục. Văn bản càng dài, bản chất bot của nhân vật càng thể hiện rõ. Bạn tự xem video của tôi là biết.

Trên TikTok, nơi mọi người có thời gian tập trung chú ý rất ngắn, những thuộc tính giống như máy tính đó ít được chú ý hơn. Tuy nhiên, một số người nhanh chóng nhận ra. Về nguyên tắc, tôi thà ăn thạch sùng sống còn hơn là thốt ra cụm từ “nổi tiếng trên TikTok”, nhưng nhân vật tôi do AI tạo ra chẳng hề e ngại gì.

Tính bot của nó trở nên rất rõ ràng trong các cuộc gọi video công việc. Tôi đã tải xuống các đoạn clip nhân vật này nói những nhận xét thông thường trong cuộc họp (“Xin chào mọi người!” “Xin lỗi, tôi bị tắt tiếng.”) Sau đó sử dụng phần mềm để đưa chúng vào Google Meet. Rõ ràng tư thế hoàn hảo quá mức và sự thiếu thông minh của AI Joanna là những điểm yếu chết người.

Tất cả điều này rồi sẽ trở nên tốt hơn, mặc dù. Synthesia có một số hình đại diện trong bản beta có thể gật đầu lên xuống, nhướng mày, v.v.

1. Giọng nói AI của tôi nghe rất giống tôi.

Khi cá trong bể của chị tôi chết, tôi có thể gọi điện chia buồn không? Có. Trong một cuộc phỏng vấn qua điện thoại với Giám đốc điều hành của Snap, Evan Spiegel, liệu tôi có thể tự hỏi mọi câu hỏi không? Chắc chắn. Nhưng trong cả hai trường hợp, giọng nói AI của tôi là một sự thay thế thuyết phục. Lúc đầu thôi.

Tôi đã không sử dụng bản sao giọng nói của Synthesia cho những cuộc gọi đó. Thay vào đó, tôi đã sử dụng một giọng nói được tạo bởi ElevenLabs, một nhà phát triển phần mềm giọng nói AI. Nhà sản xuất Kenny Wassus của tôi đã thu thập khoảng 90 phút giọng nói của tôi từ các video trước đó và chúng tôi đã tải các tệp lên công cụ này—không cần đến phòng thu. Trong vòng chưa đầy hai phút, phần mềm đã nhân bản giọng nói của tôi. Trong công cụ dựa trên web của ElevenLabs, hãy nhập bất kỳ văn bản nào, nhấp vào Tạo mới và trong vài giây, giọng nói “của tôi” sẽ đọc to nội dung đó. Tạo một bản sao giọng nói với ElevenLabs có giá từ 5 USD một tháng.

So với Synthesia Joanna, giọng tôi của ElevenLabs nghe giống con người hơn, với ngữ điệu và dòng chảy lời nói hay hơn.

Em gái tôi, người mà tôi gọi nói chuyện vài lần một tuần, nói rằng giọng của bot nghe rất giống tôi, nhưng nhận thấy giọng nói của phần mềm không hề dừng lại để lấy hơi lần nào. Khi tôi gọi cho bố tôi và dùng phần mềm hỏi số An sinh xã hội của ông ấy, bố tôi biết có điều gì đó không ổn chỉ sau khi nhận ra cách nói của phần mềm giống như một đoạn băng ghi âm của tôi.

2. Khả năng lạm dụng là có thật.

Giọng nói của ElevenLabs hay đến mức nó đánh lừa được hệ thống sinh trắc giọng nói trên thẻ tín dụng Chase của tôi.

Tôi gợi ý cho AI Joanna một số điều mà tôi biết Chase sẽ hỏi, sau đó tôi quay số dịch vụ khách hàng. Ở bước sinh trắc học, khi hệ thống tự động hỏi tên và địa chỉ của tôi, AI Joanna đã trả lời. Nghe thấy giọng nói AI của tôi, hệ thống đã nhận ra đó là tôi và ngay lập tức kết nối với nhân viên tổng đài phục vụ. Khi nhân viên thực tập chuyên xử lý video của chúng tôi gọi điện và giả giọng nói của tôi, hệ thống tự động của ngân hàng đã nhận ra đây không phải giọng của tôi và đã yêu cầu xác minh thêm.

Một phát ngôn viên của Chase cho biết ngân hàng sử dụng sinh trắc học giọng nói, cùng với các công cụ khác, để xác minh người gọi chính xác. Cô ấy nói thêm rằng tính năng này nhằm giúp khách hàng nhận dạng chính mình một cách nhanh chóng và an toàn, nhưng để hoàn thành các giao dịch và các yêu cầu tài chính khác, khách hàng phải cung cấp thêm thông tin.

Điều đáng lo ngại nhất là ElevenLabs đã tạo ra một bản sao rất tốt mà không gặp nhiều trở ngại. Tất cả những gì tôi phải làm là nhấp vào một nút nói rằng tôi có “các quyền hoặc sự đồng ý cần thiết” để tải lên các tệp âm thanh và tạo ra các bản sao giọng nói của tôi, đồng thời khẳng định rằng tôi sẽ không sử dụng nó cho mục đích lừa đảo.

Điều đó có nghĩa là bất kỳ ai trên internet có thể dành hàng giờ để nghe giọng nói của tôi—hoặc của bạn, của Joe Biden hoặc Tom Brady—và lưu riêng vào máy của họ và sử dụng. Ủy ban Thương mại Liên bang Mỹ đã cảnh báo về các trò gian lận liên quan đến giọng nói AI này.

Synthesia yêu cầu âm thanh và video phải có sự đồng ý bằng lời nói, điều mà tôi đã làm khi quay phim và ghi âm với công ty này.

ElevenLabs chỉ cho phép nhân bản trong các tài khoản trả phí, vì vậy bất kỳ việc sử dụng giọng nói nhân bản nào vi phạm chính sách của công ty đều có thể được dùng để truy ra chủ tài khoản, theo người đồng sáng lập công ty Mati Staniszewski. Công ty này đang nghiên cứu một công cụ xác thực để mọi người có thể tải lên bất kỳ âm thanh nào để kiểm tra xem âm thanh đó có được tạo bằng công nghệ của ElevenLabs hay không.

Cả hai hệ thống trên đều cho phép tôi tạo ra một số nội dung khủng khiếp với giọng nói của mình, bao gồm cả những lời đe dọa gi.ết người.

Một phát ngôn viên của Synthesia cho biết tài khoản của tôi được chỉ định để sử dụng với một tổ chức tin tức, có nghĩa là nó có thể nói những từ và cụm từ mà có thể bị lọc. Công ty cho biết admin của họ đã gắn cờ và xóa các cụm từ có vấn đề của tôi sau đó. Khi tài khoản của tôi được thay đổi thành loại thường, tôi không còn có thể tạo video với các cụm từ đó nữa.

Ông Staniszewski cho biết ElevenLabs có thể xác định tất cả nội dung được tạo bằng phần mềm của mình. Ông nói thêm, nếu nội dung vi phạm các điều khoản dịch vụ của công ty, ElevenLabs có thể cấm tài khoản gốc của nó và hỗ trợ các cơ quan chức năng trong trường hợp vi phạm pháp luật.

3. Rất khó phát hiện sự khác biệt.

Khi tôi hỏi Hany Farid, một chuyên gia pháp y kỹ thuật số tại Đại học California, Berkeley, về cách chúng ta có thể phát hiện âm thanh và video tổng hợp, anh ấy chỉ có hai từ: chúc may mắn.

“Tôi không chỉ có thể tạo ra thứ này mà còn có thể ném bom trên Internet bằng nó,” anh ấy nói, đồng thời nói thêm rằng bạn không thể biến mọi người thành thám tử chuyên phát hiện các nhân vật AI.

Chắc chắn, bản sao video của tôi rõ ràng không phải là tôi, nhưng nó sẽ càng ngày càng trở nên giống tôi hơn. Và nếu cha mẹ và chị gái của tôi còn không thể phân biệt nổi sự khác biệt trong giọng nói của tôi với giọng do AI tạo ra, liệu tôi có thể mong đợi người khác phân biệt nổi không?

Tôi có một chút hy vọng khi nghe về Sáng kiến Xác thực Nội dung do Adobe dẫn đầu. Hơn 1.000 công ty truyền thông và công nghệ, các học giả, v.v. nhằm mục đích tạo ra một “nhãn sản xuất” được nhúng vào các phương tiện truyền thông. Hình ảnh, video và âm thanh trên internet một ngày nào đó có thể đi kèm với thông tin có thể kiểm chứng được. Synthesia là một thành viên của sáng kiến này.

4. Tôi cảm thấy việc là một con người thì tốt hơn máy.

Không giống như AI Joanna, nhân vật không bao giờ cười, tôi – Joanna thật có thể mỉm cười sau những chuyện này. Văn bản do ChatGPT tạo ra thiếu cá tính và chuyên môn của tôi. Bản sao video của tôi thiếu những thứ đã tạo nên tôi. Và mặc dù nhà sản xuất video của tôi thích sử dụng giọng nói AI của tôi trong các chỉnh sửa ban đầu để phát theo thời gian, nhưng giọng nói thật của tôi có nhiều năng lượng, cảm xúc và nhịp điệu hơn.

Phần mềm/ AI sẽ trở nên càng ngày càng bắt chước tốt hơn ở tất cả những điều đó? Chắc chắn rồi. Nhưng tôi cũng dự định sử dụng những công cụ này để có thêm thời gian được sống một cách thực sự. Trong thời gian chờ đợi, ít nhất bây giờ tôi đã ngồi thẳng lưng hơn trong các cuộc họp.

Ảnh: Để nhân bản tôi đã phải nói các câu mẫu vào micro, sau đó đứng trước màn hình xanh rồi gửi các file audio và video cho phần mềm

Video của AI tạo ra sẽ có trong comment.

https://www.facebook.com/tuan.cu.5/posts/pfbid037MWN9DSd9tpQD32wbZTGfPvkd3QaExgdsLaHUX16dJgaHxYxTCUo2beidfeFG6s2l

714490cookie-checkTôi đã nhân bản chính mình bằng AI. Nhân vật này đã qua mặt được cả ngân hàng và gia đình tôi.