Facebook là cỗ máy dạy học nói chuyện nhỏ
Một trong hai chiếc loa này là robot, và một người là con người. bạn có thể nói nó là gì không?
[Dr. Jenson:]. . . Tôi thưởng thức một miếng bít tết ngon. Còn bạn thì sao?
[Cô Dawes:] Cha luôn nói rằng nếu chúng tôi có tiền thì cha có. . . chúng tôi sẽ ăn bít tết và kem ba lần mỗi ngày!
[Dr. Jenson:] Tôi ăn cả bít tết và gà, thậm chí cả thịt xông khói.
[Cô Dawes:] Cha luôn nói rằng nếu chúng tôi có tiền thì cha có. . . chúng tôi sẽ ăn bít tết và kem ba lần mỗi ngày!
[Dr. Jenson:] Vâng, bạn đã nói điều đó rồi.
[Miss Dawes:] Cấu trúc động có thể hấp thụ chấn động.
Miss Dawes là một bot và phản ứng của cô ấy là điển hình của ngay cả những chatbot tốt nhất thế giới khi họ cố gắng trò chuyện với nhau. Cô ấy bị mắc kẹt trong một vòng lặp. Cô ấy đưa ra những chủ đề dường như ngẫu nhiên, không liên quan. Cô ấy dường như không có bất kỳ giá trị hoặc sở thích neo đậu nào, chứ đừng nói đến tiếng nói liên tục.
Cho đến nay, đây không phải là một vấn đề lớn. Đó là bởi vì ngày nay, chatbots được sử dụng cho các nhiệm vụ chức năng như đặt nhà hàng hoặc tra cứu thời tiết. Nhưng các nhà nghiên cứu AI tại nhóm FAIR của Facebook muốn phát triển các chatbot thông minh có thể tương tác với con người thông qua ngôn ngữ tự nhiên, chân thực hơn. Và để đạt được điều đó, họ đang xây dựng một cơ sở dữ liệu mã nguồn mở mới về những người chat chit –tập hợp từ hàng nghìn cuộc trò chuyện mà nó trả tiền cho mọi người để thực hiện với nhau và với máy móc, thông qua Mechanical Turk của Amazon.
Bạn thấy đấy, cô Dawes - và giai thoại kỳ lạ của cô ấy về sở thích của cha cô ấy đối với bít tết và kem - đại diện cho chiếc máy hàng đầu đang lên tiếng ngay bây giờ. Cô đã được đào tạo để nói chuyện nhỏ với một trong những bộ dữ liệu toàn diện nhất hiện có về cuộc thảo luận của con người. Nó được gọi là OpenSubtitles, và nó thực sự chỉ là một bộ sưu tập các cụm từ được lấy ra từ các bộ phim. Tuy nhiên, rõ ràng, logic của các đoạn hội thoại trong phim - ít kịch tính, ngắn gọn - để lại một số lỗ hổng khi dạy một chatbot nói chuyện với người thật.
Facebook đang thử một cách tiếp cận khác. Thay vì huấn luyện bot của nó để hỏi những câu hỏi mở vô nghĩa (như “cho tôi biết bạn cảm thấy thế nào về điều đó”) hoặc chuyển sang cơ sở dữ liệu được xây dựng từ các nhân vật trong phim để lấp đầy khoảng trống bằng lời nói của chính nó, các nhà nghiên cứu của nó đã tìm kiếm những người thực, nghiên cứu cách các cá nhân tương tác khi họ đang cố gắng tìm hiểu về nhau trong một cuộc trò chuyện bình thường.
Hy vọng của họ là hành vi con người có sắc thái riêng biệt này có thể được số hóa. Đó không phải là một kỳ tích nhỏ: Small talk tinh tế một cách đáng ngạc nhiên và hơi thiếu mục đích bởi thiết kế, đòi hỏi một vũ đạo ngẫu hứng của các dấu hiệu bằng lời nói, từ đồng nghĩa và bối cảnh luôn thay đổi. Nó có thể được tự động một cách đáng tin cậy không?
Trong một bài báo mới, các nhà nghiên cứu mô tả chiến lược của họ. Đầu tiên, họ yêu cầu Amazon Turkers tạo 1.155 nhân vật tưởng tượng, mỗi nhân vật có năm câu mô tả riêng. Họ đọc dọc theo dòng, “Tôi là một nghệ sĩ. Tôi có bốn đứa con. Gần đây tôi có một con mèo. Tôi thích đi bộ để tập thể dục. Tôi thích xem Game of Thrones . ” Sau đó, họ đã nhờ Turker viết lại những tính cách này, về cơ bản nói những điều giống nhau bằng những từ khác nhau, để thêm một chút ngôn ngữ đa dạng hơn. "Cha tôi đã làm việc cho Ford" có thể trở thành "cha tôi làm việc cho ngành công nghiệp xe hơi."
Jason Weston, nhà khoa học nghiên cứu tại FAIR cho biết: “Đôi khi mọi người mơ hồ, đôi khi họ cụ thể,” Jason Weston, nhà khoa học nghiên cứu tại FAIR, nói khi tôi hỏi tại sao họ dường như đang xây dựng tập dữ liệu của họ với cả những dữ kiện cá nhân cụ thể hơn và khái quát hơn cùng một lúc. “Một hệ thống hiểu ngôn ngữ mạnh phải giỏi cả hai và hiểu cách chúng giao nhau. Đây là một vấn đề nghiên cứu đầy thách thức, và kết quả là chúng tôi có một tập dữ liệu phản ánh cả hai thực tế ”. Cuối cùng, họ chỉ định những nhân vật này lại cho Turker, về cơ bản yêu cầu họ đóng vai một người trong một cuộc trò chuyện độc đáo với một Turker khác đóng một nhân vật khác.
Những gì Facebook thu thập được là gần 11.000 dòng cuộc trò chuyện bằng văn bản chân thực – mọi người chia sẻ một chút về bản thân trong khi hỏi một chút về bản thân. Cùng với các mô tả cá nhân, cuộc nói chuyện nhỏ của họ tạo nền tảng cho cái gọi là tập dữ liệu Persona-Chat, mà Facebook đã cung cấp cho các nhà nghiên cứu khác ở đây .
Nó hoạt động khá tốt - mặc dù không hoàn toàn hoàn hảo. Lấy ví dụ này, được Facebook chia sẻ, về một bot Persona-Chat được đào tạo đang nói chuyện với con người.
[Người 1:] Tôi vừa mới chơi bóng xong. Dạo này bạn như thế nào?
[Người 2:] Tôi không có vật nuôi. Tôi dành thời gian rảnh để viết. Thế còn bạn?
[Người 1:] Vừa tốt nghiệp đại học. Đang tìm việc.
[Người 2:] vâng, tôi đã tốt nghiệp, về viết văn và thơ
[Người 1:] Bạn đã có gì xuất bản chưa?
[Người 2:] Tôi chủ yếu viết tiểu thuyết viễn tưởng.
[Người 1:] Bạn có thích xem thể thao không?
[Người 2:] bạn có thích các vị vua của leon yêu thích của tôi bởi họ là sử dụng ai đó
[Người 1:] Bạn đã kết hôn chưa? Tôi sẽ sớm kết hôn.
[Người 2:] haha, không có thời gian. Tôi có một cuốn tiểu thuyết để hoàn thành.
[Người 1:] Cuốn tiểu thuyết của bạn viết về điều gì?
[Người 2:] đó là một câu chuyện tình yêu. Tôi thực sự thích viết. bạn viết hay đọc
[Người 1:] Thích đọc. Dành nhiều thời gian để xem
Người 2 rõ ràng vẫn không phải là một người, nhưng một vài câu thoại của họ là sự hoàn hảo tuyệt đối, thông tục. Trong thử nghiệm của Facebook, một bot được đào tạo bởi Persona-Chat hoạt động tốt hơn một bot được đào tạo bởi OpenSubtitles trong mọi chỉ số, bao gồm khả năng hiểu nó, tương tác với nó và bị lừa khi nghĩ rằng đó là đồng loại. Và hơn nữa, các nhà nghiên cứu của Facebook thừa nhận với tôi rằng bản thân AI của họ không phải là bước đột phá thực sự ở đây; đó là tập dữ liệu mới đằng sau nó.
Thật vậy, nếu Facebook có thể tốt nhất các tập dữ liệu khác với 11.000 dòng hộp thoại của mình, nó đủ để khiến bạn tự hỏi liệu Facebook đang học được bao nhiêu ngôn ngữ từ các cuộc trò chuyện mà 2 tỷ người có trên dịch vụ của mình mỗi tháng – có lẽ với sự trợ giúp từ “ personas ”thu thập được từ các lượt thích, lượt chia sẻ và tham gia liên tục của chúng tôi - và kết quả là một chatbot thấm nhuần nhiều dữ liệu đó có thể tạo ra một cuộc trò chuyện nhỏ. Tất nhiên, Facebook khẳng định rằng họ muốn kết nối mọi người với nhau, chứ không phải với một đám chatbot quay lén.
Tuy nhiên, đó là một lời nhắc nhở nổi bật rằng, dù đăng cập nhật trạng thái trên Facebook hay chỉ gõ tìm kiếm vào Google, chúng ta đều là những cỗ máy đào tạo mọi lúc. Và như Cha vẫn thường nói, nếu chúng ta có tiền mà bạn có. . chúng tôi sẽ ăn bít tết và kem ba lần mỗi ngày!
Nhận xét
Đăng nhận xét