AGI đã có mặt ở đây: 13 cuộc trò chuyện AI cốt lõi nhất tại Hội nghị thường niên Sequoia

Giới thiệu

Vào cuối tháng 4 năm 2026, Sequoia Capital sẽ tổ chức Hội nghị AI Ascent lần thứ 4 tại San Francisco. Hội nghị này đã mời các công ty cốt lõi trong ngành AI như OpenAI, DeepMind, Anthropic, NVIDIA và Waymo, cũng như các công ty khởi nghiệp đang đặt cược vào các hướng mới nổi như ElevenLabs, XBOW, Recursive Intelligence và Starcloud. 13 cuộc đối thoại bao gồm các mô hình cơ bản, mô hình lập trình, robot, lái xe tự động, thiết kế chip, sức mạnh tính toán không gian và kiến trúc điện toán mới, về cơ bản bao gồm các dòng chính tiên tiến nhất của ngành AI hiện tại.

So với những năm trước, giai điệu của AI Ascent lần này trực tiếp hơn: AI không còn chỉ là một công cụ để nâng cao hiệu quả mà đã bắt đầu đi vào các quy trình làm việc thực tế, đảm nhận một số nhiệm vụ phức tạp mà trước đây chỉ con người mới có thể hoàn thành. Trong bài phát biểu khai mạc của mình, Sequoia gọi đó là sự xuất hiện của "AGI chức năng" - không phải máy móc đã tương đương với con người về mọi mặt, mà từ góc độ kinh doanh và năng suất, trí thông minh tầm xa đã vượt qua ngưỡng từ trình diễn đến khả năng sử dụng.

Đây cũng là nền tảng cốt lõi của hội nghị này: khi trí thông minh bắt đầu trở nên rẻ, có thể sử dụng được và có thể mở rộng, thì trọng tâm của cuộc cạnh tranh AI đang chuyển từ "liệu mô hình có thể được xây dựng" sang "làm thế nào để kết nối nó với thế giới thực". Do đó, phần mềm, dịch vụ, tổ chức, phần cứng, năng lượng, bảo mật và không gian vật lý đều có thể được thiết kế lại.

Câu chuyện mà Sequoia muốn kể rất rõ ràng: trí thông minh không còn là một sản phẩm xa xỉ mà đang trở thành một nguyên liệu thô công nghiệp mới. Điều thực sự quan trọng trong giai đoạn tiếp theo có thể không phải là ai có mô hình thông minh hơn mà là ai có thể hiểu khách hàng nhanh hơn, tổ chức lại quy trình, lên lịch cho đại lý và biến trí tuệ rẻ tiền này thành một hệ thống kinh doanh bền vững.

Do đó, hội nghị này không chỉ thảo luận về bước tiếp theo của công nghệ AI mà còn là một vấn đề lớn hơn: làm thế nào con người, các công ty và xã hội có thể xác định lại giá trị của chính mình khi máy móc ngày càng có thể đảm nhận nhiều công việc trí óc hơn.

Một số chủ đề chính xuyên suốt toàn bộ sự kiện

Đầu tiên, trí thông minh đang trở thành một mặt hàng.

Sequoia đã so sánh sự chuyển đổi này với "nhôm" vào cuối thế kỷ 19: nó từng đắt hơn vàng, nhưng do sự phổ biến của điện phân, nó đã trở thành một vật liệu công nghiệp sẵn có và có mặt ở khắp mọi nơi trong vòng vài thập kỷ. Ngày nay, chuyên môn ở cấp độ tiến sĩ, rào cản nhận thức từng xác định khả năng cạnh tranh của tầng lớp trung lưu, có thể cũng chịu số phận tương tự. Trí thông minh tiên tiến không còn khan hiếm một cách tự nhiên mà bắt đầu được sản xuất hàng loạt, triển khai và phân phối theo mô hình.

Thứ hai, nút thắt là việc chuyển từ máy móc sang con người.

Greg Brockman đã nói một câu được trích dẫn nhiều lần tại hội nghị này: Khi các đặc vụ có thể làm việc tự chủ, sự chú ý của con người sẽ trở thành nguồn lực khan hiếm nhất trong toàn bộ nền kinh tế. Karpathy bày tỏ nhận định tương tự theo cách thẳng thắn hơn: khi máy móc có thể xử lý hầu hết mọi chi tiết thực thi, khả năng duy nhất mà con người không thể đánh mất là tìm ra thứ họ muốn. Câu hỏi không còn là liệu máy móc có làm được việc đó hay không mà là liệu con người có thể đưa ra những mục tiêu phù hợp hay không, đánh giá xem kết quả có đáng tin cậy hay không và quyết định điều gì đáng để hoàn thành.

Thứ ba, việc lập trình đang được giải quyết, còn các tổ chức thì chưa.

Anthropic đã triển khai nội bộ một lượng lớn mã do các mô hình tạo ra và các tác nhân khác nhau thậm chí có thể cộng tác tự chủ trên Slack. Nhận định của Boris Cherny còn đi xa hơn: hào nước thực sự không còn là một phiên bản mô hình nhất định mà là mức độ “bản địa” của AI trong cơ cấu tổ chức. Đây là một kết luận không mấy thân thiện đối với các công ty hiện tại - bởi vì khoảng cách không chỉ đến từ mức độ thành thạo công cụ mà còn đến từ việc công ty sẵn sàng thiết kế lại các quy trình, quyền, phương pháp cộng tác và cơ cấu quản lý xung quanh các đại lý.

Thứ tư, AI đang quay trở lại từ thế giới kỹ thuật số sang thế giới vật lý.

Robot của Jim Fan, 20 triệu chuyến xe tự lái của Waymo và giọng nói đầy cảm xúc của ElevenLabs minh họa từ các khía cạnh khác nhau rằng AI không còn chỉ là một công cụ màn hình để xử lý văn bản, mã và hình ảnh mà đã bắt đầu hiểu và can thiệp vào ánh sáng, âm thanh, lực, chuyển động và không gian. Trong thập kỷ qua, “phần mềm ăn thế giới” là chủ đề chính; tiếp theo, AI có thể trực tiếp bước vào thế giới vật chất, thay đổi ô tô, nhà máy, robot, tương tác bằng giọng nói và chính hoạt động sản xuất vật chất.

Thứ năm, mục đích cuối cùng của sức mạnh tính toán nằm ở bản chất vật lý.

Khi đất đai, năng lượng và khả năng tản nhiệt của các trung tâm dữ liệu trên mặt đất bắt đầu đạt đến đỉnh cao, một nhóm gồm các công ty cấp tiến hơn đã đưa ra các giải pháp khác nhau: Starcloud muốn gửi chip vào không gian, Đệ quy để AI tự thiết kế chip, AI độc đáo cố gắng vượt qua kiến trúc von Neumann để bắt chước bộ não và Flapping Airplanes trực tiếp đặt câu hỏi về "mở rộng quy mô bạo lực" - nếu con người có thể học những kỹ năng tương tự với ít dữ liệu hơn, thì thuật toán AI ngày nay có thể quá kém hiệu quả ngay từ gốc. Điểm cuối cùng của cuộc cạnh tranh sức mạnh tính toán là chuyển từ mua thêm GPU sang tái thiết cơ bản về năng lượng, chip, kiến trúc và hiệu quả dữ liệu.

Thứ sáu, an ninh đã bước vào chiến trường bất đối xứng "AI vs AI".

Đặc vụ của XBOW đứng đầu bảng xếp hạng hacker mũ trắng toàn cầu, điều đó có nghĩa là AI không còn chỉ là công cụ phụ trợ cho các nhà nghiên cứu bảo mật mà là một hệ thống tấn công tự động có thể hoàn thành việc phát hiện, xác minh và khai thác lỗ hổng một cách độc lập. Điều nghiêm trọng hơn nữa là khi khả năng của các mô hình nguồn mở được cải thiện, khả năng tấn công kiểu này có thể lan rộng nhanh chóng trong 6 đến 9 tháng tới. An ninh mạng không còn là cuộc tấn công và phòng thủ giữa các hacker con người mà là một cuộc chạy đua vũ trang AI đã bắt đầu đếm ngược.

Tổng hợp những manh mối này lại với nhau, bạn sẽ thấy rằng ngành công nghiệp AI vào năm 2026 đang ở trong một tình thế không thoải mái: năng lực kỹ thuật đã vượt xa hình thức sản phẩm, cơ cấu tổ chức và các quy tắc xã hội. Mô hình này đang trở nên mạnh mẽ hơn mỗi ngày, nhưng “vùng chứa” chứa nó—cho dù đó là quy trình doanh nghiệp, giao diện ứng dụng hay sự chú ý của con người—vẫn chưa bắt kịp.

Cuộc thảo luận xuyên suốt hội nghị về cơ bản nhằm trả lời cùng một câu hỏi: Trong một thế giới mà máy móc ngày càng có thể hoàn thành nhiều công việc trí óc hơn, con người còn lại gì?

Câu trả lời mà Sequoia đưa ra có phần phản trực giác: đó là cảm xúc, sự tin tưởng và những thứ không thể sản xuất trên quy mô lớn. Câu trả lời của Brockman là “Bạn muốn gì?” và câu trả lời của Karpathy là “Bạn có thể biết liệu máy có hoạt động đúng không?” Những câu trả lời này cuối cùng đều chỉ ra cùng một điều: khi bản thân trí thông minh không còn khan hiếm nữa thì những ý định, phán đoán và các mối quan hệ sẽ trở thành đồng tiền mạnh mới.

Sau đây là tóm tắt tất cả 13 cuộc đối thoại tại hội nghị này.

Tóm tắt diễn đàn

Bài phát biểu quan trọng

Bài phát biểu khai mạc của Sequoia Partners: Đây là AGI

Diễn giả Pat Grady, Sonya Huang và Konstantine Buhler là ba đối tác cốt lõi của dòng đầu tư AI của Sequoia Capital. Sonya Huang là tác giả của bài báo Generative AI: A Creative New World năm 2022 đã gây chấn động thế giới. Cô được coi là một trong những nhà đầu tư tổ chức đầu tiên lạc quan một cách có hệ thống về AI sáng tạo. Ba đồng tác giả bài viết Đây là AGI vào năm 2026, là nguồn gốc của khuôn khổ tư tưởng của hội nghị này. Bản thân Sequoia Capital là công ty đầu tư mạo hiểm hàng đầu lâu đời nhất ở Thung lũng Silicon và đã đầu tư vào Apple, Google, Nvidia, Stripe, OpenAI và các công ty khác trong những ngày đầu thành lập.

AI là một "cuộc cách mạng điện toán" phá vỡ hoàn toàn bản chất của việc xử lý thông tin, chứ không phải là một "cuộc cách mạng truyền thông" chỉ tăng tốc phân phối. Trước đây, Internet và thiết bị đầu cuối di động chỉ thay đổi đường truyền thông tin, nhưng AI đã thay đổi logic cơ bản của việc tạo ra thông tin, khiến nền tảng (cơ sở kỹ thuật) mà các nhà phát triển xây dựng ứng dụng dựa trên đó phải thay đổi hàng ngày. Tầm quan trọng của nhận định này là trong “thời điểm mưa bão” khi nền tảng không ổn định, nền tảng công nghệ ổn định truyền thống đã trở thành quá khứ và các nhà phát triển phải học cách thích ứng với cơ sở mô hình đang phát triển.

AI sẽ thâm nhập vào thị trường trị giá 10 nghìn tỷ USD, lớn gấp 10 lần so với phần mềm truyền thống thông qua việc cung cấp trực tiếp "các dịch vụ chuyên nghiệp". TAM (Tổng thị trường có thể định địa chỉ) của thị trường phần mềm toàn cầu chỉ có vài trăm tỷ đô la Mỹ, trong khi riêng ngành dịch vụ pháp lý của Hoa Kỳ đã lên tới 400 tỷ đô la Mỹ, tương đương với quy mô của toàn bộ ngành công nghiệp phần mềm. Điều này ủng hộ một sự chuyển đổi quan trọng: giá trị thương mại của AI không còn được bán như một công cụ cho con người mà trực tiếp dưới dạng một tác nhân (thông minh) để tiếp quản và cung cấp công việc có giá trị cao do các chuyên gia con người hoàn thành ban đầu.

Từ góc độ thương mại thực tế, các tác nhân có độ bền lâu dài có thể phản ứng độc lập trước các lỗi đánh dấu sự xuất hiện của AGI (trí tuệ nhân tạo). Nếu một hệ thống có thể được gửi đi để thực hiện một nhiệm vụ, tự sửa chữa trong trường hợp lỗi và tồn tại đến đích thì nó đã có chức năng tương đương với AGI. Nhận định phản trực giác này nhắc nhở chúng ta: đừng vướng vào những định nghĩa học thuật nữa. AI với khả năng thực thi độc lập đã phát triển từ “con ngựa nhanh hơn” thành “ô tô” có khả năng thay đổi khía cạnh cạnh tranh và hiệu quả của nó đã tăng gấp 10 đến 40 lần.

Vào thời điểm mà các năng lực cơ bản đang thay đổi nhanh chóng, logic duy nhất để xây dựng một con hào là phải "cực kỳ gần gũi với khách hàng". Các chiến lược MAD—Moats, Affordance và Diffusion—ủng hộ việc khóa giá trị hỗ trợ khách hàng thay vì loại bỏ công nghệ. Vì nhu cầu của con người thay đổi chậm hơn nhiều so với khả năng của mô hình nên việc bao bọc khách hàng sâu sắc này sẽ bền hơn so với việc theo đuổi mô hình.

Quyền tự chủ của đại lý đang phát triển từ "trợ lý cấp độ phút" thành "nhân viên tự chủ cấp độ giờ". Biểu đồ mét (số liệu về độ bền của nhiệm vụ) đo lường thời gian một mô hình đi đúng hướng đối với các nhiệm vụ phức tạp đã tăng từ vài phút một năm trước lên hàng giờ, đủ để hỗ trợ các nhà máy tối (quy trình kinh doanh chạy hoàn toàn tự động) mà không cần sự đánh giá của con người. Điều này có nghĩa là nút thắt về năng suất đã được giải quyết và những bước lặp lại đặc biệt như "viết lại 8 triệu dòng mã trong 6 tuần" đang trở thành thông lệ.

Xã hội loài người đang ở trước "cuộc cách mạng công nghiệp nhận thức" và máy móc sẽ đảm nhận 99,9% công việc trí óc của thế giới. Giống như Cách mạng Công nghiệp đã thay thế 99% sức mạnh vật chất bằng động cơ, hầu hết việc phân tích, ra quyết định và sáng tạo trong tương lai cũng sẽ được thực hiện bởi mạng lưới thần kinh. Đề xuất của nhận định này là trí thông minh sẽ không còn là nguồn tài nguyên độc quyền của con người mà là một vật tư tiêu hao cấp công nghiệp với chi phí thấp, có thể được sản xuất trên quy mô không giới hạn và được sử dụng theo yêu cầu.

Các kỹ năng trí tuệ nâng cao sắp mở ra "Khoảnh khắc nhôm" và sẽ hoàn toàn biến từ thứ xa xỉ đắt tiền thành hàng hóa rẻ tiền. Nhôm, từng đắt hơn vàng, đã trở thành vật liệu dùng một lần do sự phổ biến của điện phân (một quá trình hóa học tách các chất) và khả năng tiếp cận tức thì của AI với kiến thức ở cấp độ tiến sĩ cũng sẽ có tác dụng tương tự. Điều này báo trước một tương lai tàn khốc: những rào cản về chuyên môn tích lũy qua nhiều năm có thể sụp đổ ngay lập tức và bản thân trí thông minh sẽ không còn có giá trị khan hiếm nữa.

Khi trí thông minh hoàn toàn ở mức tầm thường, các mối quan hệ giữa các cá nhân và kết nối cảm xúc sẽ trở thành điểm tựa giá trị thực sự duy nhất của xã hội loài người. Nhiếp ảnh từng thúc đẩy nghệ thuật chuyển từ chủ nghĩa hiện thực sang chủ nghĩa ấn tượng thể hiện tâm hồn. Tương tự, giải pháp tối ưu về hiệu quả của AI thường đưa ra một “không gian ngoài hành tinh” vượt xa trực giác của con người. Kết luận cuối cùng phản trực giác nhưng sâu sắc: Trong tương lai nơi máy móc chịu trách nhiệm cho mọi công việc, chỉ có niềm tin và tình cảm giữa con người mới là loại tiền tệ tối thượng mà máy móc không thể sản xuất hàng loạt.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Trí thông minh từng có giá trị sẽ sớm trở nên rẻ như túi nhựa. Trong tương lai, điều thực sự giúp bạn có tính cạnh tranh không còn là bộ não có thể giải quyết vấn đề nữa mà là cảm xúc có thể hiểu người khác và tạo dựng niềm tin.

Mô hình và nhận thức

Andrej Karpathy: Từ Vibe Coding đến Agent Engineering (Nhóm sáng lập OpenAI)

Diễn giả Andrej Karpathy là "nhà khoa học giáo dục" có ảnh hưởng nhất trong giới AI. Là thành viên nhóm sáng lập OpenAI, sau này ông giữ chức vụ giám đốc Tesla AI phụ trách hệ thống thị giác lái xe tự động. Năm 2024, ông rời Tesla để thành lập Eureka Labs, một công ty giáo dục AI. Chuỗi video của ông trên YouTube giải thích từng bước về mạng lưới thần kinh là sách giáo khoa giới thiệu cho vô số kỹ sư AI. Các khái niệm chính như "Phần mềm 2.0" và "Vibe Coding" đều do anh ấy đặt ra.

Ngay cả những chuyên gia hàng đầu cũng cảm thấy “bị bỏ lại phía sau” trong làn sóng AI khi công nghệ này phát triển từ các công cụ hỗ trợ đến hệ thống tự động. Vào đầu năm 2026, diễn giả nhận thấy rằng ông không còn cần phải sửa đổi các khối mã do AI tạo ra nữa và có thể chỉ cần tin tưởng hệ thống sẽ hoàn thành các nhiệm vụ phức tạp. Tầm quan trọng của nhận định này là khi AI có thể đạt được khả năng tự sửa lỗi và phân phối vòng kín, "điểm mấu chốt" của các nhà phát triển ban đầu dựa vào tích lũy kinh nghiệm đã tăng lên một cách dữ dội và tốc độ học tập cá nhân khó bắt kịp với tốc độ dịch chuyển của cơ sở kỹ thuật.

Điện toán hiện đại đang bước vào kỷ nguyên Phần mềm 3.0 và LLM về cơ bản là một loại máy tính mới sử dụng ngữ cảnh làm đòn bẩy. Phần mềm 1.0 là viết mã, 2.0 là tập tạ, còn 3.0 là lập trình theo ngữ cảnh (cửa sổ ngữ cảnh, không gian bộ nhớ khi mô hình xử lý thông tin) thông qua nhắc nhở (lời nhắc). Điều này có nghĩa là việc cài đặt phần mềm không còn yêu cầu viết các tập lệnh tương thích phức tạp nữa. Bạn chỉ cần "cung cấp" văn bản mô tả cho đại lý. Đánh vần chính xác các chi tiết không còn là năng lực cốt lõi nữa.

Nhiều kiến trúc ứng dụng hiện có đang trở nên "dư thừa" vì AI đã có khả năng xử lý trực tiếp ở lớp dữ liệu thô. Diễn giả nhận thấy rằng ứng dụng tạo menu mà anh ấy đã dày công phát triển đã trở nên vô nghĩa vì mô hình giờ đây có thể thực hiện các lớp hiển thị cấp pixel trực tiếp trên ảnh. Điều này ủng hộ một sự thay đổi sâu sắc: AI không nên chỉ được sử dụng để tăng tốc logic kinh doanh cũ. Chúng ta phải nhận ra rằng sự biến mất của lớp giữa đồng nghĩa với việc nhiều dạng sản phẩm truyền thống đã mất đi cơ sở vật chất cho sự tồn tại của chúng.

Khả năng của AI rất “lởm chởm” và nó chỉ thể hiện trí thông minh siêu phàm trong những lĩnh vực có thể xác minh được. Mô hình này có thể tái tạo lại 100.000 dòng mã, nhưng nó có thể đảo ngược cách tính toán đơn giản thông thường "có bao nhiêu r trong quả dâu tây". Điều này là do các mô hình chủ yếu được củng cố trong các lĩnh vực có thể xác minh được như toán học và mã thông qua RL (học tăng cường, một phương pháp đào tạo sử dụng tín hiệu khen thưởng để hướng dẫn quá trình phát triển mô hình). Điều này nhắc nhở chúng ta: chúng ta phải luôn quan sát vòng lặp và cảnh giác với những điểm yếu nằm ngoài phân bổ đào tạo mô hình.

Chúng tôi không xây dựng "động vật" với động cơ bên trong mà là "triệu hồi ma" trong quá trình phân phối dữ liệu. Trí thông minh cao nhất của mô hình phụ thuộc vào việc phân phối dữ liệu huấn luyện (ví dụ: việc thêm một lượng lớn dữ liệu bản ghi cờ vua sẽ làm cho thành tích chơi cờ được cải thiện nhảy vọt), thay vì nó thực sự tạo ra một số sự tò mò giống như sinh học. Nhận định này phản trực giác khi chỉ ra rằng AI không thực sự "hiểu", nó chỉ tăng cường cực kỳ mạnh mẽ các mạch cụ thể trong mô phỏng thống kê, vì vậy người dùng phải học cách xác định và tránh các khả năng sai lệch không được dữ liệu hỗ trợ.

Kỹ thuật tác nhân là duy trì ranh giới chất lượng của phần mềm chuyên nghiệp trong khi sử dụng AI ngẫu nhiên. Cách tiếp cận kỹ thuật mới này yêu cầu các nhà phát triển phải phối hợp các tác nhân thất thường nhưng cực kỳ mạnh mẽ trong khi vẫn đảm bảo hệ thống không tạo ra các lỗ hổng bảo mật. Nó ủng hộ mô hình kỹ sư 10x mới: cốt lõi của cạnh tranh không còn là tốc độ viết mã cá nhân nữa mà là khả năng điều khiển một cụm đại lý khổng lồ hiệu quả như một giám đốc để mang lại kết quả chất lượng cao.

Khi máy móc đảm nhiệm các chi tiết API tầm thường, lợi ích thực sự của con người sẽ chuyển sang tính thẩm mỹ và khả năng kiểm soát "thông số kỹ thuật". Các nhà phát triển không còn cần phải ghi nhớ các thông số giao diện cụ thể của PyTorch (deep learning framework), bởi những chi tiết này sẽ được xử lý bởi các “thực tập sinh” AI có trí nhớ cực mạnh. Điều này báo trước một tương lai phản trực giác: các nguyên tắc cơ bản và phong cách thiết kế hiệu quả hơn các chi tiết công cụ và con người nên chuyển đổi từ "thợ nề" thành những người ra quyết định xác định "thế nào là thiết kế tốt".

"Suy nghĩ" có thể thuê ngoài, nhưng "hiểu biết" chính là nút thắt hạn chế tốc độ duy nhất của con người trong thời đại trí tuệ rẻ tiền. Mặc dù AI có thể giúp chúng ta xử lý và biên dịch lại lượng thông tin khổng lồ nhưng nó không thể quyết định cho chúng ta “tại sao chúng ta xây dựng cái này” và “liệu nó có giá trị hay không”. Điều này ủng hộ một kết luận cuối cùng: con người vẫn là người chỉ huy duy nhất của hệ thống, bởi vì chỉ có ý thức của con người mới có thể đưa ra mục tiêu cho quá trình xử lý thông minh và sự hiểu biết tổng thể này không thể được thay thế bằng thuật toán.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Khi một chiếc máy có thể làm tất cả công việc cho bạn và thậm chí nghĩ đến tất cả các chi tiết, điều duy nhất bạn không thể mất là tìm ra những gì bạn muốn và liệu bạn có thể biết liệu chiếc máy đó có làm đúng hay không.

Greg Brockman: Sự chú ý của con người là nút thắt cổ chai mới (liên doanh OpenAI)

Diễn giả Greg Brockman là người đồng sáng lập và chủ tịch của OpenAI. Cựu CTO của Stripe, ông đồng sáng lập OpenAI với Sam Altman vào năm 2015 và là kiến trúc sư cốt lõi về công nghệ và cơ sở hạ tầng của công ty. Trong OpenAI, Altman tập trung vào các khía cạnh bên ngoài (tài chính, hình ảnh công chúng, chính sách) và Brockman tập trung vào các khía cạnh bên trong (công nghệ, sức mạnh tính toán, sản phẩm). Phong cách kỹ thuật của ông là tự mình viết mã và làm việc để phát hành các bản phát hành vào lúc nửa đêm, rất nổi tiếng ở Thung lũng Silicon.

Trí thông minh đã trở thành một loại hàng hóa được tiêu chuẩn hóa có thể bán lại, dẫn đến sự gia tăng bệnh lý không ngừng về nhu cầu về sức mạnh tính toán. Mô hình kinh doanh của OpenAI về cơ bản là mua hoặc cho thuê sức mạnh tính toán, sức mạnh này được chuyển đổi thành trí thông minh thông qua các mô hình và sau đó bán lại với giá cao. Do nhu cầu giải quyết vấn đề không giới hạn nên nguồn cung GPU (bộ xử lý đồ họa) vào năm 2026 gần như bằng 0 trong dự báo. Tầm quan trọng của nhận định này là AI không còn chỉ là một dịch vụ phần mềm mà đã phát triển thành một ngành kinh doanh hàng hóa dựa trên tài nguyên. Việc cung cấp sức mạnh tính toán trong thế giới vật chất trực tiếp quyết định giới hạn trên của trí tuệ của nền văn minh.

Định luật mở rộng (quy tắc thực nghiệm cho thấy khả năng của mô hình tăng lên khi sức mạnh tính toán ngày càng tăng) là một chân lý thực nghiệm phổ quát và chúng ta vẫn chưa thấy "bức tường" nào đạt đến đỉnh cao. Mặc dù ý tưởng cơ bản về mạng nơ-ron bắt nguồn từ những năm 1940, nhưng miễn là lượng sức mạnh tính toán khổng lồ tiếp tục được đầu tư thì khả năng của mô hình sẽ được nâng cao tương ứng và chắc chắn. Điều này khẳng định một điểm mấu chốt: sự trì trệ về công nghệ sẽ không xảy ra trong thời gian ngắn. Miễn là vốn và điện tiếp tục được đầu tư, chúng ta có thể có được trí tuệ mạnh mẽ hơn, điều này cung cấp sự hỗ trợ logic cơ bản cho sự đầu tư mạnh mẽ của những gã khổng lồ công nghệ.

Từ góc độ chức năng, chúng tôi đã hoàn thành 80% chặng đường hướng tới AGI (trí tuệ tổng hợp nhân tạo), vì mô hình này đã có khả năng vòng kín để thực hiện các nhiệm vụ một cách độc lập. Sau khi kỹ sư hệ thống bàn giao kế hoạch tối ưu hóa phức tạp cho mô hình, mô hình không chỉ hoàn thành việc viết mã mà còn chạy Profiler (công cụ phân tích hiệu suất) một cách độc lập và tiến hành nhiều vòng tối ưu hóa dựa trên phản hồi cho đến khi hoàn thành nhiệm vụ. Điều này ủng hộ một quan điểm phản trực giác: AGI không phải là một thời điểm trong tương lai mà là một quá trình đang diễn ra. AI đã phát triển từ một “trợ lý viết mã” thành “đồng nghiệp giải quyết vấn đề”.

Bối cảnh (ngữ cảnh đề cập đến thông tin cơ bản mà mô hình nắm vững khi xử lý một tác vụ cụ thể) đang thay thế các thuật toán mô hình làm biên giới cạnh tranh cốt lõi hiện tại. Công cụ mới Chronicle có thể ghi lại mọi thao tác của người dùng trên máy tính theo thời gian thực, cho phép AI có “bộ nhớ”, nhờ đó tiết kiệm thời gian cho con người phải giải thích nhiều lần về nền tảng cho máy. Tầm quan trọng của nhận định này là đối với các doanh nhân, việc đào tạo theo mô hình một lần không còn là con hào duy nhất. Xây dựng một "khai thác dữ liệu" cho phép AI hiểu sâu sắc về môi trường kinh doanh của người dùng là tài sản thực sự lâu dài.

Khi chi phí “thực thi” giảm xuống bằng 0, sự chú ý của con người sẽ trở thành nguồn lực khan hiếm nhất trong toàn bộ nền kinh tế. Khi Agent (thông minh) có thể làm việc tự chủ, thậm chí chủ động báo cáo cho người quản lý trên Slack vì tiến độ công việc chậm, năng lượng của con người sẽ hoàn toàn chuyển từ “làm việc” sang “đánh giá xem việc này có phù hợp với giá trị của mình hay không”. Nhận định này rất phản trực giác: nút thắt cổ chai không còn là máy không thể tính toán đủ nhanh mà là tốc độ xác nhận chữ ký của con người không thể theo kịp tốc độ đầu ra của máy và con người đã trở thành bước giới hạn tốc độ của hệ thống.

Cơ cấu tổ chức doanh nghiệp truyền thống sẽ bị phá bỏ hoàn toàn, trong tương lai sẽ có kỷ nguyên "doanh nghiệp cá nhân" nơi một người cai trị hàng nghìn Đại lý. Các cá nhân trên Internet đang sử dụng các mô hình hàng đầu để giải các bài toán mà trước đây yêu cầu cả nhóm nghiên cứu phải giải quyết, điều đó có nghĩa là cốt lõi của cuộc thi đã thay đổi từ "đối đầu" sang "điểm vào duy nhất". Điều này báo trước một cơ cấu quyền lực mới: các công ty trong tương lai có thể cực kỳ phẳng, và bất kỳ ai có tầm nhìn đều có thể điều khiển một nhóm trí tuệ khổng lồ giống như một CEO quản lý 100.000 nhân viên.

AI đang chuyển từ thế giới kỹ thuật số sang thế giới vật chất, mở ra thời kỳ phục hưng trong nghiên cứu khoa học. Mô hình của OpenAI gần đây đã rút ra một công thức vật lý cung cấp bằng chứng quan trọng cho việc tìm kiếm lực hấp dẫn lượng tử của các nhà vật lý, một lý thuyết cố gắng thống nhất cơ học lượng tử vi mô và thuyết tương đối rộng vĩ mô. Nhận định này khẳng định rằng AI không còn chỉ xử lý các ký hiệu kỹ thuật số gọn gàng mà nó đang học cách đối phó với sự phức tạp và lộn xộn của thế giới thực, và con người sắp mở ra một kỷ nguyên khám phá khoa học được hỗ trợ hoặc thậm chí bị thống trị bởi máy móc.

Cuối cùng, chúng ta sẽ tạm biệt trạng thái tự nhiên cần phải "phục tùng" máy móc này và quay trở lại cuộc sống nhân văn được thúc đẩy bởi các mục tiêu. Cơ thể con người không được thiết kế để ngồi trước màn hình và gõ phím trong thời gian dài. Trong tương lai, sự tương tác sẽ chuyển từ nhập hướng dẫn sang thể hiện tầm nhìn, cho phép máy móc đạt được mục tiêu của chúng ta như những người hầu. Nhận định này dẫn đến một kết luận sâu sắc: Mục đích cuối cùng của AGI không phải là làm cho con người giống máy móc hơn mà là để máy móc đảm nhận mọi công việc không phải của con người và trả lại thời gian của con người cho cảm xúc và tương tác xã hội.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Khi máy móc có thể làm tất cả công việc cho bạn, khả năng cạnh tranh và giá trị duy nhất của bạn sẽ không còn là những gì bạn có thể làm mà là những gì bạn muốn và liệu bạn có thể đánh giá liệu máy móc có làm đúng hay không.

Demis Hassabis: 3/4 chặng đường đến với AGI (CEO DeepMind & người đoạt giải Nobel Hóa học năm 2024)

Diễn giả Demis Hassabis là người đồng sáng lập và Giám đốc điều hành của Google DeepMind và là người đoạt giải Nobel Hóa học năm 2024. Anh ấy là một kiện tướng cờ vua khi còn là một thiếu niên, và sau đó chuyển sang thiết kế trò chơi và khoa học thần kinh nhận thức để lấy bằng Tiến sĩ. DeepMind đã sản xuất AlphaGo (đánh bại nhà vô địch cờ vây thế giới Lee Sedol), AlphaFold (đã giải được bài toán gấp protein 50 năm tuổi) và loạt mô hình lớn Gemini. DeepMind là người duy nhất hiện nay đồng thời lãnh đạo một phòng thí nghiệm AI lớn và đã đoạt giải Nobel.

Nền tảng thấp nhất của vũ trụ là "thông tin", không phải vật chất hay năng lượng. Diễn giả lập luận rằng có sự tương đương giữa vật chất, năng lượng và thông tin, và việc xử lý thông tin là quan điểm cần thiết nhất để hiểu được vạn vật (đặc biệt là các sinh vật chống lại sự gia tăng entropy). Tầm quan trọng của nhận định này là nó nâng AI từ một công nghệ máy tính thuần túy lên trạng thái siêu công cụ để khám phá bản chất của thực tế, điều đó có nghĩa là việc xây dựng AI là tái tạo lại sự hiểu biết của con người về logic vận hành của vũ trụ.

AGI là một "dự án khoa học 20 năm" với mục tiêu rõ ràng và tiến độ từng bước. Khi DeepMind được thành lập vào năm 2010, nó đã thiết lập tầm nhìn "giải quyết trí thông minh ở bước đầu tiên và sử dụng trí thông minh để giải quyết mọi thứ ở bước thứ hai", và sự phát triển hiện tại của nó hoàn toàn phù hợp với những dự đoán vào thời điểm đó. Điều này phá vỡ ảo tưởng rằng "sự bùng nổ của AI là ngẫu nhiên" và ủng hộ rằng sự xuất hiện của AGI là kết quả tất yếu của kế hoạch khoa học dài hạn, chứ không phải là sự may mắn hay cường điệu về vốn kiểu Thung lũng Silicon.

Sự tích hợp giữa Học sâu và Học tăng cường (học tăng cường, đề cập đến việc cho phép máy học các chiến lược một cách tự chủ thông qua phần thưởng phản hồi) là một con đường nhất định dẫn đến AGI. Trong những năm đầu, giới học thuật đã tách biệt hai lĩnh vực này, nhưng diễn giả nhấn mạnh rằng sự kết hợp này sẽ cho phép AI học logic chung từ các trò chơi mà con người không có kiến thức trước đó. Khẳng định của nhận định này là bằng cách "tổng hợp" lợi thế của các lĩnh vực kỹ thuật khác nhau, AI có thể nhảy vọt từ việc giải các trò chơi giải đố đơn giản sang xử lý độ phức tạp vô hạn của thế giới thực.

AI sẽ thay thế toán học truyền thống và trở thành "ngôn ngữ mô tả cấp thấp hơn" cho các hệ thống mới nổi phức tạp như sinh học. Mặc dù toán học có thể mô tả hoàn hảo các định luật vật lý, nhưng sức mạnh biểu đạt của nó không đủ khi đối mặt với những hệ thống như sinh học chứa đầy tín hiệu yếu và dữ liệu lộn xộn. Nhận định này phản trực giác chỉ ra: Chúng ta không cần phải ép mình sử dụng những phương trình đơn giản để mô tả cuộc sống. AI có thể trích xuất trực tiếp các quy luật tự nhiên mà con người không thể hiểu được bằng trực giác bằng cách mô phỏng các tương tác phức tạp.

Thành công của AlphaFold đánh dấu rằng AI đã đạt được "sự thay đổi mô hình nhảy vọt" trong lĩnh vực khoa học đời sống. Công cụ này giải quyết vấn đề gấp protein đã gây khó khăn cho nhân loại trong 50 năm, khiến việc phát triển thuốc có thể chuyển từ mô hình Phòng thí nghiệm ướt truyền thống (ám chỉ phòng thí nghiệm dựa vào thuốc thử hóa học và thí nghiệm vật lý) sang mô phỏng kỹ thuật số. Điều này có nghĩa là trong tương lai, có thể không còn mất 10 năm để phát triển các loại thuốc mới mà rút ngắn xuống còn vài ngày hoặc thậm chí vài giờ, giải phóng hoàn toàn con người khỏi những thử nghiệm và sai sót sinh học gian khổ và kém hiệu quả.

Các thiết bị mô phỏng có độ chính xác cao sẽ biến khoa học xã hội thành "khoa học cứng" có thể được thử nghiệm nhiều lần. Bằng cách xây dựng môi trường mô phỏng bằng cách học hỏi các mô hình thế giới, con người có thể lấy mẫu hàng nghìn lần về chính sách kinh tế hoặc các vấn đề về môi trường và năng lượng mà không làm ảnh hưởng đến thực tế. Điều này ủng hộ một tương lai phản trực giác: các quyết định ban đầu chứa đầy sự không chắc chắn, chẳng hạn như điều chỉnh lãi suất, sẽ trở nên chính xác như các thí nghiệm kỹ thuật trong việc dự đoán kết quả, giúp giảm đáng kể chi phí rủi ro của quản trị xã hội.

Trước khi khám phá xem một cỗ máy có ý thức hay không, trước tiên nó phải được chế tạo thành một "công cụ siêu khoa học" cực kỳ chính xác. Diễn giả chủ trương sử dụng AGI, một “kính viễn vọng thông minh”, để quan sát và xác định ngược lại Ý thức và khả năng tự nhận thức của bộ não con người. Tầm quan trọng của nhận định này là nó đặt ra ưu tiên nghiên cứu khoa học hợp lý, tức là trước tiên giải quyết nút thắt về năng suất, sau đó sử dụng khả năng nhận thức được cải thiện để khắc phục những vấn đề triết học sâu sắc nhất của nền văn minh nhân loại.

Nhân loại đang ở quý cuối cùng của hành trình AGI và năm 2030 sẽ là bước ngoặt trong quá trình phát triển của nền văn minh. Từ những trò chơi board đầu tiên cho đến khả năng khép kín vòng lặp nghiên cứu cấu trúc protein ngày nay, AI đã chứng tỏ khả năng xử lý các nhiệm vụ cực kỳ phức tạp với mức độ không chắc chắn cao. Điều này ủng hộ một phán quyết khẩn cấp: thời gian đếm ngược đến sự xuất hiện của AGI đã bước vào, chúng ta đang ở giai đoạn chạy nước rút của chặng đường 20 năm và xã hội phải sẵn sàng cho một sự chuyển đổi toàn diện trong 5 năm tới.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Chúng ta đang ở chặng nước rút cuối cùng hướng tới siêu trí tuệ. Mục tiêu cuối cùng của AI không phải là bắt chước cuộc trò chuyện của con người mà trở thành cỗ máy khoa học mạnh mẽ nhất giúp con người phát minh ra các loại thuốc mới hoặc giải mã bí mật của vũ trụ trong vòng vài ngày.

Lập trình và thay đổi tổ chức

Boris Cherny của Anthropic: Lập trình đã được giải quyết, Cấp độ tiếp theo là Tổ chức

Diễn giả Boris Cherny Người tạo ra Claude Code, một công ty Anthropic. Claude Code là một công cụ lập trình dòng lệnh được phát hành vào năm 2025. Nó được cộng đồng nhà phát triển đánh giá là một trong những trợ lý lập trình AI mạnh mẽ nhất hiện nay và cũng là sản phẩm chủ chốt khơi dậy khái niệm "kỹ thuật tác nhân".

Trở ngại lớn nhất đối với việc phát triển phần mềm hiện nay là "Sản phẩm nhô ra" khi giao diện UI không thể theo kịp khả năng của mô hình. Trước đây, trợ lý mã chỉ có thể thực hiện việc hoàn thành một dòng đơn giản, nhưng giờ đây mô hình này hoàn toàn có khả năng đảm nhận các nhiệm vụ phát triển vòng kín của toàn bộ dự án. Điều này có nghĩa là các nhà phát triển phải chuyển từ “vá các giao diện cũ” sang xây dựng các sản phẩm mới mang tính tác nhân (thông minh, đề cập đến các mô hình có thể tự động thực hiện các nhiệm vụ nhiều bước và nhận biết môi trường). Nếu không, con người sẽ không thể phát huy được tiềm năng năng suất thực sự của AI.

Đối với các nhà phát triển hàng đầu, "kỷ nguyên thủ công" của việc viết mã thủ công đã kết thúc. Diễn giả nhận ra rằng 100% mã được mô hình tạo ra thông qua Mã Claude và lập kỷ lục cá nhân là hoàn thành 150 PR (Yêu cầu kéo, yêu cầu mã hợp nhất) trong một ngày. Điều này gợi ý một kết luận phản trực giác: AI không còn là “người lái phụ” hỗ trợ bạn mà là lực lượng chính có thể độc lập đưa ra kết quả. Vai trò của con người trong kỹ thuật đã phát triển hoàn toàn từ “thợ gạch” thành “người đánh giá dự án”.

Trong thời đại bùng nổ trí tuệ AI, bí quyết thành công là phát triển sản phẩm cho "mô hình thế hệ tiếp theo" thay vì thích ứng với hiện trạng. Claude Code đã không nhận được PMF (Product Market Fit) trong sáu tháng đầu tiên phát hành. Phải đến khi ra mắt mẫu Opus 4 mạnh mẽ hơn, trải nghiệm sản phẩm mới mở ra sự thay đổi về chất. Điều này cho thấy các doanh nhân phải lường trước và chờ đợi một bước nhảy vọt về trí tuệ, bởi “sự thay đổi đột ngột về khả năng của mô hình” này sẽ ngay lập tức biến một công cụ tầm thường ban đầu thành một công cụ mạnh mẽ để định hình lại ngành.

Vòng lặp (vòng lặp, đề cập đến việc cho phép mô hình chạy tự động, thường xuyên và đưa ra phản hồi) sẽ thay thế hộp thoại và trở thành mô hình tối ưu cho sự cộng tác giữa con người và máy tính. Giờ đây, các mô hình có thể sử dụng cron (một công cụ hệ thống lên lịch tác vụ) để tự động lên lịch cho công việc lặp đi lặp lại, chẳng hạn như tự động sửa lỗi kiểm tra, hoàn thành việc tái cấu trúc mã hoặc sắp xếp phản hồi của người dùng sau mỗi 30 phút. Điều này có nghĩa là quy trình làm việc trong tương lai sẽ không còn dựa vào việc con người nhìn chằm chằm vào màn hình để đưa ra hướng dẫn mà dựa vào việc thành lập một nhóm chuyên gia kỹ thuật số có thể tự hoạt động 24 giờ mỗi ngày mà không cần giám sát.

AI đang loại bỏ các rào cản của một nhóm công nghệ duy nhất và tạo ra những "tài năng siêu tổng quát" liên ngành. Trong nhóm Anthropic, mọi người đều sử dụng các đại lý để phát triển chương trình chuyên nghiệp, cho dù họ là giám đốc điều hành tài chính, nhà thiết kế hay nhà nghiên cứu. Điều này báo trước một sự thay đổi trong mô hình nghề nghiệp: “chiều sâu kỹ thuật” của việc thành thạo một ngôn ngữ lập trình cụ thể sẽ nhanh chóng giảm giá trị, trong khi “độ rộng xuyên biên giới” về nhận thức về sản phẩm, thẩm mỹ thiết kế và hiểu biết sâu sắc về ngành sẽ trở thành nguồn lực khan hiếm cốt lõi trong tương lai.

Con hào kinh doanh phần mềm truyền thống đang đối mặt với sự sụp đổ hoàn toàn trước "sức mạnh ý chí" mà AI sở hữu. Mô hình hiện có khả năng leo đồi mạnh mẽ (lặp đi lặp lại leo đồi, nghĩa là tự phản hồi liên tục cho đến khi đạt được mục tiêu), đồng thời có thể độc lập tìm ra và thực hiện bất kỳ quy trình kinh doanh phức tạp nào. Điều này gợi ý về sự sắp xảy ra của "Ngày tận thế SAS": phần mềm chỉ dựa vào tự động hóa quy trình để tồn tại sẽ mất giá trị vì AI có thể tạo ra các lựa chọn thay thế tùy chỉnh cho mỗi người bất kỳ lúc nào dựa trên mục tiêu của người dùng.

Lập trình đang mở ra "thời điểm in ấn", chuyển đổi từ một kỹ năng ưu tú sang khả năng "biết chữ" phổ quát. Giống như sự ra đời của máy in vào thế kỷ 15 đã cho phép tỷ lệ biết chữ tăng từ 10% lên 70%, AI sẽ giúp việc lập trình trở nên dễ dàng và tự nhiên như nhắn tin. Điều này ủng hộ một quan điểm sâu sắc: người viết phần mềm tài chính tốt nhất trong tương lai sẽ không còn là lập trình viên nữa mà là những kế toán viên hiểu rõ nhất về logic kinh doanh. Việc tiếp quản quyền lực bằng “kiến thức miền” này là sự dân chủ hóa hoàn thiện nhất.

Lợi thế dẫn đầu lâu dài thực sự của một doanh nghiệp không còn là phiên bản mô hình nữa mà là mức độ “bản địa AI” trong cơ cấu tổ chức của nó. Anthropic đã triển khai nội bộ các Tác nhân khác nhau để liên lạc với nhau và cộng tác tự chủ trên Slack, từ bỏ hoàn toàn quy trình tổ chức cũ là viết mã thủ công. Điều này tiết lộ một sự thật phũ phàng: sự khác biệt giữa bạn và những người đi trước không phải là bạn có mô hình hay không, mà là bạn có sẵn sàng phát minh lại hoàn toàn bánh xe và tổ chức lại logic vận hành của công ty để thích ứng với tốc độ của AI hay không.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Trong tương lai, việc viết mã sẽ trở nên dễ dàng như gửi tin nhắn văn bản và mọi người đều có thể dễ dàng tạo một ứng dụng. Khi đó, điều quý giá nhất sẽ không còn là bạn có viết được code hay không mà là bạn có hiểu biết về ngành hay không.

Thế giới vật lý và các giao diện

Jim Fan của NVIDIA: Sự kết thúc của robot

Diễn giả, Jim Fan, là Nhà nghiên cứu cấp cao của NVIDIA và Trưởng dự án Robot AI (Dự án GR00T). Một thành viên ban đầu của OpenAI, Ph.D. từ Phòng thí nghiệm Li Feifei Stanford, là một trong những nhà nghiên cứu được theo dõi nhiều nhất trong lĩnh vực mô hình robot cơ bản. Hoạt động tích cực trên Twitter, anh thường được coi là phiên bản robot của "Karpathy" - thực hiện cả nghiên cứu và truyền giáo trong ngành.

Người máy phải "sao chép bài tập về nhà của LLM" và sử dụng dự đoán về khung hình tiếp theo của thế giới vật chất làm logic cốt lõi của quá trình tiến hóa. Giống như các mô hình ngôn ngữ làm chủ suy nghĩ của con người bằng cách dự đoán mã thông báo tiếp theo (đoạn văn bản), robot cũng nên tìm hiểu các quy luật của thực tế bằng cách dự đoán trạng thái thế giới vật chất. Đề xuất của nhận định này là chúng ta không nên viết tay các quy tắc cho robot nữa mà nên coi đó là một vấn đề mang tính khái quát, cho phép robot tạo ra trí thông minh một cách tự nhiên bằng cách "mô phỏng sự tiến hóa của thế giới vật chất".

Mô hình ngôn ngữ hình ảnh "nặng nề" hiện tại phải được thay thế bằng WAM (Mô hình hành động thế giới). Các VLM (Mô hình ngôn ngữ trực quan) hiện tại rất giỏi trong việc hiểu danh từ và kiến thức, nhưng thiếu cảm giác trực quan về các quy luật vật lý và động từ (chẳng hạn như di chuyển một chiếc cốc). Tầm quan trọng của nhận định này là WAM coi tầm nhìn và chuyển động là "công dân hạng nhất", mang lại cho robot khả năng "nhìn thấy tương lai trong vài giây và hành động phù hợp" để giải quyết các nhiệm vụ phức tạp chưa từng thấy trong quá trình huấn luyện.

Đào tạo trước qua video quy mô lớn thực sự là một giải pháp thay thế rẻ tiền cho một loại "mô phỏng vật lý" nào đó. Trong quá trình dự đoán các pixel video lớn, mô hình sẽ tự động tìm hiểu các đặc tính vật lý phức tạp như trọng lực, độ nổi cũng như phản xạ ánh sáng và bóng tối mà không cần lập trình thủ công. Điều này dẫn đến một kết luận phản trực giác: chúng ta không cần các phương trình vật lý phức tạp, chỉ cần để AI xem đủ “video trượt” và nó có thể xây dựng các trực giác vật lý thực sự trong tiềm thức.

Hoạt động từ xa (điều khiển từ xa, tức là người ta đeo thiết bị để điều khiển robot bằng tay) đang trở thành trở ngại lớn nhất đối với việc sản xuất robot quy mô lớn. Do giới hạn thời gian vật lý của các chuyên gia con người, phương pháp thu thập dữ liệu tốn kém và đau đớn này có giới hạn trên là "24 giờ mỗi ngày cho mỗi robot". Khẳng định của nhận định này là nút thắt phải được phá vỡ thông qua dữ liệu của con người được Sensorized (dữ liệu của con người được cảm biến hóa), để robot có thể học trực tiếp từ hành vi hàng ngày của con người thay vì dựa vào việc “dạy trực tiếp” tốn kém.

Sự khéo léo của robot cũng tuân theo quy luật Scaling và trí thông minh phụ thuộc vào số giờ đào tạo trước. Nghiên cứu cho thấy có mối quan hệ tuyến tính logarit rõ ràng giữa tỷ lệ thành công nhiệm vụ của robot và thời lượng đào tạo video góc nhìn thứ nhất được đầu tư. Tầm quan trọng của nhận định này là nó chứng minh rằng “trí thông minh của robot” không còn là một hộp đen không thể định lượng mà là một chức năng có thể dự đoán được của sức mạnh tính toán và dữ liệu. Có thể đạt được bước nhảy vọt theo cấp số nhân về khả năng bằng cách đầu tư hàng chục triệu giờ dữ liệu video.

Môi trường đào tạo trong tương lai sẽ chuyển từ các công cụ vật lý cổ điển sang "mô phỏng thần kinh" hoàn toàn dựa trên dữ liệu. Các trình mô phỏng truyền thống yêu cầu lập mô hình thủ công, nhưng các công nghệ như Dream Dojo có thể trực tiếp tạo ra các trạng thái cảm giác dựa trên tín hiệu chuyển động, hiện thực hóa "điện toán như môi trường". Điều này có nghĩa là chúng ta không còn cần phải xây dựng một triệu phòng thí nghiệm vật lý nữa. Chúng ta chỉ cần sử dụng sức mạnh tính toán suy luận mạnh mẽ để cho phép AI thực hiện hàng chục triệu hoạt động học tăng cường song song trong “giấc mơ” của nó, từ đó giảm đáng kể chi phí nghiên cứu và phát triển.

Thông qua API vật lý (giao diện vật lý), robot sẽ được ra lệnh và cấu hình bằng mã giống như một ứng dụng phần mềm. Các nhà máy trong tương lai sẽ phát triển thành “Nhà máy tắt đèn”. Chỉ cần nhập tệp Markdown mô tả thiết kế sản phẩm và cụm robot có thể tự động điều phối và in ra các sản phẩm vật lý ở cấp độ nguyên tử. Đề xuất này báo trước một tương lai phản trực giác: sản xuất phần cứng sẽ không còn là một ngành sử dụng nhiều tài sản nữa mà là một dịch vụ tiêu chuẩn hóa có thể được lên lịch linh hoạt bằng phần mềm.

2040 sẽ mở ra nghiên cứu tự động ở cấp độ vật lý và robot sẽ bắt đầu quá trình "tự lặp lại" cuối cùng. Khi robot có thể độc lập thiết kế, cải tiến và sản xuất thế hệ robot tiếp theo, vai trò của con người như một nút thắt trong quá trình phát triển công nghệ sẽ hoàn toàn biến mất. Khẳng định của nhận định này là: xét đến tính chất theo cấp số nhân của sự phát triển công nghệ, chúng ta đang ở trạm cuối cùng trong việc mở khóa “cây tiến hóa của nền văn minh” trong chế tạo robot. Bước nhảy vọt này sẽ nhanh chóng và dữ dội hơn quá trình phát triển từ nhận dạng chó và mèo sang AGI.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Trước đây, robot cần được con người dạy dỗ. Trong tương lai, chúng sẽ chỉ cần xem hàng chục triệu giờ video về cách con người làm việc trước khi có thể học được mọi kỹ năng phức tạp và bắt đầu tự tạo ra chính mình.

Giám đốc điều hành Waymo Dmitri Dolgov: Con đường hướng tới 20 triệu chuyến xe tự lái

Diễn giả, Dmitri Dolgov, là đồng Giám đốc điều hành của Waymo và là người sáng lập Trường Công nghệ. Là người Mỹ gốc Nga, anh là thành viên cốt cán tham gia DARPA Grand Challenge của Đại học Stanford (một cuộc thi thử nghiệm xe tự lái đầu tiên do Bộ Quốc phòng Hoa Kỳ tổ chức). Anh tham gia dự án xe tự lái của Google vào năm 2009 và là trưởng nhóm thiết kế lộ trình kỹ thuật của Waymo. Trong hai thập kỷ thăng trầm của ngành công nghiệp xe tự lái, chỉ có một số ít cựu binh kiên trì ngay từ ngày đầu tiên để đạt được 20 triệu lượt đi.

Waymo là công ty xe tự hành thuộc sở hữu của Alphabet (công ty mẹ của Google). Nó được khởi động như một dự án bí mật của Google vào năm 2009 và trở nên độc lập vào năm 2016. Đây hiện là công ty duy nhất trên thế giới vận hành Robotaxi trên quy mô lớn ở nhiều thành phố mà không có nhân viên an toàn và đã hoàn thành tổng cộng 20 triệu chuyến xe tự lái. Lộ trình kỹ thuật khác với Tesla - nhấn mạnh vào LiDAR + bản đồ có độ chính xác cao + kiến trúc mô-đun.

Có một quan niệm sai lầm trong ngành lái xe tự hành là “dễ học nhưng khó thành thạo”. Sự tăng trưởng bùng nổ sớm thường che giấu sự tàn khốc của những thách thức đuôi dài. Nhiều đội rơi vào trạng thái lạc quan sau khi đạt được những đột phá ban đầu về công nghệ, nhưng Dmitri tin rằng đặc tính “ngọt trước rồi đắng” này khiến việc biến công nghệ thành một sản phẩm thực sự an toàn vượt qua hiệu suất của con người trở nên vô cùng khó khăn. Khẳng định của nhận định này là ngưỡng thực sự để AI được triển khai trong thế giới thực không nằm ở 90% trình diễn chức năng đầu tiên, mà nằm ở việc liệu nó có thể duy trì khả năng chịu đựng trong 10% kịch bản dài hạn phức tạp còn lại hay không. Đây là lý do cơ bản khiến hầu hết các đối thủ cạnh tranh đều biến mất.

Trong các lĩnh vực liên quan đến đời sống con người, "an ninh" phải là một niềm tin cơ bản không thể vượt qua, chứ không phải là một lựa chọn chức năng có thể cân nhắc được. Cứ 26 giây lại có một người chết trong một vụ tai nạn ô tô trên khắp thế giới, khiến Waymo coi an toàn là nền tảng không thể thương lượng được xây dựng trong kiến trúc ngay từ ngày đầu. Điều này ủng hộ một kết luận phản trực giác: Trong nền văn hóa theo đuổi tốc độ và đột phá của Thung lũng Silicon, chỉ những công ty có “kiên nhẫn” thiết lập ngưỡng bảo mật cực cao mới có thể tồn tại qua thời kỳ vỡ mộng về công nghệ và cuối cùng giành được lòng tin của công chúng.

Một kiến trúc học tập toàn diện đơn giản là không đủ để hỗ trợ các yêu cầu bảo mật cao độ và phải đưa ra cách trình bày có cấu trúc để "nâng cao". Mặc dù Waymo cũng sử dụng E2E (End-to-End, đề cập đến một mô hình duy nhất trực tiếp từ đầu vào cảm biến đến đầu ra quyết định), nhưng họ đã thêm một lớp biểu diễn trung gian có cấu trúc bổ sung để đạt được xác minh thời gian thực trong thời gian chạy. Tầm quan trọng của nhận định này là nó phá vỡ sự sùng bái mù quáng về việc “mô hình càng lớn thì càng tốt” và ủng hộ việc đảm bảo tính dễ giải thích của việc ra quyết định bằng AI thông qua sự chặt chẽ về mặt kiến trúc, từ đó đạt được sự an toàn vượt xa con người.

Một hệ thống lái xe AI thực sự phải là một hệ sinh thái khép kín tích hợp việc lái xe, mô phỏng và đánh giá. Mô hình nền tảng của Waymo đồng thời điều khiển ba trụ cột cốt lõi là trình điều khiển, trình mô phỏng và trình đánh giá, cho phép hệ thống hiểu được các quy luật động của thế giới vật lý. Điều này ủng hộ một quan điểm cốt lõi: sự phát triển của AI không chỉ dựa vào các thử nghiệm trên đường bên ngoài mà còn phải đạt được khả năng "tự tiến hóa" thông qua mô phỏng vật lý bên trong và loại bỏ mọi nguy hiểm cực độ mà con người chưa từng thấy trước đây trong không gian ảo.

AI có thể chứng minh khả năng “tiên tri” vượt xa nhận thức của con người bằng cách thu thập các tín hiệu vật lý yếu. Waymo từng sử dụng LiDAR (LiDAR, một cảm biến sử dụng xung laser để phát hiện khoảng cách của vật thể) để ghi lại phản xạ chân cực yếu dưới gầm xe buýt, từ đó dự đoán trước và tránh người đi bộ khuất tầm mắt. Nhận định này phản trực giác chứng minh rằng AI không chỉ đơn giản bắt chước trực giác của người lái xe mà còn sử dụng các chiều kích nhận thức vượt quá giới hạn vật lý của con người để xây dựng nên một “góc nhìn” của Chúa nhằm đảm bảo an toàn.

Công nghệ lái xe tự hành đã hoàn thành bước nhảy vọt từ "phòng thí nghiệm đến cơ sở hạ tầng" và bước vào một vòng khép kín thương mại với tốc độ mở rộng theo cấp số nhân. Waymo phải mất 8 năm để cung cấp dịch vụ tại 4 thành phố, nhưng gần đây họ đã có thể ra mắt 4 thành phố mới trong 1 ngày và lượng đặt hàng tăng gấp đôi sau 7 tháng, vượt 20 triệu lần. Điều này có nghĩa là công nghệ đã trở nên cực kỳ linh hoạt và không còn yêu cầu quá trình gỡ lỗi kéo dài cho mỗi thành phố mới nữa. Lái xe tự động đang được nhân rộng nhanh chóng trên khắp các khu vực như cập nhật phần mềm.

Khi nhiệm vụ "lái xe" được AI giải quyết hoàn toàn, điểm cuối của cuộc cạnh tranh ô tô sẽ là trải nghiệm không gian của hành khách. Phần cứng Waymo thế hệ thứ sáu được thiết kế hoàn toàn xoay quanh trải nghiệm của hành khách, loại bỏ cách bố trí trung tâm người lái và thay vào đó tạo ra một "phòng khách di động" với cửa trượt tự động. Phán quyết này ủng hộ sự chuyển đổi cơ bản của logic kinh doanh: ô tô trong tương lai sẽ không còn là công cụ điều khiển nữa mà là nơi chứa vật chất cho các dịch vụ và giá trị cốt lõi của chúng sẽ chuyển từ “làm cách nào để đến đó” sang “cách dành thời gian trên đường”.

Cuối cùng, lợi ích xã hội do AI mang lại phải được đo lường bằng "chỉ số cứng" về việc cứu mạng sống. Dữ liệu cho thấy Waymo đã an toàn hơn con người 13 lần, điều đó có nghĩa là hoạt động trên quy mô lớn có thể cứu thêm một mạng sống trong các vụ tai nạn nghiêm trọng cứ sau 8 ngày. Điều phản trực giác ở quan điểm này là chúng ta có xu hướng tập trung vào sự tiện lợi do AI mang lại, nhưng đòn bẩy giá trị thực sự của nó nằm ở chỗ bằng cách vượt qua sự ổn định của con người, nó trực tiếp bù đắp cho điểm yếu chí mạng của con người với tư cách là người lái xe.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Ô tô tự hành hiện an toàn hơn 13 lần so với việc con người lái xe và chúng đang tiến vào nhiều thành phố hơn với tốc độ nhanh chóng. Việc lái xe sẽ trở thành chuyện quá khứ.

Người sáng lập ElevenLabs: Giọng nói trở thành giao diện chính cho AI

ElevenLabs là công ty tổng hợp giọng nói AI được theo dõi nhiều nhất trên thế giới, được thành lập vào năm 2022 bởi hai người Ba Lan, Mati Staniszewski (cựu chiến lược Palantir) và Piotr Dabkowski (cựu kỹ sư máy học của Google). Cảm hứng kinh doanh đến từ truyền thống của các bộ phim dịch sang tiếng Ba Lan rằng "tất cả các nhân vật đều được lồng tiếng bởi cùng một giọng nam". Công nghệ nhân bản giọng nói và tổng hợp giọng nói cảm xúc của nó hiện đang dẫn đầu ngành và được sử dụng rộng rãi trong sách nói, podcast và dịch thuật đa ngôn ngữ. Màn trình diễn nổi tiếng nhất là đoạn video ghi lại cảnh Tổng thống Argentina Milai duy trì cùng một điệp khúc ở các ngôn ngữ. Định giá khoảng 3,3 tỷ USD vào năm 2026.

Âm thanh từng là một lĩnh vực AI bị lãng quên từ lâu. Bằng cách trồng trọt ở những lĩnh vực không được ưa chuộng, nó có thể đạt được sự vượt qua nhanh chóng với chi phí năng lực tính toán thấp hơn. Trong cuộc hỗn chiến mô hình lớn năm 2022, hầu hết mọi người đều tập trung vào văn bản hoặc hình ảnh, trong khi âm thanh có yêu cầu tính toán (tài nguyên máy tính) tương đối thấp, cho phép các công ty khởi nghiệp phát triển độc lập. Đề xuất của nhận định này là các doanh nhân không cần phải tham gia vào cuộc chạy đua vũ trang về sức mạnh điện toán trị giá hàng trăm tỷ đồng. Chỉ cần họ xác định được các lĩnh vực dọc mà ngưỡng kỹ thuật chưa bị các nhà sản xuất lớn san bằng, họ có thể thiết lập lợi thế của người đi đầu thông qua hiệu quả R&D cực cao.

Cảm xúc và các chi tiết phi ngôn ngữ (chẳng hạn như tiếng cười, khoảng dừng) là chìa khóa để phá vỡ "hiệu ứng thung lũng kỳ lạ", thay vì dịch văn bản thuần túy. ElevenLabs cho phép người mẫu chuyển từ chương trình phát sóng cơ học sang biểu cảm của con người bằng cách tái tạo nhịp thở và tiếng cười tự nhiên. Tầm quan trọng của phán đoán này nằm ở chỗ bản chất của âm thanh là vật mang lại cảm xúc. Việc tái tạo âm sắc đơn giản chỉ có thể giải quyết được vấn đề “giống”. Chỉ bằng cách tái tạo logic tương tác mà con người không thể mô tả bằng trực giác, chúng ta mới có thể thực sự xây dựng được niềm tin giữa máy móc và con người.

Điểm cuối của quá trình tiến hóa của Tác nhân (tác nhân thông minh) là phải có “sự hiểu biết về cảm xúc” và có khả năng điều chỉnh chiến lược giao tiếp trong thời gian thực theo trạng thái của bên kia. Người nói đang phát triển một mô hình tương tác có thể xác định mức độ căng thẳng của người dùng và đưa ra giọng điệu trấn an, cho phép máy học cách phù hợp với tốc độ và cảm xúc nói của người khác. Điều này ủng hộ một sự thay đổi phản trực giác: tương tác bằng giọng nói không còn là việc thực hiện các hướng dẫn một cách lạnh lùng mà là sự cộng hưởng tâm lý, có nghĩa là AI bằng giọng nói trong tương lai sẽ có khả năng đồng cảm ổn định hơn con người để xử lý các xung đột cực đoan.

Audio General Intelligence sẽ thu hẹp khoảng cách giữa giọng nói và âm nhạc, đồng thời cho phép chuyển đổi liền mạch các luồng âm thanh ở mọi phương thức. Hình mẫu lý tưởng phải có khả năng chuyển đổi từ đọc sang hát một cách tự nhiên một cách liên tục, đồng thời duy trì sự nhất quán về âm sắc và cá tính. Điều này ủng hộ một bước nhảy vọt về công nghệ: âm thanh không còn là thư viện công cụ phân mảnh mà là một công cụ sáng tạo thống nhất. Sự liên tục này sẽ thay đổi hoàn toàn mô hình sản xuất podcast, hậu kỳ phim và truyền hình cũng như giải trí đắm chìm.

Voice Intelligence đang được nâng cấp từ “công cụ tiết kiệm” thành “công cụ kiếm tiền”, trực tiếp định hình lại đường cong tăng trưởng doanh thu của doanh nghiệp. Các công ty như Deliveroo đã sử dụng đại lý giọng nói để tự động liên hệ với các nhà hàng và khai thác các cơ hội kinh doanh tiềm năng từ các cuộc gọi bán hàng trong nước. Điều này khẳng định rằng giá trị kinh doanh của AI giọng nói không còn là việc thay thế dịch vụ khách hàng để cắt giảm chi phí mà trở thành công ty tiên phong bán hàng thúc đẩy tăng trưởng kinh doanh thông qua phân tích dữ liệu và giao tiếp chủ động 24/7 không bị gián đoạn.

Giọng nói sẽ trở thành "lối vào chính" cho sự kết nối thông minh giữa con người và vạn vật, đặc biệt là trong tương lai nơi robot hình người trở nên phổ biến. Khi robot và các thiết bị thông minh khác nhau vây quanh con người, giọng nói là cách tự nhiên nhất để hướng dẫn và tương tác. Tầm quan trọng của nhận định này là giọng nói không phải là sự bổ sung cho sự tương tác trên màn hình mà là nút thắt thực sự đối với trí thông minh phức tạp. Làm chủ giao diện giọng nói tương đương với việc làm chủ điều khiển từ xa đầu cuối điều khiển thế giới vật lý.

Hiệu quả cốt lõi của các doanh nghiệp trong tương lai phụ thuộc vào việc liệu nguồn lực kỹ sư có thể được đưa vào các nhóm phi kỹ thuật như nhóm pháp lý và tài chính hay không. Ngay cả khi chỉ có 400 người, ElevenLabs vẫn nhất quyết phải có các kỹ sư tận tâm trong nhóm vận hành và pháp lý của mình để phát triển các hệ thống tự động. Điều này ủng hộ sự thay đổi về mặt tổ chức: Trong thời đại AI, những người không rành về kỹ thuật cũng phải học mã hóa vbe (ám chỉ việc sử dụng các công cụ AI để viết mã nhanh chóng) để giải quyết các nhiệm vụ tầm thường, trong khi các kỹ sư chịu trách nhiệm kết nối các hoạt động tự động hóa phân mảnh này thành các hệ thống kinh doanh vững chắc.

Trong một tương lai bị nhiễm AI, việc xác thực sẽ khan hiếm hơn so với việc tạo ra nội dung và niềm tin sẽ chuyển từ chính giọng nói sang chứng chỉ bảo mật. Khi bất kỳ ai có thể tái tạo âm thanh một cách hoàn hảo, chúng ta cần sử dụng cơ chế hình mờ (dấu vô hình dùng để nhận dạng nội dung) để chứng minh người kia thực sự là bạn. Điều này dẫn đến một kết luận phản trực giác: Chúng ta không còn cần phải vất vả để phân biệt AI nữa mà cần một bộ tiêu chuẩn chứng nhận cho “AI đáng tin cậy”. Điều quý giá nhất trong tương lai không còn là giọng nói của bạn nữa mà là giấy chứng nhận ủy quyền cho giọng nói của bạn.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Trong tương lai, việc giọng nói bạn nói là đúng hay sai không còn quan trọng nữa. Điều quan trọng là liệu bạn có thể chứng minh rằng AI đang gọi điện đặt nhà hàng hoặc tổ chức cuộc họp thực sự đại diện cho bạn hay không.

Security Frontier

XBOW: The Rise of the Autonomous AI Hacker

XBOW là một công ty khởi nghiệp về an ninh mạng AI phát triển các Tác nhân AI có thể tự động phát hiện và khai thác các lỗ hổng. Vào tháng 8 năm 2024, Agent của XBOW đứng đầu bảng xếp hạng trên HackerOne, nền tảng hacker mũ trắng lớn nhất thế giới. Đây là sự kiện mang tính bước ngoặt đầu tiên trong đó AI vượt qua những hacker hàng đầu của con người trong chiến đấu thực tế. Chiến lược "Mô hình hợp kim" - luân phiên gọi các mô hình khác nhau như Claude và Gemini ở mỗi bước tấn công - là một phương pháp kỹ thuật tiêu biểu trong lĩnh vực này.

An ninh mạng đã phát triển từ "cuộc đấu tay đôi về kỹ năng con người" thành "cuộc cạnh tranh tối ưu hóa hệ thống" và mô hình phòng thủ truyền thống đang phải đối mặt với một đòn tàn khốc. Năm 1575, Oda Nobunaga của Nhật Bản đã đánh bại một cách có hệ thống đội kỵ binh samurai dường như bất khả chiến bại bằng dàn súng hỏa mai, giống như hệ thống AI ngày nay đang giảm kích thước để tấn công các tuyến phòng thủ cũ dựa vào kinh nghiệm của con người. Khẳng định của nhận định này là bản chất của cạnh tranh an ninh đã thay đổi. Không còn là cuộc cạnh tranh xem ai có hacker tài năng hơn mà là xem ai có thể dẫn đầu trong việc tự động hóa hoàn toàn hệ thống phòng thủ bằng AI.

Ngay cả những hệ thống hàng đầu được bảo vệ tốt nhất cũng vô dụng khi đối mặt với AI tự trị hiệu quả và rẻ tiền. Đặc vụ của XBOW đã vượt qua RCE của Microsoft Bing (Thực thi mã từ xa, lỗ hổng nghiêm trọng nhất cho phép chạy mã tùy ý trên hệ thống đích) chỉ với một URL và chi phí là 3.000 USD. Điều này cho thấy một sự thật phản trực giác: Ngay cả những pháo đài được tin tặc toàn cầu mài giũa cũng đã chứng kiến chi phí bảo mật của họ giảm xuống mức đóng băng khi đối mặt với AI không mệt mỏi có khả năng trinh sát và ưu tiên tự động.

AI đã có khả năng chiến đấu thực tế vượt qua các hacker con người hàng đầu thế giới chứ không chỉ là một công cụ phụ trợ. Trên HackerOne (nền tảng thử nghiệm công khai kết nối doanh nghiệp và các nhà nghiên cứu bảo mật), robot của XBOW đã hoàn toàn vượt qua bài kiểm tra hộp đen (tấn công mà không cần biết mã nội bộ) và giành vị trí số một thế giới. Điều này phá vỡ quan niệm sai lầm rằng “máy móc không thể xử lý các cuộc tấn công sáng tạo phức tạp” và chứng minh rằng AI đã phát triển từ “trợ lý đưa ra đề xuất” thành “chiến binh tự trị” có thể đưa ra kết quả tấn công một cách độc lập.

Thông qua chiến lược "Hợp kim mẫu", AI có thể đạt được hiệu quả tiến hóa 1+1>2 thông qua khả năng tự điều chỉnh. XBOW luân phiên gọi các mô hình khác nhau như Gemini và Sonnet (Chế độ hợp kim) trong mỗi bước tấn công, sử dụng sự khác biệt giữa các mô hình để bù đắp cho lỗi logic của nhau. Tầm quan trọng của nhận định này là con đường dẫn đến hacker AI mạnh mẽ nhất không nhất thiết phải đợi sự xuất hiện của một mô hình hoàn hảo duy nhất. Thông qua cơ cấu kỹ thuật hợp lý, các mô hình hiện có có thể được phối hợp để tạo ra sức công phá vượt xa sức công phá của một mô hình đơn lẻ.

Các mối đe dọa bảo mật thực sự phát sinh từ "tác động thực sự có thể khai thác" chứ không phải các lỗ hổng lý thuyết được phát hiện trong quá trình kiểm tra mã. Thử nghiệm hộp trắng truyền thống (phân tích được thực hiện với quyền mã nguồn) thường chỉ liệt kê một số lượng lớn lỗ hổng, nhưng không thể xác định liệu chúng có thực sự bị hack bất hợp pháp hay không, trong khi AI tự động có thể đưa ra câu trả lời rõ ràng thông qua mô phỏng chiến đấu thực tế. Điều này gợi ý một sự thay đổi quan trọng: những người bảo vệ phải ngừng đấu tranh với vô số "báo cáo lỗ hổng giả mạo" và thay vào đó tập trung vào những điểm nghiêm trọng thực sự có thể dẫn đến việc tiếp quản máy chủ.

Cơ hội tồn tại cho các bản vá lỗ hổng đã bị đóng hoàn toàn và các cuộc tấn công đang xảy ra trước khi lỗ hổng này được công chúng biết đến. Trước đây, có độ trễ hai năm giữa việc phát hành CVE (Các lỗ hổng và phơi nhiễm phổ biến, danh sách các lỗ hổng bảo mật được tiết lộ công khai) cho đến việc khai thác chúng. Ngày nay, con số này đã trở thành “số âm”, tức là các lỗ hổng đã bị AI khai thác hàng loạt trước khi chúng được xác nhận chính thức. Điều này dẫn đến một kết luận khẩn cấp: chiến lược phòng thủ dựa vào "chờ bản vá" đã phá sản, và phòng thủ tự động chủ động đã trở thành cách duy nhất để tồn tại.

Sự trỗi dậy của AI không phải là dấu chấm hết cho ngành an ninh mạng mà là sự tái định hình sâu sắc giá trị phòng thủ của ngành này. Thật vô nghĩa khi cổ phiếu an ninh mạng truyền thống sụt giảm khi đối mặt với các cuộc tấn công tự động do AI điều khiển, vì xã hội cần các biện pháp phòng vệ do AI điều khiển để chống lại các cuộc tấn công AI hơn bao giờ hết. Phán quyết này khẳng định rằng chúng ta đang trong một cuộc chạy đua vũ trang hiện sinh và liều thuốc giải độc duy nhất là trao quyền cho các nhà nghiên cứu con người có AI mạnh hơn để tìm ra mọi vết nứt trước khi kẻ xấu hành động.

Xã hội chỉ còn chưa đầy một năm để sửa chữa cơ sở hạ tầng kỹ thuật số toàn cầu, nếu không sẽ phải đối mặt với những hậu quả thảm khốc. Nhờ sự tiến bộ của các mô hình trọng lượng mở (các mô hình AI có trọng số công khai có thể chạy cục bộ), khả năng hack tự động mạnh mẽ nhất sẽ có mặt trên toàn cầu trong vòng 6 đến 9 tháng. Phán quyết phản trực giác này là một tối hậu thư: nếu quá trình tự động hóa quốc phòng không thể được hoàn thành trong khoảng thời gian cực ngắn này, hệ thống Internet toàn cầu sẽ phải đối mặt với một mùa đông an ninh chưa từng có trong kỳ nghỉ lễ trong tương lai gần.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Ngày nay, AI có thể tự động đột nhập vào các trang web hàng đầu như hacker số một thế giới và khả năng này sẽ trở nên phổ biến trong vòng chưa đầy một năm nữa. Nếu không nhanh chóng sử dụng AI để tự động vá lỗ hổng, hệ thống của bạn sẽ sớm bị xâm nhập hoàn toàn.

Đặt cược cạnh vào sức mạnh tính toán và phần cứng

Trí tuệ đệ quy: Những thay đổi tự động trong chip thiết kế AI

Recursive Intelligence là một công ty thiết kế chip AI do Anna Goldie và Azalia Mirhoseini thành lập. Hai AlphaChip trước đây đã được đồng phát minh tại Google Brain - một hệ thống sử dụng phương pháp học tăng cường để tự động thiết kế bố cục chip, hệ thống này đã được sử dụng trong chip điện thoại di động TPU và Pixel thế hệ thứ tư của Google. Họ đang cố gắng biến "chip thiết kế AI" thành một sự thay đổi ở cấp độ công nghiệp giống như sự khởi đầu của kỷ nguyên không thể tưởng tượng được của TSMC - đề xuất khái niệm "Không thiết kế", cho phép khách hàng chỉ gửi yêu cầu về khối lượng công việc và nền tảng này tự động tạo ra các thiết kế chip có thể sản xuất được.

Các chuyên gia về con người đã trở thành lực cản cho việc lặp lại chip. Quá trình xác minh logic và thiết kế vật lý hiện tại đều mất một năm và sử dụng hàng nghìn chuyên gia. This inefficiency directly leads to huge business losses. At a time when every day of delay in NVIDIA Blackwell chips means a loss of $225 million in opportunity costs, traditional design patterns that rely on human experience are becoming the biggest obstacle to AI progress.

The closed loop of recursive evolution between AI and the underlying physics must be opened. Optimizing chip design through AI and then using stronger chips to train stronger models will completely break the disconnect between software and hardware. The proposition of this "recursive self-improvement" judgment is that the chip should not just be a static fuel, but should become a dynamic execution end in the AI evolution chain that can automatically adjust based on software feedback.

AI demonstrates "superhuman" capabilities in complex layout tasks. Chip layouts generated by the Alpha Chip agent have been tape-out (the final test submitted to the factory for actual manufacturing) in multiple generations of TPU and Pixel phone chips. This judgment breaks the myth that "hardware design requires human intuition" and proves that reinforcement learning can solve the problem of stacking billions of components more perfectly than the most experienced engineers.

Chip design tools need 100,000x speedup to feed AI. Traditional commercial tools can take days to run an optimization, which puts an end to AI that requires millions of attempts to evolve. The significance of this magnitude of speedup is that it is not just "faster", but allows AI to rapidly iterate and learn exponentially in a massive design space at an unprecedented speed.

High-fidelity, real-time feedback is the engine that enables automated design. Recursive developed SPA (Static Timing Analysis, a static timing analysis engine used to verify whether electrical signals arrive on time) that is 1,000 times faster than existing tools. This real-time feedback signal is crucial to reinforcement learning (RL), which allows the AI to immediately know the impact of each change on performance during the optimization process, allowing it to make more accurate decisions.

The chip industry will usher in the "Designless" era. Just as TSMC has ushered in the "Fabless" era, future platforms will allow users to simply enter a workload (specific task requirements for model operation) to generate a design ready for manufacturing. This means that custom chips will no longer be the preserve of large companies, and any company with a large-scale task can skip the process of building a team of thousands of experts.

At AGI scale, a small improvement of 1% has huge business leverage. As the computing power consumption of frontier models increases exponentially, even slight improvements in hardware performance will translate into astronomical cost reductions. What’s counterintuitive about this view is that the marginal benefits brought about by the pursuit of extreme customization will be amplified by the scale effect in the AI era to the extent that it can reshape the company’s competitiveness.

The most efficient physical designs are often "weird" to humans. The AI-generated chip layout showed an organic curved shape, which shocked traditional engineers accustomed to neat and square designs. This suggests a counter-intuitive conclusion: Humans’ aesthetic preference for rules and symmetry actually limits chip performance, and the true physical optimal solution often exists in an “alien space” that transcends human aesthetic intuition.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

In the future, making chips will no longer require thousands of experts to stay up late to draw pictures. Just tell AI your needs, and it will be able to design "weird" circuits in a few minutes that are more efficient and power-saving than human hand drawing.

Starcloud: The cheapest computing power is in space

Starcloud is a space data center startup that advocates sending AI training and inference computing power directly to orbit - zero land cost, 24/7 lighting, and energy density 8 times that of the ground. has partnered with NVIDIA to develop the H100 chip that can operate in space.

Earth data centers are facing economic bottlenecks caused by land access and energy storage costs. In North America, the largest expense for building a ground-mounted solar project is the land permit fee, followed by the huge battery array to prepare for night-time power outages. This judgment reveals that the real bottleneck of AI computing power is not the chip itself, but the expensive "physical space tax" and intermittent energy supply in the earth's environment, which makes it difficult to completely reduce energy costs on the ground.

Space is the only ultimate computing field that offers zero land cost and 24/7 energy. In space, data centers don’t need to pay for land or expensive battery storage because satellites in “perpetual daylight” orbits capture sunlight at all times. Speakers argued that space is not a luxury at the cutting edge of science, but a cost-cutting solution to address the huge appetite for AI, since solar panels in space are eight times more efficient than those on the ground.

The most advanced consumer GPUs have proven to operate reliably in extreme radiation and vacuum cooling environments. Starcloud 1 successfully ran the NVIDIA H100 chip in orbit and trained nanoGPT (a small generative pre-trained model), breaking the myth that "space electronic components must use old radiation-hardened chips." This marks the first time that humans can deploy the top terrestrial (ground-level) computing power directly in low-Earth orbit, completely eliminating the technical isolation of space computing.

The exponential decline in rocket launch costs is rapidly turning "space computing power" from science fiction to the most affordable reality. When launch costs fall below $500 per kilogram, the overall cost of space computing will be lower than on the ground; Starship (Starship, SpaceX's heavy-lift launch vehicle) is designed to cost $10 to $20 per kilogram. The importance of this judgment is that the "ticket" to space is no longer expensive, which makes space computing no longer exclusive to satellites, but can carry large-scale computing tasks around the world.

Heat dissipation, not electricity, will be the ultimate physical constraint in determining the size of space data centers. Since space is a vacuum environment, heat can only be dissipated through infrared radiation, which requires calculation of a huge heat dissipation area through the Stefan-Boltzmann equation (Stefan-Boltzmann's law, a physical law that describes the black body radiation power is proportional to the fourth power of temperature). This means that the future space computing architecture will be defined by the radiator area, rather than pure energy input. The heat dissipation efficiency directly determines the compactness of the system.

Future high-end AI chips will sacrifice low-temperature stability in order to adapt to space, and instead pursue "high-temperature resistance" performance. NVIDIA is developing the Space Reuben 1 chip, which aims to significantly reduce the mass of the heat sink by increasing operating temperatures without increasing the failure rate. This points to a counterintuitive trend: In order to reduce launch loads, chip designers have begun to take advantage of the fourth power effect of the laws of physics by letting the chip "heat" in exchange for a lighter and more efficient satellite architecture.

The space constellation will become the most efficient engine for global inference missions, rather than just a data transfer station. Starcloud plans to deploy 88,000 satellites to build a 20 GW computing cluster, achieve a global latency of less than 50 milliseconds through optical links, and specifically support agent (intelligent) tasks such as code generation. This indicates that space will evolve from a "porter of information" to a "producer of answers", directly completing the calculation of intelligent decisions in the orbit closest to the user.

The large-scale migration of computing power into space is the starting point for human civilization to move towards the "Dyson Sphere" stage. The construction of 20 GW-scale space infrastructure is not only a commercial layout, but also the beginning of mankind's Type 2 (level two, referring to the civilization level that can utilize all the energy of stars) civilization construction. The claim is both ambitious and counter-intuitive: We are in the first years of the greatest infrastructure development in human history, a sign that humans are no longer limited by the earth’s resources and are beginning to directly harvest the sun’s energy.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Building data centers on the earth is too expensive and consumes electricity. In the future, we will send all AI chips to the sky and use the 24-hour sunlight in space to create the cheapest intelligence in the world.

Flapping Airplanes: Data is the real bottleneck of AI

Flapping Airplanes is an AI basic research company focusing on "data efficiency" and "algorithm-hardware collaborative optimization". The core claim is that existing AI models are structurally extremely wasteful – humans will need 10,000–100,000 times less data to learn to program than current cutting-edge models. They try to bypass the limitations of mainstream frameworks such as PyTorch, directly take over the underlying logic of the GPU, and develop a new paradigm that can approximate the effects of large models under "small data" conditions. The company name "Ornithopter" hints at a metaphor: At that time, humans were obsessed with imitating the flapping flight of birds and ultimately failed. What really took off was the fixed-wing aircraft - AI does not have to copy the violent path of the large model.

The current AI boom is essentially a "bonanza effect", with models only demonstrating capabilities in narrow areas where data is extremely abundant. Search and programming are powerful because they consume nearly the entire Internet and vast amounts of synthetic data. The assertion of this judgment is that this "data greed" model cannot be replicated in the broader real economy, because the amount of available data in fields such as robotics or supply chains is extremely scarce, and AI must learn to survive in "poor mines."

Human learning efficiency proves that there is a huge waste of resources in the structure of existing AI models. Humans will need 10,000 to 100,000 times less data than current cutting-edge models to master the same advanced programming skills. This means that data efficiency (data efficiency, which refers to the ability to use less data to achieve the same level of intelligence) is completely feasible, and the current scaling law is just using massive computing power to cover up algorithm inefficiencies.

Computing power (compute) is a standard commodity that is easy to expand, while high-quality data is a non-standard asset full of friction. You only need to pay money to purchase computing power, but obtaining high-quality data for long-tail tasks involves complex regulatory negotiations, corporate conditions, and even scouring bankrupt physical bookstores. Therefore, the business value of increasing data efficiency by 1,000 times is far greater than reducing the price of computing power by 1,000 times, because it directly eliminates the "administrative threshold" to enter all walks of life in the real world.

Data efficiency determines the power structure of the future AI world and is the only weapon to break technology monopoly. If data volume remains the moat for competition, the AI revolution will become a game for a few giants who can monopolize vast amounts of information. The speaker advocated that ordinary companies can also compete by improving efficiency, which means that data efficiency is not only a technical indicator, but also a philosophical switch that determines whether the AI revolution will move toward "centralization" or "distributed inclusiveness."

Mainstream software frameworks such as PyTorch are "dancing with shackles", severely limiting the release of hardware performance. PyTorch (a popular open source machine learning framework) disguises extremely parallel GPUs (graphics processing units) as running in a single-threaded model for ease of use, resulting in the inability to express many efficient algorithms. The importance of this judgment is that the bottleneck we face is often not that the chip is not fast enough, but that the way we interact with the hardware filters out the smartest, most data-efficient paths.

To find new frontiers of AI capabilities, we must carry out dimensionality reduction directly from the "hardware primitives" level. By redefining the primitives of hardware interaction (primitives, the smallest logical units for building complex programs), you can unlock complex algorithms that run extremely inefficiently under standard frameworks. This advocates a counter-intuitive path: to make AI smarter, you should "torture" the hardware and tap out the underlying high-efficiency potential that has been abandoned by mainstream systems.

Only through the "collaborative optimization" of systems and algorithms can a real leap in data efficiency be achieved. The speaker developed a virtual architecture that takes over the entire GPU to run fine-grained training loops that are "asynchronous and inefficient" under traditional logic. The significance of this kind of deep customization is that it breaks the current status quo of disconnection between software and hardware, and proves that only by letting the algorithm grow directly on the optimal solution of the hardware can intelligent mutations be achieved with very little data.

The ultimate outcome of AI evolution is to shift from "big data" driven to "refined" driven, reshaping the long tail part of the economy. When AI can no longer rely on Internet-level data scale, it can truly penetrate into tens of thousands of traditional industrial scenarios that currently lack digital resources. The proposition of this judgment is extremely ambitious: we must shift from the pursuit of "scale" to the pursuit of "efficiency", because only AI that can solve the problem of "small data" is AGI that can truly change the physical world.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

The current AI learning efficiency is too low. Only by letting AI learn to master new skills with just a few glances like humans can it truly enter factories, hospitals and every corner of our lives.

Unconventional AI: How the brain becomes 1 million times more energy efficient

Unconventional AI is a non-Von Neumann architecture computing company founded by Naveen Rao. The core claim is that modern AI still runs on the floating-point + von Neumann architecture designed for a completely different purpose in the 1940s, resulting in most of the energy loss in "transferring data between memory and computing units." They are trying to use nonlinear dynamics and oscillator coupling to simulate physical processes, so that calculation results can "spontaneously emerge" through the natural evolution of physical systems - the goal is to improve energy efficiency by three orders of magnitude, approaching the level of the brain.

AI development is about to hit the "energy wall" of the physical world, and the existing computing power expansion model is unsustainable. Within the next 2 to 4 years, the world will no longer have enough surplus electricity to support AI training and inference demand growing at current trajectories. The importance of this judgment is that the current scaling law essentially consumes energy violently in exchange for intelligence. If the physical base of computing is not changed, the progress of AI will be forced to stagnate because it hits the energy ceiling.

The existence of biological brains proves that "high energy consumption" is not an inevitable price of intelligence, but a flaw in our design. The total power consumption of the brains of the world's 8 billion people is only 160 gigawatts, and current AI models may consume megawatts or even gigawatts of energy in a single inference or training session. This advocates a core point: Our implementation of "intelligence" is extremely inefficient. The biological world has given a "proof of existence" for running general intelligence with low power consumption, prompting us that we must completely reconstruct the computing logic.

We are trying to build 21st century intelligence on archaic digital abstractions that are 80 years old. Modern chips still rely on floating point and von Neumann, which were designed for completely different purposes in the 1940s, resulting in the vast majority of energy being lost moving data between the two. This judgment counter-intuitively points out that even if it is as powerful as a GPU, it is "tinkering" with the wrong architecture, and the direction of hardware evolution has deviated from the essence of intelligent processing from the beginning.

The real path to AGI is to abandon matrix mathematics and move toward nonlinear dynamics calculations. The brain does not calculate matrices like a GPU, but lets neurons interact through nonlinear dynamics (which refers to the complex and non-proportional changes in the state of a system over time). The proposition of this judgment is that we should no longer pursue precise calculations per second, but should let the physical system spontaneously converge on the answer through time evolution, thereby achieving a leap-forward efficiency improvement.

Embracing "noise" and randomness is the only way to achieve ultra-low power computing. A digital computer will crash if it gets one bit wrong, but the brain can still function stably with stochastic signals. This advocates a counter-intuitive conclusion: extreme accuracy has become a shackles to efficiency, and allowing the system to have a certain degree of randomness and fault tolerance is the key to simulating efficient biological-level intelligence.

We should use the "time axis" of physical laws to calculate, rather than artificially delineating the main frequency cycle. By using trainable coupled oscillators (oscillators, circuits that generate periodically repeating signals), the computational process becomes the natural settling of a physical system to a steady state over time. The importance of this judgment is that it eliminates the power consumption of traditional machines repeatedly reading and writing between memory and cache, and directly allows the "physical laws" themselves to undertake all computing tasks.

Only when the state, function and physical base are completely overlapped can the limit of computing efficiency be reached. In a non-von Neumann architecture power system, the place where information is stored is where the information is processed, and the two are completely physically integrated. This advocates a breakthrough direction: computing will no longer be limited by the "memory wall". This trinity architecture is expected to increase computing efficiency by three orders of magnitude and fundamentally solve the energy crisis of AI.

The process of building AGI is also the process by which humans finally understand the nature of their own consciousness. When we can start from first principles and use synthetic circuits to reproduce the nonlinear dynamic trajectory of the brain, we will truly grasp the operating code of intelligence. The claim of this judgment is extremely ambitious: AGI is not only a victory for software, but also a "return" of hardware, allowing us to truly solve the 4 billion-year-old physical mystery of biological intelligence by building brains with our own hands.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Today’s computers consume too much power to calculate things. We have to learn from the structure of the human brain and no longer let the computer calculate math problems. Instead, let the current flow through the circuit like water to naturally generate the answer.

AGI đã có mặt ở đây: 13 cuộc trò chuyện AI cốt lõi nhất tại Hội nghị thường niên Sequoia

Giới thiệu

Một số chủ đề chính xuyên suốt toàn bộ sự kiện

Tóm tắt diễn đàn

Bài phát biểu quan trọng

Mô hình và nhận thức

Lập trình và thay đổi tổ chức

Thế giới vật lý và các giao diện

Security Frontier

Đặt cược cạnh vào sức mạnh tính toán và phần cứng

관련 기사

加密市场宏观研报：比特币重返8万美元，美伊局势大逆转与美联储换帅

复盘中国加密交易所江湖史：草莽崛起、离岸迁徙与合规重塑

专访Robinhood加密负责人：代币化打通全球市场正在路上，美股上链只是第一步

AGI已经来了：红杉年度大会最硬核的13场AI对话

제품

법률 및 지원

친구 링크