Litecoin

Lựa chọn cốt lõi của Hội nghị thường niên AI Sequoia 2026: 13 người chơi AI hàng đầu cho bạn biết rằng AGI đã có mặt ở đây

2026/05/09 05:32
🌐vi

13 cuộc trò chuyện từ hội nghị AI nổi bật nhất Thung lũng Silicon

Lựa chọn cốt lõi của Hội nghị thường niên AI Sequoia 2026: 13 người chơi AI hàng đầu cho bạn biết rằng AGI đã có mặt ở đây

Giới thiệu

Vào cuối tháng 4 năm 2026, Sequoia Capital sẽ tổ chức Hội nghị AI Ascent lần thứ 4 tại San Francisco. Hội nghị này đã mời các công ty cốt lõi trong ngành AI như OpenAI, DeepMind, Anthropic, NVIDIA và Waymo, cũng như các công ty khởi nghiệp đang đặt cược vào các hướng mới nổi như ElevenLabs, XBOW, Recursive Intelligence và Starcloud. 13 cuộc đối thoại bao gồm các mô hình cơ bản, mô hình lập trình, robot, lái xe tự động, thiết kế chip, sức mạnh tính toán không gian và kiến ​​trúc điện toán mới, về cơ bản bao gồm các dòng chính tiên tiến nhất của ngành AI hiện tại.

So với những năm trước, giai điệu của AI Ascent lần này trực tiếp hơn: AI không còn chỉ là một công cụ để nâng cao hiệu quả mà đã bắt đầu đi vào các quy trình làm việc thực tế, đảm nhận một số nhiệm vụ phức tạp mà trước đây chỉ con người mới có thể hoàn thành. Trong bài phát biểu khai mạc của mình, Sequoia gọi đó là sự xuất hiện của "AGI chức năng" - không phải máy móc đã tương đương với con người về mọi mặt, mà từ góc độ kinh doanh và năng suất, trí thông minh tầm xa đã vượt qua ngưỡng từ trình diễn đến khả năng sử dụng.

Đây cũng là nền tảng cốt lõi của hội nghị này: khi trí thông minh bắt đầu trở nên rẻ, có thể sử dụng được và có thể mở rộng, thì trọng tâm của cuộc cạnh tranh AI đang chuyển từ "liệu mô hình có thể được xây dựng" sang "làm thế nào để kết nối nó với thế giới thực". Do đó, phần mềm, dịch vụ, tổ chức, phần cứng, năng lượng, bảo mật và không gian vật lý đều có thể được thiết kế lại.

Câu chuyện mà Sequoia muốn kể rất rõ ràng: trí thông minh không còn là một sản phẩm xa xỉ mà đang trở thành một nguyên liệu thô công nghiệp mới. Điều thực sự quan trọng trong giai đoạn tiếp theo có thể không phải là ai có mô hình thông minh hơn mà là ai có thể hiểu khách hàng nhanh hơn, tổ chức lại quy trình, lên lịch cho đại lý và biến trí tuệ rẻ tiền này thành một hệ thống kinh doanh bền vững.

Do đó, hội nghị này không chỉ thảo luận về bước tiếp theo của công nghệ AI mà còn là một vấn đề lớn hơn: làm thế nào con người, các công ty và xã hội có thể xác định lại giá trị của chính mình khi máy móc ngày càng có thể đảm nhận nhiều công việc trí óc hơn.

Một số chủ đề chính xuyên suốt toàn bộ sự kiện

Đầu tiên, trí thông minh đang trở thành một mặt hàng.
Sequoia đã so sánh sự chuyển đổi này với "nhôm" vào cuối thế kỷ 19: nó từng đắt hơn vàng, nhưng do sự phổ biến của phương pháp điện phân, nó đã trở thành một vật liệu công nghiệp sẵn có và có mặt ở khắp mọi nơi trong vòng vài thập kỷ. Ngày nay, chuyên môn ở cấp độ tiến sĩ, rào cản nhận thức từng xác định khả năng cạnh tranh của tầng lớp trung lưu, có thể cũng chịu số phận tương tự. Trí thông minh tiên tiến không còn khan hiếm một cách tự nhiên mà bắt đầu được sản xuất hàng loạt, triển khai và phân phối theo mô hình.

Thứ hai, nút thắt là việc chuyển từ máy móc sang con người.
Greg Brockman đã nói một câu được trích dẫn nhiều lần tại hội nghị này: Khi các đặc vụ có thể làm việc tự chủ, sự chú ý của con người sẽ trở thành nguồn lực khan hiếm nhất trong toàn bộ nền kinh tế. Karpathy bày tỏ nhận định tương tự theo cách thẳng thắn hơn: khi máy móc có thể xử lý hầu hết mọi chi tiết thực thi, khả năng duy nhất mà con người không thể đánh mất là tìm ra thứ họ muốn. Câu hỏi không còn là liệu máy móc có làm được việc đó hay không mà là liệu con người có thể đưa ra những mục tiêu phù hợp hay không, đánh giá xem kết quả có đáng tin cậy hay không và quyết định điều gì đáng để hoàn thành.

Thứ ba, việc lập trình đang được giải quyết, còn các tổ chức thì chưa.
Anthropic đã triển khai nội bộ một lượng lớn mã do các mô hình tạo ra và các tác nhân khác nhau thậm chí có thể cộng tác tự chủ trên Slack. Nhận định của Boris Cherny còn đi xa hơn: hào nước thực sự không còn là một phiên bản mô hình nhất định mà là mức độ “bản địa” của AI trong cơ cấu tổ chức. Đây là một kết luận không mấy thân thiện đối với các công ty hiện tại - bởi vì khoảng cách không chỉ đến từ mức độ thành thạo công cụ mà còn đến từ việc công ty sẵn sàng thiết kế lại các quy trình, quyền, phương pháp cộng tác và cơ cấu quản lý xung quanh các đại lý.

Thứ tư, AI đang quay trở lại từ thế giới kỹ thuật số sang thế giới vật lý.
Robot của Jim Fan, 20 triệu chuyến xe tự lái của Waymo và giọng nói đầy cảm xúc của ElevenLabs minh họa từ các khía cạnh khác nhau rằng AI không còn chỉ là một công cụ màn hình để xử lý văn bản, mã và hình ảnh mà đã bắt đầu hiểu và can thiệp vào ánh sáng, âm thanh, lực, chuyển động và không gian. Trong thập kỷ qua, “phần mềm ăn thế giới” là chủ đề chính; tiếp theo, AI có thể trực tiếp bước vào thế giới vật chất, thay đổi ô tô, nhà máy, robot, tương tác bằng giọng nói và chính hoạt động sản xuất vật chất.

Thứ năm, mục đích cuối cùng của sức mạnh tính toán nằm ở bản chất vật lý.
Khi đất, năng lượng và tản nhiệt trong các trung tâm dữ liệu trên mặt đất bắt đầu đạt đến đỉnh cao, một nhóm các công ty cấp tiến hơn đã đưa ra các giải pháp khác nhau: Starcloud muốn gửi chip vào không gian, Đệ quy để AI thiết kế chip của riêng mình, AI độc đáo cố gắng vượt qua kiến ​​trúc von Neumann để bắt chước bộ não và Flapping Airplanes trực tiếp đặt câu hỏi về "mở rộng quy mô bạo lực" - nếu con người có thể học các kỹ năng tương tự với ít dữ liệu hơn, thì thuật toán AI ngày nay có thể quá kém hiệu quả ngay từ gốc. Điểm cuối cùng của cuộc cạnh tranh sức mạnh tính toán là chuyển từ mua thêm GPU sang tái thiết cơ bản về năng lượng, chip, kiến ​​trúc và hiệu quả dữ liệu.

Thứ sáu, an ninh đã bước vào chiến trường bất đối xứng "AI vs AI".
Đặc vụ của XBOW đứng đầu bảng xếp hạng hacker mũ trắng toàn cầu, điều đó có nghĩa là AI không còn chỉ là công cụ phụ trợ cho các nhà nghiên cứu bảo mật mà là một hệ thống tấn công tự động có thể phát hiện, xác minh và khai thác lỗ hổng một cách độc lập. Điều nghiêm trọng hơn nữa là khi khả năng của các mô hình nguồn mở được cải thiện, khả năng tấn công kiểu này có thể lan rộng nhanh chóng trong 6 đến 9 tháng tới. An ninh mạng không còn là cuộc tấn công và phòng thủ giữa các hacker con người mà là một cuộc chạy đua vũ trang AI đã bắt đầu đếm ngược.

Tổng hợp những manh mối này lại với nhau, bạn sẽ thấy rằng ngành công nghiệp AI vào năm 2026 đang ở trong một tình thế không thoải mái: năng lực kỹ thuật đã vượt xa hình thức sản phẩm, cơ cấu tổ chức và các quy tắc xã hội. Mô hình này đang trở nên mạnh mẽ hơn mỗi ngày, nhưng “vùng chứa” chứa nó—cho dù đó là quy trình doanh nghiệp, giao diện ứng dụng hay sự chú ý của con người—vẫn chưa bắt kịp.

Cuộc thảo luận xuyên suốt hội nghị về cơ bản nhằm trả lời cùng một câu hỏi: Trong một thế giới mà máy móc ngày càng có thể hoàn thành nhiều công việc trí óc hơn, con người còn lại gì?

Câu trả lời mà Sequoia đưa ra có phần phản trực giác: đó là cảm xúc, sự tin tưởng và những thứ không thể sản xuất trên quy mô lớn. Câu trả lời của Brockman là “Bạn muốn gì?” và câu trả lời của Karpathy là “Bạn có thể biết liệu máy có hoạt động đúng không?” Những câu trả lời này cuối cùng đều chỉ ra cùng một điều: khi bản thân trí thông minh không còn khan hiếm nữa thì những ý định, phán đoán và các mối quan hệ sẽ trở thành đồng tiền mạnh mới.

Sau đây là tóm tắt tất cả 13 cuộc đối thoại tại hội nghị này.

Tóm tắt diễn đàn

Bài phát biểu quan trọng

Bài phát biểu khai mạc của Sequoia Partners: Đây là AGI

Các diễn giả, Pat Grady, Sonya Huang và Konstantine Buhler, là ba đối tác cốt lõi trong lĩnh vực đầu tư AI của Sequoia Capital. Sonya Huang là tác giả của bài báo Generative AI: A Creative New World năm 2022 đã gây chấn động thế giới. Cô được coi là một trong những nhà đầu tư tổ chức đầu tiên lạc quan một cách có hệ thống về AI sáng tạo. Ba đồng tác giả bài viết Đây là AGI vào năm 2026, là nguồn gốc của khuôn khổ tư tưởng của hội nghị này. Bản thân Sequoia Capital là công ty đầu tư mạo hiểm hàng đầu lâu đời nhất ở Thung lũng Silicon và đã đầu tư vào Apple, Google, Nvidia, Stripe, OpenAI và các công ty khác trong những ngày đầu thành lập.

AI là một "cuộc cách mạng điện toán" phá vỡ hoàn toàn bản chất của việc xử lý thông tin, chứ không phải là một "cuộc cách mạng truyền thông" chỉ tăng tốc phân phối. Trước đây, Internet và thiết bị đầu cuối di động chỉ thay đổi đường truyền thông tin, nhưng AI đã thay đổi logic cơ bản của việc tạo ra thông tin, khiến nền tảng (cơ sở kỹ thuật) mà các nhà phát triển xây dựng ứng dụng dựa trên đó phải thay đổi hàng ngày. Tầm quan trọng của nhận định này là trong “thời điểm mưa bão” khi nền tảng không ổn định, nền tảng công nghệ ổn định truyền thống đã trở thành quá khứ và các nhà phát triển phải học cách thích ứng với cơ sở mô hình đang phát triển.

AI sẽ thâm nhập vào thị trường trị giá 10 nghìn tỷ USD, lớn gấp 10 lần so với phần mềm truyền thống thông qua việc cung cấp trực tiếp "các dịch vụ chuyên nghiệp". TAM (Tổng thị trường có thể định địa chỉ) của thị trường phần mềm toàn cầu chỉ có vài trăm tỷ đô la Mỹ, trong khi riêng ngành dịch vụ pháp lý của Hoa Kỳ đã lên tới 400 tỷ đô la Mỹ, tương đương với quy mô của toàn bộ ngành công nghiệp phần mềm. Điều này ủng hộ một sự chuyển đổi quan trọng: giá trị thương mại của AI không còn được bán như một công cụ cho con người mà trực tiếp dưới dạng một tác nhân (thông minh) để tiếp quản và cung cấp công việc có giá trị cao do các chuyên gia con người hoàn thành ban đầu.

Từ góc độ thương mại thực tế, các tác nhân có độ bền lâu dài có thể phản ứng độc lập trước các lỗi đánh dấu sự xuất hiện của AGI (trí tuệ nhân tạo). Nếu một hệ thống có thể được gửi đi để thực hiện một nhiệm vụ, tự sửa chữa trong trường hợp lỗi và tồn tại đến đích thì nó đã có chức năng tương đương với AGI. Nhận định phản trực giác này nhắc nhở chúng ta: đừng vướng vào những định nghĩa học thuật nữa. AI với khả năng thực thi độc lập đã phát triển từ “con ngựa nhanh hơn” thành “ô tô” có khả năng thay đổi khía cạnh cạnh tranh và hiệu quả của nó đã tăng gấp 10 đến 40 lần.

Vào thời điểm mà các năng lực cơ bản đang thay đổi nhanh chóng, logic duy nhất để xây dựng một con hào là phải "cực kỳ gần gũi với khách hàng". Các chiến lược MAD—Moats, Affordance và Diffusion—ủng hộ việc khóa giá trị hỗ trợ khách hàng thay vì loại bỏ công nghệ. Vì nhu cầu của con người thay đổi chậm hơn nhiều so với khả năng của mô hình nên việc bao bọc khách hàng sâu sắc này sẽ bền hơn so với việc theo đuổi mô hình.

Quyền tự chủ của đại lý đang phát triển từ "trợ lý cấp độ phút" thành "nhân viên tự chủ cấp độ giờ". Biểu đồ mét (số liệu về độ bền của nhiệm vụ) đo lường thời gian một mô hình đi đúng hướng đối với các nhiệm vụ phức tạp đã tăng từ vài phút một năm trước lên hàng giờ, đủ để hỗ trợ các nhà máy tối (quy trình kinh doanh chạy hoàn toàn tự động) mà không cần sự đánh giá của con người. Điều này có nghĩa là nút thắt về năng suất đã được giải quyết và những bước lặp lại đặc biệt như "viết lại 8 triệu dòng mã trong 6 tuần" đang trở thành thông lệ.

Xã hội loài người đang ở trước "cuộc cách mạng công nghiệp nhận thức" và máy móc sẽ đảm nhận 99,9% công việc trí óc của thế giới. Giống như Cách mạng Công nghiệp đã thay thế 99% sức mạnh vật chất bằng động cơ, hầu hết việc phân tích, ra quyết định và sáng tạo trong tương lai cũng sẽ được thực hiện bởi mạng lưới thần kinh. Đề xuất của nhận định này là trí thông minh sẽ không còn là nguồn tài nguyên độc quyền của con người mà là một vật tư tiêu hao cấp công nghiệp với chi phí thấp, có thể được sản xuất trên quy mô không giới hạn và được sử dụng theo yêu cầu.

Các kỹ năng trí tuệ nâng cao sắp mở ra "Khoảnh khắc nhôm" và sẽ hoàn toàn biến từ thứ xa xỉ đắt tiền thành hàng hóa rẻ tiền. Nhôm, từng đắt hơn vàng, đã trở thành vật liệu dùng một lần do sự phổ biến của điện phân (một quá trình hóa học tách các chất) và khả năng tiếp cận tức thì của AI với kiến ​​thức ở cấp độ tiến sĩ cũng sẽ có tác dụng tương tự. Điều này báo trước một tương lai tàn khốc: những rào cản về chuyên môn tích lũy qua nhiều năm có thể sụp đổ ngay lập tức và bản thân trí thông minh sẽ không còn có giá trị khan hiếm nữa.

Khi trí thông minh hoàn toàn ở mức tầm thường, các mối quan hệ giữa các cá nhân và kết nối cảm xúc sẽ trở thành điểm tựa giá trị thực sự duy nhất của xã hội loài người. Nhiếp ảnh từng thúc đẩy nghệ thuật chuyển từ chủ nghĩa hiện thực sang chủ nghĩa ấn tượng thể hiện tâm hồn. Tương tự, giải pháp tối ưu về hiệu quả của AI thường đưa ra một “không gian ngoài hành tinh” vượt xa trực giác của con người. Kết luận cuối cùng phản trực giác nhưng sâu sắc: Trong tương lai nơi máy móc chịu trách nhiệm cho mọi công việc, chỉ có niềm tin và tình cảm giữa con người mới là loại tiền tệ tối thượng mà máy móc không thể sản xuất hàng loạt.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Trí thông minh từng có giá trị sẽ sớm trở nên rẻ như túi nhựa. Trong tương lai, điều thực sự giúp bạn có tính cạnh tranh không còn là bộ não có thể giải quyết vấn đề nữa mà là cảm xúc có thể hiểu người khác và tạo dựng niềm tin.

Mô hình và nhận thức

Andrej Karpathy: Từ Vibe Coding đến Agent Engineering (Nhóm sáng lập OpenAI)

Diễn giả Andrej Karpathy, là "nhà khoa học giáo dục" có ảnh hưởng nhất trong giới AI. Là thành viên nhóm sáng lập OpenAI, sau này ông giữ chức vụ giám đốc Tesla AI phụ trách hệ thống thị giác lái xe tự động. Năm 2024, ông rời Tesla để thành lập Eureka Labs, một công ty giáo dục AI. Chuỗi video của ông trên YouTube giải thích từng bước về mạng lưới thần kinh là sách giáo khoa giới thiệu cho vô số kỹ sư AI. Các khái niệm chính như "Phần mềm 2.0" và "Vibe Coding" đều do anh ấy đặt ra.

Ngay cả những chuyên gia hàng đầu cũng cảm thấy “bị bỏ lại phía sau” trong làn sóng AI khi công nghệ này phát triển từ các công cụ hỗ trợ đến hệ thống tự động. Vào đầu năm 2026, diễn giả nhận thấy rằng ông không còn cần phải sửa đổi các khối mã do AI tạo ra nữa và có thể chỉ cần tin tưởng hệ thống sẽ hoàn thành các nhiệm vụ phức tạp. Tầm quan trọng của nhận định này là khi AI có thể đạt được khả năng tự sửa lỗi và phân phối vòng kín, "điểm mấu chốt" của các nhà phát triển ban đầu dựa vào tích lũy kinh nghiệm đã tăng lên một cách dữ dội và tốc độ học tập cá nhân khó bắt kịp với tốc độ dịch chuyển của cơ sở kỹ thuật.

Điện toán hiện đại đang bước vào kỷ nguyên Phần mềm 3.0 và LLM về cơ bản là một loại máy tính mới sử dụng ngữ cảnh làm đòn bẩy. Phần mềm 1.0 là viết mã, 2.0 là tập tạ, còn 3.0 là lập trình theo ngữ cảnh (cửa sổ ngữ cảnh, không gian bộ nhớ khi mô hình xử lý thông tin) thông qua nhắc nhở (lời nhắc). Điều này có nghĩa là việc cài đặt phần mềm không còn yêu cầu viết các tập lệnh tương thích phức tạp nữa. Bạn chỉ cần "cung cấp" văn bản mô tả cho đại lý. Đánh vần chính xác các chi tiết không còn là năng lực cốt lõi nữa.

Nhiều kiến ​​trúc ứng dụng hiện có đang trở nên "dư thừa" vì AI đã có khả năng xử lý trực tiếp ở lớp dữ liệu thô. Diễn giả nhận thấy rằng ứng dụng tạo menu mà anh ấy đã dày công phát triển đã trở nên vô nghĩa vì mô hình giờ đây có thể thực hiện các lớp hiển thị cấp pixel trực tiếp trên ảnh. Điều này ủng hộ một sự thay đổi sâu sắc: AI không nên chỉ được sử dụng để tăng tốc logic kinh doanh cũ. Chúng ta phải nhận ra rằng sự biến mất của lớp giữa đồng nghĩa với việc nhiều dạng sản phẩm truyền thống đã mất đi cơ sở vật chất cho sự tồn tại của chúng.

Khả năng của AI rất “lởm chởm” và nó chỉ thể hiện trí thông minh siêu phàm trong những lĩnh vực có thể xác minh được. Mô hình này có thể tái tạo lại 100.000 dòng mã, nhưng nó có thể đảo ngược cách tính toán đơn giản thông thường "có bao nhiêu r trong quả dâu tây". Điều này là do các mô hình chủ yếu được củng cố trong các lĩnh vực có thể xác minh được như toán học và mã thông qua RL (học tăng cường, một phương pháp đào tạo sử dụng tín hiệu khen thưởng để hướng dẫn quá trình phát triển mô hình). Điều này nhắc nhở chúng ta: chúng ta phải luôn quan sát vòng lặp và cảnh giác với những điểm yếu nằm ngoài phân bổ đào tạo mô hình.

Chúng tôi không xây dựng "động vật" với động cơ bên trong mà là "triệu hồi ma" trong quá trình phân phối dữ liệu. Trí thông minh cao nhất của mô hình phụ thuộc vào việc phân phối dữ liệu huấn luyện (ví dụ: việc thêm một lượng lớn dữ liệu bản ghi cờ vua sẽ làm cho thành tích chơi cờ được cải thiện nhảy vọt), thay vì nó thực sự tạo ra một số sự tò mò giống như sinh học. Nhận định này phản trực giác khi chỉ ra rằng AI không thực sự "hiểu", nó chỉ tăng cường cực kỳ mạnh mẽ các mạch cụ thể trong mô phỏng thống kê, vì vậy người dùng phải học cách xác định và tránh các khả năng sai lệch không được dữ liệu hỗ trợ.

Kỹ thuật tác nhân là duy trì ranh giới chất lượng của phần mềm chuyên nghiệp trong khi sử dụng AI ngẫu nhiên. Cách tiếp cận kỹ thuật mới này yêu cầu các nhà phát triển phải phối hợp các tác nhân thất thường nhưng cực kỳ mạnh mẽ trong khi vẫn đảm bảo hệ thống không tạo ra các lỗ hổng bảo mật. Nó ủng hộ mô hình kỹ sư 10x mới: cốt lõi của cạnh tranh không còn là tốc độ viết mã cá nhân nữa mà là khả năng điều khiển một cụm đại lý khổng lồ hiệu quả như một giám đốc để mang lại kết quả chất lượng cao.

Khi máy móc đảm nhiệm các chi tiết API tầm thường, lợi ích thực sự của con người sẽ chuyển sang tính thẩm mỹ và khả năng kiểm soát "thông số kỹ thuật". Các nhà phát triển không còn cần phải ghi nhớ các thông số giao diện cụ thể của PyTorch (deep learning framework), bởi những chi tiết này sẽ được xử lý bởi các “thực tập sinh” AI có trí nhớ cực mạnh. Điều này báo trước một tương lai phản trực giác: các nguyên tắc cơ bản và phong cách thiết kế hiệu quả hơn các chi tiết công cụ và con người nên chuyển đổi từ "thợ nề" thành những người ra quyết định xác định "thế nào là thiết kế tốt".

"Suy nghĩ" có thể thuê ngoài, nhưng "hiểu biết" chính là nút thắt hạn chế tốc độ duy nhất của con người trong thời đại trí tuệ rẻ tiền. Mặc dù AI có thể giúp chúng ta xử lý và biên dịch lại lượng thông tin khổng lồ nhưng nó không thể quyết định cho chúng ta “tại sao chúng ta xây dựng cái này” và “liệu ​​nó có giá trị hay không”. Điều này ủng hộ một kết luận cuối cùng: con người vẫn là người chỉ huy duy nhất của hệ thống, bởi vì chỉ có ý thức của con người mới có thể đưa ra mục tiêu cho quá trình xử lý thông minh và sự hiểu biết tổng thể này không thể được thay thế bằng thuật toán.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Khi một chiếc máy có thể làm tất cả công việc cho bạn và thậm chí nghĩ đến tất cả các chi tiết, điều duy nhất bạn không thể mất là tìm ra những gì bạn muốn và liệu bạn có thể biết liệu chiếc máy đó có làm đúng hay không.

Greg Brockman: Sự chú ý của con người là nút thắt cổ chai mới (đồng sáng tạo OpenAI)

Diễn giả Greg Brockman là người đồng sáng lập và chủ tịch của OpenAI. Cựu CTO của Stripe, ông đồng sáng lập OpenAI với Sam Altman vào năm 2015 và là kiến ​​trúc sư cốt lõi về công nghệ và cơ sở hạ tầng của công ty. Trong OpenAI, Altman tập trung vào các khía cạnh bên ngoài (tài chính, hình ảnh công chúng, chính sách) và Brockman tập trung vào các khía cạnh bên trong (công nghệ, sức mạnh tính toán, sản phẩm). Phong cách kỹ thuật của ông là tự mình viết mã và làm việc để phát hành các bản phát hành vào lúc nửa đêm, rất nổi tiếng ở Thung lũng Silicon.

Trí thông minh đã trở thành một loại hàng hóa được tiêu chuẩn hóa có thể bán lại, dẫn đến sự gia tăng bệnh lý không ngừng về nhu cầu về sức mạnh tính toán. Mô hình kinh doanh của OpenAI về cơ bản là mua hoặc cho thuê sức mạnh tính toán, sức mạnh này được chuyển đổi thành trí thông minh thông qua các mô hình và sau đó bán lại với giá cao. Do nhu cầu giải quyết vấn đề không giới hạn nên nguồn cung GPU (bộ xử lý đồ họa) vào năm 2026 gần như bằng 0 trong dự báo. Tầm quan trọng của nhận định này là AI không còn chỉ là một dịch vụ phần mềm mà đã phát triển thành một ngành kinh doanh hàng hóa dựa trên tài nguyên. Việc cung cấp sức mạnh tính toán trong thế giới vật chất trực tiếp quyết định giới hạn trên của trí tuệ của nền văn minh.

Định luật mở rộng (quy tắc thực nghiệm cho thấy khả năng của mô hình tăng lên khi sức mạnh tính toán ngày càng tăng) là một chân lý thực nghiệm phổ quát và chúng ta vẫn chưa thấy "bức tường" nào đạt đến đỉnh cao. Mặc dù ý tưởng cơ bản về mạng nơ-ron bắt nguồn từ những năm 1940, nhưng miễn là lượng sức mạnh tính toán khổng lồ tiếp tục được đầu tư thì khả năng của mô hình sẽ được nâng cao tương ứng và chắc chắn. Điều này khẳng định một điểm mấu chốt: sự trì trệ về công nghệ sẽ không xảy ra trong thời gian ngắn. Miễn là vốn và điện tiếp tục được đầu tư, chúng ta có thể có được trí tuệ mạnh mẽ hơn, điều này cung cấp sự hỗ trợ logic cơ bản cho sự đầu tư mạnh mẽ của những gã khổng lồ công nghệ.

Từ góc độ chức năng, chúng tôi đã hoàn thành 80% chặng đường hướng tới AGI (trí tuệ tổng hợp nhân tạo), vì mô hình này đã có khả năng vòng kín để thực hiện các nhiệm vụ một cách độc lập. Sau khi kỹ sư hệ thống bàn giao kế hoạch tối ưu hóa phức tạp cho mô hình, mô hình không chỉ hoàn thành việc viết mã mà còn chạy Profiler (công cụ phân tích hiệu suất) một cách độc lập và tiến hành nhiều vòng tối ưu hóa dựa trên phản hồi cho đến khi hoàn thành nhiệm vụ. Điều này ủng hộ một quan điểm phản trực giác: AGI không phải là một thời điểm trong tương lai mà là một quá trình đang diễn ra. AI đã phát triển từ một “trợ lý viết mã” thành “đồng nghiệp giải quyết vấn đề”.

Bối cảnh (ngữ cảnh đề cập đến thông tin cơ bản mà mô hình nắm vững khi xử lý một tác vụ cụ thể) đang thay thế các thuật toán mô hình làm biên giới cạnh tranh cốt lõi hiện tại. Công cụ mới Chronicle có thể ghi lại mọi thao tác của người dùng trên máy tính theo thời gian thực, cho phép AI có “bộ nhớ”, nhờ đó tiết kiệm thời gian cho con người phải giải thích nhiều lần về nền tảng cho máy. Tầm quan trọng của nhận định này là đối với các doanh nhân, việc đào tạo theo mô hình một lần không còn là con hào duy nhất. Xây dựng một "khai thác dữ liệu" cho phép AI hiểu sâu sắc về môi trường kinh doanh của người dùng là tài sản thực sự lâu dài.

Khi chi phí “thực thi” giảm xuống bằng 0, sự chú ý của con người sẽ trở thành nguồn lực khan hiếm nhất trong toàn bộ nền kinh tế. Khi Agent (thông minh) có thể làm việc tự chủ, thậm chí chủ động báo cáo cho người quản lý trên Slack vì tiến độ công việc chậm, năng lượng của con người sẽ hoàn toàn chuyển từ “làm việc” sang “đánh giá xem việc này có phù hợp với giá trị của mình hay không”. Nhận định này rất phản trực giác: nút thắt cổ chai không còn là máy không thể tính toán đủ nhanh mà là tốc độ xác nhận chữ ký của con người không thể theo kịp tốc độ đầu ra của máy và con người đã trở thành bước giới hạn tốc độ của hệ thống.

Cơ cấu tổ chức doanh nghiệp truyền thống sẽ bị phá bỏ hoàn toàn, trong tương lai sẽ có kỷ nguyên "doanh nghiệp cá nhân" nơi một người cai trị hàng nghìn Đại lý. Các cá nhân trên Internet đang sử dụng các mô hình hàng đầu để giải các bài toán mà trước đây yêu cầu cả nhóm nghiên cứu phải giải quyết, điều đó có nghĩa là cốt lõi của cuộc thi đã thay đổi từ "đối đầu" sang "điểm vào duy nhất". Điều này báo trước một cơ cấu quyền lực mới: các công ty trong tương lai có thể cực kỳ phẳng, và bất kỳ ai có tầm nhìn đều có thể điều khiển một nhóm trí tuệ khổng lồ giống như một CEO quản lý 100.000 nhân viên.

AI đang chuyển từ thế giới kỹ thuật số sang thế giới vật chất, mở ra thời kỳ phục hưng trong nghiên cứu khoa học. Mô hình của OpenAI gần đây đã rút ra một công thức vật lý cung cấp bằng chứng quan trọng cho việc tìm kiếm lực hấp dẫn lượng tử của các nhà vật lý, một lý thuyết cố gắng thống nhất cơ học lượng tử vi mô và thuyết tương đối rộng vĩ mô. Nhận định này khẳng định rằng AI không còn chỉ xử lý các ký hiệu kỹ thuật số gọn gàng mà nó đang học cách đối phó với sự phức tạp và lộn xộn của thế giới thực, và con người sắp mở ra một kỷ nguyên khám phá khoa học được hỗ trợ hoặc thậm chí bị thống trị bởi máy móc.

Cuối cùng, chúng ta sẽ tạm biệt trạng thái tự nhiên cần phải "phục tùng" máy móc này và quay trở lại cuộc sống nhân văn được thúc đẩy bởi các mục tiêu. Cơ thể con người không được thiết kế để ngồi trước màn hình và gõ phím trong thời gian dài. Trong tương lai, sự tương tác sẽ chuyển từ nhập hướng dẫn sang thể hiện tầm nhìn, cho phép máy móc đạt được mục tiêu của chúng ta như những người hầu. Nhận định này dẫn đến một kết luận sâu sắc: Mục đích cuối cùng của AGI không phải là làm cho con người giống máy móc hơn mà là để máy móc đảm nhận mọi công việc không phải của con người và trả lại thời gian của con người cho cảm xúc và tương tác xã hội.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Khi máy móc có thể làm tất cả công việc cho bạn, khả năng cạnh tranh và giá trị duy nhất của bạn sẽ không còn là những gì bạn có thể làm mà là những gì bạn muốn và liệu bạn có thể đánh giá liệu máy móc có làm đúng hay không.

Demis Hassabis: 3/4 chặng đường đến AGI (CEO DeepMind & Người đoạt giải Nobel Hóa học năm 2024)

Diễn giả Demis Hassabis là người đồng sáng lập và Giám đốc điều hành của Google DeepMind và là người đoạt giải Nobel Hóa học năm 2024. Anh ấy là một kiện tướng cờ vua khi còn là một thiếu niên, và sau đó chuyển sang thiết kế trò chơi và khoa học thần kinh nhận thức để lấy bằng Tiến sĩ. DeepMind đã sản xuất AlphaGo (đánh bại nhà vô địch cờ vây thế giới Lee Sedol), AlphaFold (đã giải được bài toán gấp protein 50 năm tuổi) và loạt mô hình lớn Gemini. DeepMind là người duy nhất hiện nay đồng thời lãnh đạo một phòng thí nghiệm AI lớn và đã đoạt giải Nobel.

Nền tảng thấp nhất của vũ trụ là "thông tin", không phải vật chất hay năng lượng. Diễn giả lập luận rằng có sự tương đương giữa vật chất, năng lượng và thông tin, và việc xử lý thông tin là quan điểm cần thiết nhất để hiểu được vạn vật (đặc biệt là các sinh vật chống lại sự gia tăng entropy). Tầm quan trọng của nhận định này là nó nâng AI từ một công nghệ máy tính thuần túy lên trạng thái siêu công cụ để khám phá bản chất của thực tế, điều đó có nghĩa là việc xây dựng AI là tái tạo lại sự hiểu biết của con người về logic vận hành của vũ trụ.

AGI là một "dự án khoa học 20 năm" với mục tiêu rõ ràng và tiến độ từng bước. Khi DeepMind được thành lập vào năm 2010, nó đã thiết lập tầm nhìn "giải quyết trí thông minh ở bước đầu tiên và sử dụng trí thông minh để giải quyết mọi thứ ở bước thứ hai", và sự phát triển hiện tại của nó hoàn toàn phù hợp với những dự đoán vào thời điểm đó. Điều này phá vỡ ảo tưởng rằng "sự bùng nổ của AI là ngẫu nhiên" và ủng hộ rằng sự xuất hiện của AGI là kết quả tất yếu của kế hoạch khoa học dài hạn, chứ không phải là sự may mắn hay cường điệu về vốn kiểu Thung lũng Silicon.

Sự tích hợp giữa Học sâu và Học tăng cường (học tăng cường, đề cập đến việc cho phép máy học các chiến lược một cách tự chủ thông qua phần thưởng phản hồi) là một con đường nhất định dẫn đến AGI. Trong những năm đầu, giới học thuật đã tách biệt hai lĩnh vực này, nhưng diễn giả nhấn mạnh rằng sự kết hợp này sẽ cho phép AI học logic chung từ các trò chơi mà con người không có kiến ​​thức trước đó. Khẳng định của nhận định này là bằng cách "tổng hợp" lợi thế của các lĩnh vực kỹ thuật khác nhau, AI có thể nhảy vọt từ việc giải các trò chơi giải đố đơn giản sang xử lý độ phức tạp vô hạn của thế giới thực.

AI sẽ thay thế toán học truyền thống và trở thành "ngôn ngữ mô tả cấp thấp hơn" cho các hệ thống mới nổi phức tạp như sinh học. Mặc dù toán học có thể mô tả hoàn hảo các định luật vật lý, nhưng sức mạnh biểu đạt của nó không đủ khi đối mặt với những hệ thống như sinh học chứa đầy tín hiệu yếu và dữ liệu lộn xộn. Nhận định này phản trực giác chỉ ra: Chúng ta không cần phải ép mình sử dụng những phương trình đơn giản để mô tả cuộc sống. AI có thể trích xuất trực tiếp các quy luật tự nhiên mà con người không thể hiểu được bằng trực giác bằng cách mô phỏng các tương tác phức tạp.

Thành công của AlphaFold đánh dấu rằng AI đã đạt được "sự thay đổi mô hình nhảy vọt" trong lĩnh vực khoa học đời sống. Công cụ này giải quyết vấn đề gấp protein đã gây khó khăn cho nhân loại trong 50 năm, khiến việc phát triển thuốc có thể chuyển từ mô hình Phòng thí nghiệm ướt truyền thống (ám chỉ phòng thí nghiệm dựa vào thuốc thử hóa học và thí nghiệm vật lý) sang mô phỏng kỹ thuật số. Điều này có nghĩa là trong tương lai, có thể không còn mất 10 năm để phát triển các loại thuốc mới mà rút ngắn xuống còn vài ngày hoặc thậm chí vài giờ, giải phóng hoàn toàn con người khỏi những thử nghiệm và sai sót sinh học gian khổ và kém hiệu quả.

Các thiết bị mô phỏng có độ chính xác cao sẽ biến khoa học xã hội thành "khoa học cứng" có thể được thử nghiệm nhiều lần. Bằng cách xây dựng môi trường mô phỏng bằng cách học hỏi các mô hình thế giới, con người có thể lấy mẫu hàng nghìn lần về chính sách kinh tế hoặc các vấn đề về môi trường và năng lượng mà không làm ảnh hưởng đến thực tế. Điều này ủng hộ một tương lai phản trực giác: các quyết định ban đầu chứa đầy sự không chắc chắn, chẳng hạn như điều chỉnh lãi suất, sẽ trở nên chính xác như các thí nghiệm kỹ thuật trong việc dự đoán kết quả, giúp giảm đáng kể chi phí rủi ro của quản trị xã hội.

Trước khi khám phá xem một cỗ máy có ý thức hay không, trước tiên nó phải được chế tạo thành một "công cụ siêu khoa học" cực kỳ chính xác. Diễn giả chủ trương sử dụng AGI, một “kính viễn vọng thông minh”, để quan sát và xác định ngược lại Ý thức và khả năng tự nhận thức của bộ não con người. Tầm quan trọng của nhận định này là nó đặt ra ưu tiên nghiên cứu khoa học hợp lý, tức là trước tiên giải quyết nút thắt về năng suất, sau đó sử dụng khả năng nhận thức được cải thiện để khắc phục những vấn đề triết học sâu sắc nhất của nền văn minh nhân loại.

Nhân loại đang ở quý cuối cùng của hành trình AGI và năm 2030 sẽ là bước ngoặt trong quá trình phát triển của nền văn minh. Từ những trò chơi board đầu tiên cho đến khả năng khép kín vòng lặp nghiên cứu cấu trúc protein ngày nay, AI đã chứng tỏ khả năng xử lý các nhiệm vụ cực kỳ phức tạp với mức độ không chắc chắn cao. Điều này ủng hộ một phán quyết khẩn cấp: thời gian đếm ngược đến sự xuất hiện của AGI đã bước vào, chúng ta đang ở giai đoạn chạy nước rút của chặng đường 20 năm và xã hội phải sẵn sàng cho một sự chuyển đổi toàn diện trong 5 năm tới.

Nếu bạn chỉ có thể nhớ một điều về cuộc trò chuyện này thì đó sẽ là gì?

Chúng ta đang ở chặng nước rút cuối cùng hướng tới siêu trí tuệ. Mục tiêu cuối cùng của AI không phải là bắt chước cuộc trò chuyện của con người mà trở thành cỗ máy khoa học mạnh mẽ nhất giúp con người phát minh ra các loại thuốc mới hoặc giải mã bí mật của vũ trụ trong vòng vài ngày.

Lập trình và thay đổi tổ chức

Boris Cherny của Anthropic: Lập trình đã được giải quyết, Cấp độ tiếp theo là Tổ chức

Diễn giả Boris Cherny Người tạo ra Claude Code, một công ty Anthropic. Claude Code là một công cụ lập trình dòng lệnh được phát hành vào năm 2025. Nó được cộng đồng nhà phát triển đánh giá là một trong những trợ lý lập trình AI mạnh mẽ nhất hiện nay và cũng là sản phẩm chủ chốt khơi dậy khái niệm "kỹ thuật tác nhân".

Trở ngại lớn nhất đối với việc phát triển phần mềm hiện nay là "Sản phẩm nhô ra" khi giao diện UI không thể theo kịp khả năng của mô hình. Trước đây, trợ lý mã chỉ có thể thực hiện việc hoàn thành một dòng đơn giản, nhưng giờ đây mô hình này hoàn toàn có khả năng đảm nhận các nhiệm vụ phát triển vòng kín của toàn bộ dự án. Điều này có nghĩa là các nhà phát triển phải chuyển từ “vá các giao diện cũ” sang xây dựng các sản phẩm mới mang tính tác nhân (thông minh, đề cập đến các mô hình có thể tự động thực hiện các nhiệm vụ nhiều bước và nhận biết môi trường). Nếu không, con người sẽ không thể phát huy được tiềm năng năng suất thực sự của AI.

Đối với các nhà phát triển hàng đầu, "kỷ nguyên thủ công" của việc viết mã thủ công đã kết thúc. The speaker realized that 100% of the code was generated by the model through Claude Code, and set a personal record of completing 150 PR (Pull Requests, merge code requests) in a single day. This suggests a counter-intuitive conclusion: AI is no longer a "co-pilot" assisting you, but a main force that can independently deliver results. The role of humans in engineering has completely evolved from "bricklayers" to "project reviewers."

In the era of AI intelligence explosion, the secret to success is to develop products for the "next generation model" rather than adapting to the status quo. Claude Code did not obtain PMF (Product Market Fit) in the first six months of its release. It was not until the release of the more powerful Opus 4 model that the product experience ushered in a qualitative change. This shows that entrepreneurs must anticipate and wait for a leap in intelligence, because this "sudden change in model capabilities" will instantly turn an originally mediocre tool into a powerful tool for reshaping the industry.

Loop (loop, which refers to allowing the model to run autonomously and regularly and give feedback) will replace the dialog box and become the ultimate paradigm of human-computer collaboration. Models can now use cron (a system tool that schedules tasks) to autonomously schedule repetitive work, such as automatically fixing test errors, completing code refactoring, or organizing user feedback every 30 minutes. This means that the future workflow will no longer rely on humans staring at the screen to issue instructions, but on establishing a team of digital experts that can operate on their own 24 hours a day without supervision.

AI is eliminating the barriers of a single technology stack and giving rise to interdisciplinary "super general talents." Within the Anthropic team, everyone is using agents for professional programming development, whether they are financial executives, designers, or researchers. This heralds a shift in career paradigm: the "technical depth" of mastering a specific programming language will rapidly depreciate, while the "cross-border breadth" of product awareness, design aesthetics and industry insights will become the core scarce resource in the future.

The traditional software business moat is facing a complete collapse due to the "willpower" possessed by AI. The model now has a strong hill climb ability (hill climbing iteration, which refers to continuous self-feedback until the goal is achieved), and can independently figure out and execute any complex business process. This hints at the coming of the "SAS Apocalypse": software that relies solely on process automation to survive will lose value, because AI can generate customized alternatives for each person at any time based on the user's goals.

Programming is ushering in its "printing press moment", transforming from an elite skill to a universal "literacy" ability. Just as the advent of the printing press in the 15th century allowed literacy rates to leap from 10% to 70%, AI will make programming as easy and natural as texting. This advocates a profound point: the best person to write financial software in the future will no longer be programmers, but the accountants who best understand business logic. This takeover of power by "domain knowledge" is the most complete democratization.

The real long-term leading advantage of an enterprise is no longer the model version, but the degree of "AI nativeness" of its organizational structure. Anthropic has internally implemented different Agents to communicate with each other and collaborate autonomously on Slack, completely abandoning the old organizational process of manually writing code. This reveals a cruel truth: the difference between you and the front-runners is not whether you have a model, but whether you are willing to completely reinvent the wheel and reorganize the company's operating logic in order to adapt to the speed of AI.

If you could only remember one thing about this conversation, what would it be?

In the future, writing code will become as easy as sending a text message, and everyone can easily make an app. At that time, the most valuable thing will no longer be whether you can write code, but whether you understand the industry.

Physical World and Interface

NVIDIA’s Jim Fan: The End of Robotics

The speaker, Jim Fan, is NVIDIA Senior Researcher and Robot AI Project Leader (Project GR00T). An early member of OpenAI, Ph.D. from Stanford Li Feifei Laboratory, is one of the most watched researchers in the field of basic robot models. Active on Twitter, he is often seen as a robot version of "Karpathy" - doing both research and industry evangelism.

Robotics must "copy LLM's homework" and use the prediction of the next frame of the physical world as the core logic of evolution. Just as language models master human thinking by predicting the next token (text fragment), robots should also learn the laws of reality by predicting the physical world state. The proposition of this judgment is that we should no longer hand-write rules for robots, but should regard it as a generative problem, allowing robots to spontaneously generate intelligence by "simulating the evolution of the physical world."

The existing "top-heavy" visual language model must be replaced with a WAM (World Action Model). Current VLMs (Visual Language Models) are good at understanding nouns and knowledge, but lack an intuitive feel for physical laws and verbs (such as moving a cup). The importance of this judgment is that WAM treats vision and movement as "first-class citizens", giving robots the ability to "see a few seconds into the future and act accordingly" to solve complex tasks that have never been seen in training.

Large-scale video pre-training is actually a cheap alternative to some kind of "physical simulator". In the process of predicting massive video pixels, the model spontaneously learns complex physical properties such as gravity, buoyancy, and light and shadow reflection without any manual programming. This argues for a counter-intuitive conclusion: we don’t need sophisticated physics equations, just let the AI ​​watch enough “video slop” and it can subconsciously construct real physical intuitions.

Teleoperation (remote operation, which refers to a person wearing a device to manually control a robot) is becoming the biggest obstacle to the large-scale production of robots. Due to the physical time limit of human experts, this expensive and painful data collection method has a hard upper limit of "24 hours per day per robot." The assertion of this judgment is that the bottleneck must be broken through Sensorized human data (sensorized human data), so that robots can learn directly from human daily behaviors instead of relying on expensive "hand-in-hand teaching."

Robot dexterity also follows Scaling law, and intelligence depends on the number of hours of pre-training. The study found that there is a clear logarithmic linear relationship between the robot's task success rate and the length of first-person perspective video training invested. The importance of this judgment is that it proves that "robot intelligence" is no longer an unquantifiable black box, but a predictable function of computing power and data. An exponential leap in capabilities can be achieved by investing tens of millions of hours of video data.

The future training environment will shift from classic physics engines to purely data-driven "neural simulators". Traditional simulators require manual modeling, but technologies such as Dream Dojo can directly generate sensory states based on motion signals, realizing "computing as environment." This means that we no longer need to build a million physical laboratories. We only need to use powerful inference computing power to allow AI to perform tens of millions of parallel reinforcement learning in its "dream", thus greatly reducing research and development costs.

Through the Physical API (physical interface), the robot will be commanded and configured by code just like a software application. The factories of the future will evolve into "Lights-out factories." Just enter a Markdown file describing the product design, and the robot cluster can autonomously coordinate and print out physical products at the atomic level. This proposition heralds a counter-intuitive future: hardware manufacturing will no longer be an asset-heavy industry, but a standardized service that can be flexibly scheduled by software.

2040 will usher in automatic research on the physical level, and robots will begin the ultimate process of "self-iteration." When robots can independently design, improve and manufacture the next generation of robots, the role of humans as a bottleneck in technological evolution will completely disappear. The assertion of this judgment is: considering the exponential nature of technological development, we are at the last station of unlocking the "evolutionary tree of civilization" in robotics. This leap will be more rapid and violent than the evolution from cat and dog recognition to AGI.

If you could only remember one thing about this conversation, what would it be?

In the past, robots needed to be taught by humans. In the future, they will only need to watch tens of millions of hours of videos of humans working before they can learn all complex skills and start making themselves.

Waymo CEO Dmitri Dolgov: The road to 20 million self-driving rides

The speaker, Dmitri Dolgov, is the co-CEO of Waymo and the founder of the technical school. A Russian-American, he is a core member of Stanford University’s participation in the DARPA Grand Challenge (an early self-driving challenge organized by the U.S. Department of Defense). He joined the Google self-driving project in 2009 and is the chief designer of Waymo’s technical roadmap. In the two decades of ups and downs in the autonomous driving industry, there are only a few veterans who have persisted from the first day to reach 20 million rides.

Waymo is an autonomous driving company owned by Alphabet (Google’s parent company). It was launched as a secret Google project in 2009 and became independent in 2016. It is currently the only company in the world that operates Robotaxi on a large scale in multiple cities without safety personnel, and has completed a total of 20 million self-driving rides. The technical route is different from Tesla - insisting on LiDAR + high-precision map + modular architecture.

There is a misunderstanding in the autonomous driving industry that is “easy to learn but difficult to master”. Early explosive growth often masks the cruelty of long-tail challenges. Many teams fell into optimism after obtaining initial technological breakthroughs, but Dmitri believes that this "sweet first and then bitter" characteristic makes it extremely difficult to transform the technology into a truly safe product that surpasses human performance. The assertion of this judgment is that the real threshold for AI to be implemented in the real world does not lie in the first 90% of functional demonstrations, but in whether it can maintain endurance in the remaining 10% of complex long-tail scenarios. This is the fundamental reason why most competitors disappear.

In areas involving human life, "security" must be an insurmountable underlying belief, rather than a functional option that can be weighed. One person dies in a car crash every 26 seconds around the world, prompting Waymo to treat safety as a non-negotiable foundation that is built into the architecture from day one.这主张了一个反直觉的结论:在追求速度和突破的硅谷文化中,只有那些「有耐心」建立极高安全阈值的企业,才能在技术幻灭期存活并最终赢得公众信任。

单纯的端到端学习架构尚不足以支撑极端安全需求,必须引入结构化表示进行「增强」。虽然 Waymo 也使用 E2E(End-to-End,指直接从传感器输入到决策输出的单一模型),但他们额外增加了结构化的中间表示层,以实现运行时的实时验证。这一判断的重要性在于:它打破了「模型越大越好」的盲目崇拜,主张通过架构上的严谨性来确保 AI 决策的可解释性,从而实现超越人类的安全性。

真正的 AI 驾驶系统应是一个集驾驶、模拟与评估于一体的闭环生态。 Waymo 的 Foundation Model(基础模型)同时驱动着驾驶员、模拟器和评判员三个核心支柱,使系统能够理解物理世界的动态规律。这主张了一个核心观点:AI 的进化不应只依赖外部路测,而应通过内部的物理模拟实现「自我进化」,在虚拟空间中穷尽所有人类从未见过的极端险境。

AI 能够通过捕捉微弱的物理信号展现出超越人类感知的「预知」能力。 Waymo 曾通过 LiDAR(激光雷达,利用激光脉冲探测物体距离的传感器)捕捉到大巴车下方极其微弱的足部反射,从而提前预判并避开了视线外的行人。这一判断反直觉地证明:AI 并非在单纯模仿人类司机的直觉,而是在利用超越人类物理极限的感知维度,构建一种「透视」般的上帝视角来确保安全。

自动驾驶技术已完成「从实验室到基建」的跨越,进入指数级扩张的商业闭环。 Waymo 花了 8 年才在 4 个城市提供服务,但最近能在 1 天内上线 4 个新城,且订单量在 7 个月内翻倍,突破了 2000 万次。这意味着技术已经具备了极强的通用性,不再需要针对每个新城市进行漫长的调试,自动驾驶正在像软件更新一样实现跨地域的快速复制。

当「驾驶」任务被 AI 彻底解决后,汽车的竞争终点将是乘客的空间体验。第六代 Waymo 硬件完全围绕乘客体验设计,取消了驾驶员中心的布局,转而打造出带自动滑门的「移动客厅」。这一判断主张了商业逻辑的根本转型:未来的汽车不再是操控工具,而是服务的物理容器,其核心价值将从「如何到达」转向「在路上的时光如何度过」。

AI 带来的社会红利应以挽救生命的「硬指标」作为最终的衡量尺度。数据显示 Waymo 的安全性已比人类高出 13 倍,这意味着规模化运营每 8 天就能在严重事故中多挽救一条生命。这个观点反直觉的地方在于:我们往往关注 AI 带来的便利,但它真正的价值杠杆在于通过超越人类的稳定性,直接对冲掉了人类作为驾驶员时的致命弱点。

如果只能记住这场对话的一件事,是什么?

无人驾驶车现在已经比人开车安全 13 倍了,而且它们正在以飞快的速度进入更多城市,以后开车这件事会彻底变成过去式。

ElevenLabs 创始人:语音成为 AI 的首要接口

ElevenLabs 是全球最受关注的 AI 语音合成公司,由两位波兰人 Mati Staniszewski(前 Palantir 战略)和 Piotr Dabkowski(前 Google 机器学习工程师)于 2022 年创立。创业灵感来自波兰译制片"所有角色都是同一个男声配音"的传统。其声音克隆和情感化语音合成技术目前业内领先,被广泛用于有声书、播客、跨语言翻译。最有名的展示是阿根廷总统米莱跨语言保持同一副声线的视频。截至 2026 年估值约 33 亿美元。

音频曾是长期被忽视的 AI 利基赛道,通过在冷门领域深耕能以较低算力成本实现快速超车。在 2022 年大模型混战时,多数人专注于文本或视觉,而音频对 compute(计算资源)的需求相对较低,允许初创公司独立成长。这一判断的主张在于:创业者不必卷入耗资千亿的算力军备竞赛,只要找准技术门槛尚未被大厂推平的垂直领域,就能通过极高的研发效率建立先发优势。

情绪与非言语细节(如笑声、停顿)是打破「恐怖谷效应」的关键,而非单纯的文字转译。 ElevenLabs 通过复刻呼吸频率和自然的笑声,让模型从机械的播报跃迁为具备人性的表达。这一判断的重要性在于:声音的本质是情感载体,单纯复刻音色只能解决「像不像」的问题,只有复刻那些人类无法直觉描述的交互逻辑,才能真正建立机器与人之间的信任。

Agent(智能体)的进化终点是具备「情感理解力」 ,能根据对方状态实时调整沟通策略。讲者正在研发能识别用户压力并给出 reassuring(安抚性)语气的交互模型,让机器学会匹配对方的语速和情绪。这主张了一个反直觉的转变:语音交互不再是冷冰冰的指令执行,而是一场心理共鸣,这意味着未来的语音 AI 将具备比人类更稳定的同理心来处理极端冲突。

Audio General Intelligence(音频通用人工智能)将消除语音与音乐的鸿沟,实现全模态音频流的无缝切换。理想的模型应当能在一段连续的流中从朗读自然过渡到唱歌,且保持音色和人格的一致性。这主张了一个技术跨越:音频不再是零散的工具库,而是一个统一的创作引擎,这种连续性将彻底改变播客、影视后期以及沉浸式娱乐的制作范式。

语音智能体正从「省钱工具」升级为「赚钱工具」,直接重塑企业的收入增长曲线。 Deliveroo 等公司已利用语音 agent 自动联系餐厅并挖掘 inbound(入站,指客户主动拨入)销售电话中的潜在商业机会。这主张:语音 AI 的商业价值不再是替代客服以削减开支,而是通过 24/7 不间断的主动沟通和数据分析,成为驱动业务增长的销售先锋。

语音将成为人类与万物智能连接的「主入口」,尤其是在人形机器人普及的未来。当机器人和各种智能设备环绕人类时,语音是最自然的 instruct(指令)和交互方式。这一判断的重要性在于:语音并非屏幕交互的补充,而是通往复杂智能的真正瓶颈,掌握了语音接口就等于掌握了控制物理世界的终端遥控器。

未来企业的核心效率取决于能否在法律、财务等非技术团队中强制嵌入工程师资源。 ElevenLabs 即使只有 400 人也坚持在法务和运营团队安排专职工程师来开发自动化系统。这主张了一个组织变革:在 AI 时代,非技术人员也必须学会 vbe coding(指利用 AI 工具快速编写代码)来解决琐事,而工程师则负责将这些零散的自动化连接成坚固的业务系统。

在 AI 泛滥的未来,身份验证将比内容生成更稀缺,信任将从声音本身转移到安全证书上。当任何人都能完美复刻音色时,我们需要通过 watermark(水印,用于标识内容的隐形标记)机制来证明对面是真的你。这推导出一个反直觉结论:我们不再需要费力区分 AI,而是需要一套「可信 AI」的认证标准,未来最有价值的不再是你的声音,而是你对声音的授权凭证。

如果只能记住这场对话的一件事,是什么?

以后说话的声音真假不再重要,重要的是你能不能证明那个正在打电话定餐厅或开会的 AI 真的代表你本人。

安全前沿

XBOW:自主 AI 黑客的崛起

XBOW 是 AI 网络安全初创公司,开发能自主发现和利用漏洞的 AI Agent。 2024 年 8 月,XBOW 的 Agent 在全球最大白帽黑客平台 HackerOne 上登顶排行榜,是 AI 首次在实战中超越顶级人类黑客的标志性事件。其"模型合金"(Alloy)策略——在攻击的每一步交替调用 Claude、Gemini 等不同模型——是该领域的代表性工程实践。

网络安全已从「人的技艺对决」进化为「系统的优化竞赛」,传统防御模式正面临毁灭性打击。 1575 年日本织田信长用火枪阵系统性地击败了看似无敌的武士骑兵,正如今天的 AI 系统正在降维打击依赖人类经验的旧防线。这一判断的主张在于:安全竞争的本质已经改变,不再比拼谁拥有更天才的黑客,而看谁能率先将防御体系彻底 AI 自动化。

即使是防守最严密的顶级系统,在廉价且高效的自主 AI 面前也形同虚设。 XBOW 的智能体仅凭一个 URL 并在花费 3000 美元成本的情况下,就攻破了微软 Bing 的 RCE(Remote Code Execution,允许在目标系统上运行任意代码的最严重漏洞)。这主张了一个反直觉的真相:即便是被全球黑客锤炼过的「堡垒」,在不知疲倦、能自动进行侦察和优先级排序的 AI 面前,其安全成本已降至冰点。

AI 已经具备了超越全球顶尖人类黑客的实战能力,而非仅仅是辅助工具。在 HackerOne(连接企业与安全研究人员的众测平台)上,XBOW 的机器人完全通过黑盒测试(在不了解内部代码的情况下进行攻击)拿下了全球排名第一。这打破了「机器无法处理复杂创造性攻击」的迷思,证明 AI 已经从「提供建议的助手」进化为能独立交付攻击结果的「自主战士」。

通过「模型合金」策略,AI 能够通过自我修正实现 1+1>2 的进化效果。 XBOW 在每一步攻击动作中交替调用 Gemini 和 Sonnet 等不同模型(Alloy 模式),利用模型间的差异来补偿彼此的逻辑错误。 The importance of this judgment is that the path to the most powerful hacker AI does not necessarily have to wait for the emergence of a single perfect model. Through a reasonable engineering structure, existing models can be coordinated to produce destructive power far beyond that of a single model.

真正的安全威胁源于「可利用的真实冲击」,而非代码审计发现的理论漏洞。 Traditional white-box testing (analysis performed with source code permissions) often only lists a large number of vulnerabilities, but cannot determine whether they can actually be illegally hacked, while autonomous AI can give clear answers through actual combat simulations. This suggests a critical shift: defenders must stop struggling with the deluge of "fake vulnerability reports" and instead focus on the real fatal points that can lead to server takeover.

漏洞补丁的生存窗口已经彻底闭合,攻击行为正发生在漏洞被公众知晓之前。 In the past, there was a two-year lag between the release of CVE (Common Vulnerabilities and Exposures, a list of publicly disclosed security vulnerabilities) and their exploitation. Today, this number has become a "negative number", that is, vulnerabilities have been exploited by AI in batches before they are officially confirmed. This leads to an urgent conclusion: the defense strategy that relies on "waiting for patches" is bankrupt, and proactive automated defense has become the only way to survive.

AI 的崛起并非网络安全行业的终结,而是对其防御价值的极限重塑。面对 AI 驱动的自动攻击,传统的网络安全股票下跌是毫无逻辑的,因为社会现在比任何时候都更需要 AI 驱动的防御手段来抗衡 AI 攻击。 This judgment asserts that we are in an existential arms race, and the only antidote is to empower human researchers with stronger AI to pick out all the cracks before the bad guys act.

全社会仅剩不到一年的时间来修补全球数字基建,否则将面临灾难性的后果。 Thanks to the advancement of open-weight models (AI models with publicly available weights that can be run locally), the most powerful autonomous hacking capabilities will be globally available within 6 to 9 months. This counter-intuitive judgment is an ultimatum: if defense automation cannot be completed within this extremely short window period, the global Internet system will face an unprecedented security winter during the holidays in the near future.

如果只能记住这场对话的一件事,是什么?

现在的 AI 已经能像世界排名第一的黑客那样自动攻破顶级网站,而且这种能力在不到一年的时间里就会变得随处可见,如果你不赶紧用 AI 来自动修补漏洞,你的系统很快就会被彻底打穿。

算力与硬件的边缘押注

Recursive Intelligence:AI 设计芯片的自动化变革

Recursive Intelligence 是由 Anna Goldie 和 Azalia Mirhoseini 创办的 AI 芯片设计公司。 The two previously co-invented AlphaChip at Google Brain - a system that uses reinforcement learning to automatically design chip layout, which has been used in Google's fourth generation TPU and Pixel mobile phone chips. They are trying to turn "AI design chips" into an industrial-level change like TSMC's start of the fabless era - proposing the "Designless" concept, allowing customers to only submit workload requirements, and the platform automatically generates manufacturable chip designs.

人类专家已成为芯片迭代的拖累。 The current physical design and logic verification each take a year and use thousands of experts. This inefficiency directly leads to huge business losses. At a time when every day of delay in NVIDIA Blackwell chips means a loss of $225 million in opportunity costs, traditional design patterns that rely on human experience are becoming the biggest obstacle to AI progress.

必须开启 AI 与物理底层的递归进化闭环。 Optimizing chip design through AI and then using stronger chips to train stronger models will completely break the disconnect between software and hardware.这种「递归自我改进」判断的主张在于:芯片不应只是静态的燃料,而应成为 AI 进化链条中能够根据软件反馈自动调整的动态执行端。

AI 在复杂布局任务上展现出「超人」能力。 Chip layouts generated by the Alpha Chip agent have been tape-out (the final test submitted to the factory for actual manufacturing) in multiple generations of TPU and Pixel phone chips. This judgment breaks the myth that "hardware design requires human intuition" and proves that reinforcement learning can solve the problem of stacking billions of components more perfectly than the most experienced engineers.

芯片设计工具需要 100,000 倍的提速来喂养 AI。 Traditional commercial tools can take days to run an optimization, which puts an end to AI that requires millions of attempts to evolve. The significance of this magnitude of speedup is that it is not just "faster", but allows AI to rapidly iterate and learn exponentially in a massive design space at an unprecedented speed.

高保真的实时反馈是实现自动化设计的引擎。 Recursive developed SPA (Static Timing Analysis, a static timing analysis engine used to verify whether electrical signals arrive on time) that is 1,000 times faster than existing tools. This real-time feedback signal is crucial to reinforcement learning (RL), which allows the AI ​​to immediately know the impact of each change on performance during the optimization process, allowing it to make more accurate decisions.

芯片行业将迎来「无设计(Designless)」时代。 Just as TSMC has ushered in the "Fabless" era, future platforms will allow users to simply enter a workload (specific task requirements for model operation) to generate a design ready for manufacturing. This means that custom chips will no longer be the preserve of large companies, and any company with a large-scale task can skip the process of building a team of thousands of experts.

在 AGI 规模下,1% 的微小改进具备巨大的商业杠杆效应。 As the computing power consumption of frontier models increases exponentially, even slight improvements in hardware performance will translate into astronomical cost reductions. What’s counterintuitive about this view is that the marginal benefits brought about by the pursuit of extreme customization will be amplified by the scale effect in the AI ​​era to the extent that it can reshape the company’s competitiveness.

最高效的物理设计在人类看来往往是「怪异」的。 The AI-generated chip layout showed an organic curved shape, which shocked traditional engineers accustomed to neat and square designs. This suggests a counter-intuitive conclusion: Humans’ aesthetic preference for rules and symmetry actually limits chip performance, and the true physical optimal solution often exists in an “alien space” that transcends human aesthetic intuition.

如果只能记住这场对话的一件事,是什么?

以后造芯片不再需要成千上万名专家熬夜画图,只要把你的需求告诉 AI,它就能在几分钟内设计出比人类手画得更高效、更省电的「怪异」电路。

Starcloud:最便宜的算力在太空

Starcloud 是太空数据中心初创公司,主张把 AI 训练和推理算力直接送上轨道——零土地成本、24/7 全天候光照、能量密度是地面 8 倍。 has partnered with NVIDIA to develop the H100 chip that can operate in space.

地球数据中心正面临土地准入与储能成本带来的经济性瓶颈。 In North America, the largest expense for building a ground-mounted solar project is the land permit fee, followed by the huge battery array to prepare for night-time power outages. This judgment reveals that the real bottleneck of AI computing power is not the chip itself, but the expensive "physical space tax" and intermittent energy supply in the earth's environment, which makes it difficult to completely reduce energy costs on the ground.

太空是唯一能提供零土地成本且 24/7 不间断能源的终极计算场。 In space, data centers don’t need to pay for land or expensive battery storage because satellites in “perpetual daylight” orbits capture sunlight at all times. Speakers argued that space is not a luxury at the cutting edge of science, but a cost-cutting solution to address the huge appetite for AI, since solar panels in space are eight times more efficient than those on the ground.

最先进的民用 GPU 已经证明可以在极端辐射与真空散热环境下稳定运行。 Starcloud 1 成功在轨道上运行了 NVIDIA H100 芯片并训练了 nanoGPT(一种小型生成式预训练模型),打破了「太空电子元件必须使用老旧抗辐射芯片」的迷思。这标志着人类首次能将最顶级的 terrestrial(地面等级)算力直接部署在近地轨道,彻底消除了太空计算的技术隔离。

火箭发射成本的指数级下降正迅速把「太空算力」从科幻变为最实惠的现实。当发射成本降至每公斤 500 美元以下时,太空计算的综合成本将低于地面;而 Starship(星舰,SpaceX 的重型运载火箭)的设计目标是每公斤 10 到 20 美元。这一判断的重要性在于:去往太空的「门票」已不再昂贵,这让太空计算不再是卫星专用,而是能承载全球范围的大规模计算任务。

散热而非电力,将成为决定太空数据中心规模的最终物理约束。由于太空是真空环境,热量只能通过红外辐射散发,这需要通过 Stefan-Boltzmann equation(斯特藩-玻尔兹曼定律,描述黑体辐射功率与温度四次方成正比的物理定律)计算出巨大的散热面积。这意味着未来的太空计算架构将由散热器面积定义,而非单纯的能源输入,散热效率直接决定了系统的紧凑程度。

未来的高端 AI 芯片将为了适应太空而牺牲低温稳定,转而追求「耐高温」性能。 NVIDIA 正在研发 Space Reuben 1 芯片,旨在不提高故障率的前提下提升运行温度,以大幅减少散热器的质量。这主张了一个反直觉的趋势:为了减轻发射载荷,芯片设计者开始利用物理定律的四次方效应,通过让芯片「发烧」来换取更轻、更高效的卫星架构。

太空星座将成为全球 inference 任务的最高效引擎,而非仅作为数据中转站。 Starcloud 计划部署 8.8 万颗卫星构建 20 GW 的算力集群,通过光学链路实现全球低于 50 毫秒的延迟,专门支持代码生成等 agent(智能体)任务。这预示着太空将从「信息的搬运工」进化为「答案的生产者」,直接在距离用户最近的轨道完成智能决策的计算。

向太空大规模迁移算力是人类文明迈向「戴森球」阶段的起跑点。建设 20 GW 规模的太空基础设施不仅是商业布局,更是人类开启 Type 2(二级,指能利用恒星全部能量的文明等级)文明建设的开端。这一判断的主张极其宏大且反直觉:我们正处于人类历史上最大基础设施建设的元年,这标志着人类不再受限于地球资源,转而开始直接收割太阳能。

如果只能记住这场对话的一件事,是什么?

在地球上盖数据中心太贵太费电了,以后我们要把所有的 AI 芯片都送上天,利用太空里 24 小时照个不停的太阳光,造出全世界最便宜的智能。

Flapping Airplanes:数据是 AI 的真实瓶颈

Flapping Airplanes 是一家专注于"数据效率"和"算法-硬件协同优化"的 AI 基础研究公司。核心主张是:现有 AI 模型在结构上极度浪费——人类学会编程只需比当前前沿模型少 10,000–100,000 倍的数据。他们试图绕开 PyTorch 等主流框架的限制,直接接管 GPU 底层逻辑,开发能在"小数据"条件下逼近大模型效果的新范式。公司名"扑翼飞机"暗示了一种隐喻:当年人类执着于模仿鸟类扑翼飞行最终失败,真正起飞的是固定翼飞机——AI 不必照搬大模型的暴力路径。

当前的 AI 繁荣本质上是「富矿效应」,模型只在数据极度充沛的窄域展现了能力。搜索和编程之所以强大,是因为它们消耗了几乎整个互联网和海量的合成数据。这一判断的主张在于:这种「数据贪婪」模式无法复制到更广阔的实体经济中,因为机器人或供应链等领域的可用数据量极度稀缺,AI 必须学会在「贫矿」中生存。

人类的学习效率证明了现有的 AI 模型在结构上存在巨大的资源浪费。人类只需比当前前沿模型少 10,000 到 100,000 倍的数据量,就能掌握同样高超的编程技能。这意味着 data efficiency(数据效率,指用更少数据达到同等智能水平的能力)是完全可行的,目前的 scaling law(规模定律)只是在用海量算力掩盖算法上的低效。

算力(compute)是容易扩张的标准商品,而高质量数据是充满摩擦力的非标资产。购买算力只需支付资金,但获取长尾任务的优质数据却涉及复杂的法规谈判、企业条件约束甚至去搜刮倒闭的实体书店。因此,将数据效率提升 1000 倍的商业价值远大于将算力降价 1000 倍,因为它直接消除了进入现实世界各行各业的「行政门槛」。

数据效率决定了未来 AI 世界的权力结构,是打破技术垄断的唯一武器。如果数据量依然是竞争的护城河,那么 AI 革命将沦为少数几家能垄断海量信息的巨头的游戏。讲者主张通过提升效率让普通公司也能参与竞争,这意味着数据效率不只是技术指标,更是决定 AI 革命是走向「中心化集权」还是「分布式普惠」的哲学开关。

主流软件框架如 PyTorch 正在「戴着镣铐跳舞」,严重限制了硬件性能的释放。 PyTorch(一种流行的开源机器学习框架)为了易用性,将极其并行的 GPU(图形处理器)伪装成单线程模型运行,导致许多高效算法无法被表达。这一判断的重要性在于:我们面临的瓶颈往往不是芯片不够快,而是我们与硬件交互的方式过滤掉了最聪明、最节省数据的路径。

寻找 AI 能力的新边疆,必须直接从「硬件原语」层级进行降维打击。通过重新定义硬件交互的 primitives(原语,指构建复杂程序的最小逻辑单位),可以解锁那些在标准框架下运行极其低效的复杂算法。这主张了一个反直觉的路径:想要让 AI 更聪明,你应该去「折磨」硬件,在底层挖掘出被主流系统抛弃的高效潜力。

只有通过系统与算法的「协同优化」,才能实现真正的数据效率飞跃。讲者开发了一套接管整个 GPU 的虚拟架构,用来运行那些在传统逻辑下「异步且低效」的细粒度训练循环。这种深度定制化的意义在于:它打破了软硬件脱节的现状,证明了只有让算法直接长在硬件的最优解上,才能在极少数据的条件下实现智能突变。

AI 进化的终局是从「大数据」驱动转向「精细化」驱动,重塑经济的长尾部分。当 AI 能够不再依赖互联网级的数据规模,它才能真正渗透到那数以万计的、目前缺乏数字化资源的传统工业场景中。这一判断的主张极其宏大:我们必须从追求「规模」转向追求「效率」,因为只有能解决「小数据」难题的 AI,才是真正能改变物理世界的 AGI。

如果只能记住这场对话的一件事,是什么?

现在的 AI 学习效率太低了,只有让 AI 学会像人类一样只看几眼就能掌握新技能,它才能真正进入工厂、医院和我们生活的每一个角落。

Unconventional AI:大脑如何实现 100 万倍能效

Unconventional AI 是 Naveen Rao 创办的非冯·诺依曼架构计算公司。核心主张是:现代 AI 仍跑在 1940 年代为完全不同目的设计的浮点数+冯·诺依曼架构上,导致绝大部分能量损耗在"内存与计算单元间搬运数据"上。他们试图用非线性动力学和振荡器耦合这类模拟物理过程,让计算结果通过物理系统的自然演化"自发涌现"——目标是把能效提升三个数量级,逼近大脑的水平。

AI 发展即将撞上物理世界的「能源墙」,现有的算力扩张模式难以为继。在未来 2 到 4 年内,全球将不再有足够的剩余电力来支撑按当前轨迹增长的 AI 训练和推理需求。这一判断的重要性在于:目前的 scaling law(规模定律)本质上是在用暴力消耗能源来换取智能,如果不改变计算的物理底座,AI 的进步将因为触及能源天花板而被迫停滞。

生物大脑的存在证明了「高能耗」并非智能的必然代价,而是我们设计的缺陷。全球 80 亿人的大脑总功耗仅为 160 吉瓦,而目前的 AI 模型单次推理或训练就可能消耗兆瓦甚至吉瓦级的能量。这主张了一个核心观点:我们对「智能」的实现方式极其低效,生物界已经给出了一个低功耗运行通用智能的「存在性证明」,提示我们必须彻底重构计算逻辑。

我们正试图在已有 80 年历史的陈旧数字化抽象上构建 21 世纪的智能。现代芯片仍依赖 1940 年代为完全不同的目的设计的浮点数和 von Neumann(冯·诺依曼,指存储与计算分离的架构),导致数据在两者间搬运损耗了绝大部分能量。这一判断反直觉地指出:即便强如 GPU 也是在错误的架构上「修修补补」,硬件进化的方向从一开始就偏离了智能处理的本质。

通往 AGI 的真正路径是放弃矩阵数学,转向非线性动力学计算。大脑并不像 GPU 那样计算矩阵,而是通过 nonlinear dynamics(非线性动力学,指系统状态随时间进行复杂且非比例变化的规律)让神经元相互作用。这一判断的主张在于:我们不应再追求每秒执行多少次精确计算,而应让物理系统自发地通过时间演化来收敛出答案,从而实现跨越式的效率提升。

拥抱「噪声」和随机性是实现超低功耗计算的必经之路。数字计算机如果错了一个比特就会系统崩溃,但大脑在 stochastic(随机的,指具有概率性而非确定性的)信号中依然能稳定运行。这主张了一个反直觉的结论:极致的精确性反而成了效率的枷锁,允许系统具备一定的随机性和容错力,才是模拟生物级高效智能的关键。

我们应该利用物理规律的「时间轴」来计算,而不是人为划定主频周期。通过使用可训练耦合的 oscillators(振荡器,指产生周期性重复信号的电路),计算过程变成了物理系统随时间自然沉降到稳态的过程。这一判断的重要性在于:它消除了传统机器在内存和缓存间反复读写的功耗,直接让「物理规律」本身承担了所有的计算任务。

只有实现状态、功能与物理底座的完全重合,才能达到计算效率的极限。在非冯·诺依曼架构的动力系统中,信息存储的地方就是信息被处理的地方,两者在物理上完全一体化。这主张了一个突破性的方向:计算将不再有「内存墙」的限制,这种三位一体的架构有望将计算效率提升三个数量级,从根本上解决 AI 的能源危机。

构建 AGI 的过程也是人类最终理解自身意识本质的过程。当我们能够从第一性原理出发,用合成电路复刻出大脑的非线性动态轨迹时,我们才真正掌握了智能的运行密码。这一判断的主张极其宏大:AGI 不仅是软件的胜利,更是一场硬件的「回归」,让我们能通过亲手建造大脑来真正解开生物智能这一持续了 40 亿年的物理谜题。

如果只能记住这场对话的一件事,是什么?

现在的电脑算东西太费电了,我们得学学人脑的结构,不再让电脑死算数学题,而是让电流在电路里像水流一样自然地跑出答案。

QQlink

No crypto backdoors, no compromises. A decentralized social and financial platform based on blockchain technology, returning privacy and freedom to users.

© 2024 QQlink R&D Team. All Rights Reserved.