# Đào Tạo AI Để Nắm Bắt Bản Chất Khoa Học
## Tóm Tắt
Khoa học học tập bằng AI hiện nay chủ yếu dựa vào các bộ dữ liệu được tuyển chọn cẩn thận, nhưng phần lớn khoa học thực tế lại đến từ thí nghiệm thực hành và những kiến thức ngầm không được ghi lại. Bất kỳ ai giải quyết được cách sử dụng AI cho phần hỗn loạn của khoa học sẽ nắm giữ vị trí lãnh đạo. Để AI thực sự trở thành nhà khoa học, chúng cần các bộ dữ liệu đa phương thức bắt được những kiến thức ngầm này.
Chúng tôi đề xuất một nỗ lực tham vọng để tạo ra và sử dụng dữ liệu đa phương thức cần thiết để mở ra toàn bộ tiềm năng của AI cho khoa học. Chương trình này sẽ tạo ra “Phòng thí nghiệm Sinh dữ liệu Không có cấu trúc” vừa tiến hành nghiên cứu đột phá, đồng thời ghi lại mọi thứ từ video bodycam đến từng cú nhấn phím, và sử dụng dữ liệu đó để làm toàn bộ quá trình trở nên hiệu quả hơn.
Mỗi tổ chức sẽ tập trung vào các lĩnh vực được định nghĩa bởi thiết bị như công nghệ sinh học, vật liệu tiên tiến và sản xuất, hoặc vi/nano công nghệ. Các khoản tài trợ tổ chức, các đợt xem xét dựa trên chuyên gia và việc tự động chấm dứt sẽ mang lại cho các phòng thí nghiệm sự tự do theo đuổi các hướng đi bất ngờ trong khi vẫn duy trì sự giám sát. Một tổ chức an ninh sẽ giảm thiểu các rủi ro tiềm ẩn từ các tác nhân ác ý lạm dụng dữ liệu và mô hình.
Chương trình sẽ tốn 2 tỷ đô la trong tám năm. Triển khai sẽ có ba giai đoạn:
Giai đoạn 1: 200 triệu đô la trong hai năm cho 20 tổ chức thí điểm.
Giai đoạn 2: Giảm xuống còn 5 tổ chức nhận 50 triệu đô la mỗi năm trong ba năm để tạo ra bộ dữ liệu ban đầu và các đột phá.
Giai đoạn 3: Thêm 50 triệu đô la mỗi năm trong ba năm để mở rộng bộ dữ liệu và chuyển giao công nghệ sang hệ thống đổi mới rộng lớn hơn.
Cách tiếp cận này có thể tăng năng suất nghiên cứu từ 10-100 lần trong các lĩnh vực được nhắm mục tiêu trong khi duy trì sự an toàn thông qua việc truy cập được kiểm soát và giám sát toàn diện.
## Động Lực
Khoa học được thúc đẩy bởi AI đại diện cho cơ hội ở quy mô nền văn minh. Giấc mơ về AI cho khoa học khá đơn giản: một đội ngũ sinh viên sau đại học, kỹ thuật viên và có thể cả các nhà nghiên cứu cấp cao có thể làm việc 24/7 bất cứ nơi nào trên thế giới, không bị nhàm chán hay sao nhãng, và không cần nhiều năm đào tạo trước khi trở nên hiệu quả. AI nhà khoa học chức năng có thể đảo ngược hàng thập kỷ suy giảm năng suất nghiên cứu, tăng tốc phát hiện vật liệu kỳ diệu và thuốc cứu người, và mở khóa các công nghệ năng lượng chuyển đổi.
## Tại sao chúng ta chưa có AI nhà khoa học: Khoảng cách kiến thức ngầm
AI cho khoa học hiện nay, như AlphaFold hoặc xúc tác được thiết kế bởi AI, đã thể hiện tiềm năng đáng kinh ngạc, nhưng chúng chia sẻ một hạn chế chính: các mô hình không thực sự “biết” cách làm khoa học.
Hãy xem xét điều thực sự cần thiết để phát triển vật liệu mới. Giả sử bạn muốn AI tăng tốc tổng hợp ống nano carbon có khả năng mở rộng cho điện tử thế hệ tiếp theo. Văn học đã mô tả các điều kiện tổng hợp thành công: “nhiệt độ nguồn cung cấp carbon lên 800°C trong phản ứng CVD với xúc tác nickel.” Nhưng để thực sự làm việc này đòi hỏi phải biết rằng phản ứng cần 3 giờ để cân bằng nhiệt, ô nhiễm từ lần chạy trước ảnh hưởng đến năng suất, “xúc tác nickel” có nghĩa là kích thước hạt cụ thể được chuẩn bị theo một cách đặc biệt, và chất lượng nguồn cung cấp carbon thay đổi theo lô nhà cung cấp. Khi tổng hợp thất bại – điều xảy ra liên tục – thành công phụ thuộc vào việc nhận biết vấn đề là tính đồng nhất nhiệt độ, dòng khí rối loạn, ngộ độc xúc tác, hay chuẩn bị chất nền. Quá trình khắc phục sự cố này liên quan đến điều chỉnh hàng chục thông số dựa trên các manh mối thị giác, âm thanh thiết bị, các phép đo trung gian và sự thấu hiểu khó kiếm được về việc “bình thường” trông như thế nào.
Mô hình tương tự lặp lại trên các lĩnh vực khoa học. Các quy trình nuôi tế bào bỏ qua rằng các vị trí khác nhau trong lấp đầy có độ dốc nhiệt độ ảnh hưởng đến tốc độ phát triển. Các bài báo về quang tử lượng tử không đề cập rằng sự định hướng laser trôi dạt theo rung động tòa nhà trong suốt ngày. Đặc trưng hóa vật liệu đòi hỏi phải biết các mẫu chuẩn bị nào trông giống như tín hiệu thực. Ngay cả công tính học cũng phụ thuộc vào trực giác vật lý – mô phỏng động lực học phân tử cần các thông số bắt nguồn từ các quan sát thí nghiệm, và xác thực kết quả đòi hỏi phải hiểu các phân tử thực tế thực sự hoạt động như thế nào.
Khoảng cách kiến thức ngầm này giải thích tại sao phần lớn AI cho khoa học vẫn chuyên hẹp. Các cách tiếp cận hiện nay hoạt động khi kiến thức liên quan có thể được ghi lại trong bộ dữ liệu sạch – cấu trúc protein, tính chất hóa học và mối quan hệ trong văn học. Nhưng chúng thất bại khi thành công phụ thuộc vào việc tích hợp thông tin trên nhiều quy mô, phương thức và lĩnh vực chuyên môn. Huấn luyện AI chỉ dựa trên các bài báo và cơ sở dữ liệu giống như cố gắng phẫu thuật từ sách giáo khoa mà không bao giờ quan sát cuộc phẫu thuật hoặc xử dụng dụng cụ.
Phần lớn công việc trong khoa học không hoàn toàn xảy ra trên máy tính hoặc tạo ra các bộ dữ liệu có cấu trúc. Các bài báo khoa học mô tả kết quả thành công, không phải toàn bộ quá trình lặp lại tạo ra chúng. Rất nhiều khoa học là công việc thông thường để điều chỉnh thiết bị, khắc phục thí nghiệm thất bại, hoặc chú ý “hừ, điều này thật kỳ lạ”. Ngay cả công việc xảy ra trên máy tính (mô phỏng, cố gắng hiểu đầu ra cảm biến, hoặc thiết kế thí nghiệm) cũng cần được đặt nền tảng trên thực tế vật lý.
AlphaFold đã tận dụng cơ sở dữ liệu cẩn thận về cấu trúc protein. Hầu hết các cách tiếp cận AI cho khoa học theo mô hình này: thu thập một bộ dữ liệu được tuyển chọn cẩn thận bằng tay hoặc với “phòng thí nghiệm tự lái” và sau đó huấn luyện một mô hình chuyên dụng trên đó, dù bộ dữ liệu đó là bài báo, vật liệu tiềm năng hoặc mục tiêu có thể điều chế. Các cách tiếp cận “AI cho khoa học” hiện nay giống như AI trước Mô hình Ngôn ngữ Lớn (LLM): các mô hình có ứng dụng ấn tượng nhưng hẹp, được huấn luyện trên các bộ dữ liệu tuyển chọn của văn bản hoặc hình ảnh.
Tuy nhiên, bước đột phá lớn đã tạo ra thế hệ AI hiện tại không phải là các bộ dữ liệu được thu thập cẩn thận,而是 khả năng huấn luyện trên toàn bộ internet. Internet về cơ bản là tổng hợp những gì nhân loại làm theo kỹ thuật số. Kết quả, AI đã trở nên cực kỳ giỏi ở những thứ hoàn toàn tồn tại trong máy tính – viết lách, lập trình, tạo video. Nhưng những khả năng này chưa chuyển hóa thành AI hữu ích rộng rãi cho khoa học.
## Tại sao các tổ chức hiện có không thể giải quyết vấn đề này
Để tạo ra dữ liệu không có cấu trúc thực sự cần thiết để làm AI hữu ích rộng rãi cho khoa học, chúng ta cần các phòng thí nghiệm mới. Đây là vì các tổ chức nghiên cứu hiện có có những rào cản tổ chức và động lực cơ bản sẽ ngăn cản họ thành công trong sứ mệnh này. Các trường đại học được cấu trúc xung quanh các phòng thí nghiệm độc lập và đào tạo sinh viên sau đại học; cấu trúc này tốt cho các cách làm khoa học truyền thống, nhưng sẽ đi ngược lại với sự phối hợp cấp tổ chức cần thiết để tạo ra và sử dụng dữ liệu không có cấu trúc. Cả phòng thí nghiệm quốc gia và trường đại học đã trở nên cực kỳ quan liêu – trong khi việc xây dựng và vận hành thành công các phòng thí nghiệm tạo dữ liệu này đòi hỏi khả năng chuyển động nhanh chóng và đưa ra quyết định không đồng thuận. Hơn nữa, công việc này sẽ đòi hỏi tổ chức nhóm đổi mới, quy trình làm việc mới, và thiết bị được xây dựng từ đầu sẽ đi ngược lại với cách các tổ chức hiện có làm việc. Việc cải tạo thiết bị hiện có và cải tiến quy trình vận hành sẽ khó khăn như việc xây dựng các phòng thí nghiệm hoàn toàn mới, thậm chí còn khó hơn.
Các công ty không có khả năng làm công việc này, có thể ngoại trừ các ngách có lợi nhuận cao như công nghệ sinh học tập trung vào sức khỏe. Các tập đoàn lớn đã cắt giảm các bộ phận R&D của họ, rút ngắn các khung thời gian, và chuyển giao phần lớn đổi mới cho các startup. Startup trải qua áp lực cực lớn để chuyên về các ngách có lợi nhuận và xây dựng sản phẩm thay vì làm công việc nghiên cứu có ứng dụng rộng rãi. Và trong khi việc tìm kiếm lợi nhuận là một vòng lặp phản hồi hữu ích, nó cũng sẽ ngăn các công ty chia sẻ đầu ra với cộng đồng khoa học rộng lớn hơn có thể tận dụng chúng.
## Giải Pháp
Để mở khóa AI thực sự hữu ích trong nhiều lĩnh vực khoa học, chúng ta cần tạo ra một loại tổ chức mới: các phòng thí nghiệm đồng thời tiến hành khoa học tiên tiến, thu thập dữ liệu về cách khoa học thực sự diễn ra, và sử dụng dữ liệu đó để huấn luyện mô hình mà họ sử dụng để làm khoa học tốt hơn hơn.
Các “phòng thí nghiệm dữ liệu không có cấu trúc” này cần các thành phần sau:
– Các nhà khoa học đang làm việc nghiêm túc để tạo ra các khám phá và phát minh thực tế.
– Các phòng thí nghiệm được “trang bị công cụ” nặng để thu thập dữ liệu về mọi thứ đang diễn ra – từ bodycam, đến ghi lại từng cú nhấn phím máy tính và hướng dẫn được gửi đến mọi máy móc.
– Các đội riêng biệt dành cho việc thực hiện nghiên cứu thực tế, thu thập dữ liệu và công cụ AI, lan tỏa dữ liệu và kiến thức ra khỏi phòng thí nghiệm, và hỗ trợ kỹ thuật chuyên dụng cho tất cả các nhóm khác. Điều quan trọng là mỗi trong số các đội này có địa vị và nguồn lực tương tự.
– Các động cơ được xây dựng cẩn thận để có được những người giỏ nhất làm công việc thực sự hữu ích.
## Phạm Vi
Các phòng thí nghiệm phải làm ba việc:
1. Công việc nghiên cứu nghiêm túc
2. Thu thập dữ liệu về mọi khía cạnh của cách công việc đó diễn ra
3. Huấn luyện các mô hình AI tăng năng suất trên dữ liệu đó
Đây là phạm vi rộng cho một tổ chức duy nhất, nhưng điều quan trọng là tất cả phải xảy ra dưới một mái nhà vì hai lý do:
– Nếu bạn không thu thập dữ liệu về công việc nghiêm túc, các mô hình kết quả sẽ không thực sự có khả năng làm công việc nghiêm túc.
– Ban đầu sẽ không rõ loại dữ liệu hoặc siêu dữ liệu nào sẽ quan trọng để tạo ra các công cụ hữu ích, vì vậy nếu bạn không làm cả ba, bạn có thể kết thúc việc thu thập dữ liệu vô dụng để tạo ra các mô hình hữu ích.
Một số lĩnh vực khoa học nhất định sẽ thúc đẩy khả năng thao tú thế giới vật lý của chúng ta và xác định khả năng cạnh tranh của Hoa Kỳ trong những thập kỷ tới. Chúng ta nên mở rộng phòng thí nghiệm xung quanh thiết bị và kỹ thuật xác định các lĩnh vực này, chứ không phải đặt cược vào bất kỳ chủ đề hẹp thời thượng nào. Điều này sẽ cho phép họ làm việc hữu ích trong suốt vòng đời đầy đủ của họ, thay vì theo đuổi một mục tiêu cụ thể có thể trở nên lỗi thời. Các lĩnh vực ban đầu có thể bao gồm:
– Công nghệ sinh học và sinh sản tế bào: Nuôi tế bào, kỹ thuật gen, sản xuất protein và phát triển trị liệu.
– Hệ lượng tử và quang tử: Quang phổ laser, cảm biến lượng tử, thiết kế thành phần quang và hệ thống đo lường chính xác.
– Vật liệu tiên tiến và sản xuất: Tổng hợp composite mới, quy trình sản xuất tiên tiến, đặc trưng hóa vật liệu và phương pháp sản xuất có khả năng mở rộng.
– Vi- và nano công nghệ: Lắp ráp phòng sạch, khắc chùm điện tử, thiết bị vi cơ điện tử và kỹ thuật đặc trưng quy mô nano.
– Sinh học hệ thống và sinh thái: Nuôi và phân tích động vật, thực vật, nấm, cùng với công việc thực địa để khám phá những bí mật mới của tự nhiên.
Các tổ chức này cần các cơ chế tài trợ không thông thường để có được tài năng tốt nhất làm công việc tham vọng và cho phép thí nghiệm siêu dữ liệu và công cụ AI. Các khoản tài trợ dự án truyền thống và ngân sách theo hạng mục sẽ hạn chế công việc lặp lại, luôn thay đổi để xây dựng các hệ thống chức năng, đuổi bỏ tài năng tốt nhất, và đẩy tổ chức về phía trình diễn hơn là kết quả thực sự.
Thay vào đó, tài trợ cho các phòng thí nghiệm này nên đến từ sự kết hợp giữa các khoản tài trợ tổ chức và các hợp đồng liên tục với đối tác công nghiệp và cơ quan chính phủ muốn sử dụng cả đầu ra nghiên cứu và dữ liệu của các phòng thí nghiệm. Trước đây có thể được thực hiện như Quyền Thực hiện Khác (OTA), có thể sử dụng khung X-Labs gần đây được đề xuất.
Đề xuất này sẽ tốn 2 tỷ đô la trong vòng 8 năm – một mức giá thấp cho tiềm năng mở khóa AI hữu ích rộng rãi cho khoa học.
## Giám Sắc Chương Trình và Quản Lý
Giám sát nên xảy ra thông qua các đợt xem xét toàn diện dựa trên ở cuối năm thứ hai và năm thứ năm.
Vì loại tổ chức này rất mới, việc chọn đúng đề xuất ban đầu sẽ rất khó khăn. Thay vào đó, sáng kiến này nên được bắt đầu như một chương trình thí điểm cạnh tranh với việc giảm lựa chọn sau hai năm đầu tiên. Các tổ chức được lựa chọn đó sau đó nên được xem xét toàn diện ba năm sau để quyết định có tiếp tục tài trợ hay không.
Các cuộc xem xét nên yêu cầu mỗi phòng thí nghiệm được đánh giá ngược lại bởi các chuyên gia về những gì họ đã đạt được tại các khoảng thời gian xác định trước. Cách tiếp cận này khác với tài trợ dựa trên cột mốc vì bản chất của nghiên cứu liên quan đến kết quả và thời gian không chắc chắn. Tuy nhiên, nên có sự đồng thuận rộng rãi về việc “tốt” trông như thế nào để tiếp tục đến mỗi đợt tài trợ mới. Phòng thí nghiệm Sinh học Phân tử MRC đã sử dụng cách tiếp cận này để giành 12 giải Nobel.
Hơn nữa, các phòng thí nghiệm nên tự động chấm dứt sau tám năm theo mặc định. Để làm cho các tổ chức có nhiệm vụ rộng lớn được chấp nhận về mặt chính trị, tránh sứ mệnh lan rộng, và giảm thiểu xu hướng mục đích của các tổ chức trở thành không gì khác hơn là tự bảo tồn, các tổ chức nên tự động chấm dứt sau một khoảng thời gian cố định. Khoảng thời gian này nên dài hơn năm năm, nhưng ít hơn mười năm.
## Lịch Trình
### Giai đoạn 0
– Chỉ định một giám đốc chương trình
– Phát hành lời kêu gọi đề xuất
### Giai đoạn 1: 2 Năm, 200 Triệu Đô La
– Trao cho 20 tổ chức 10 triệu đô la mỗi để chứng minh khái niệm.
– Thành công trông như thế nào: nguyên mẫu công cụ chức năng, bộ dữ liệu ban đầu, bằng chứng về năng suất nghiên cứu dưới sự giám sát nặng nề. Mặc dù nhiều tổ chức sẽ “thất bại”, công việc của họ sẽ cung cấp kết quả tiêu cực có giá trị, và họ vẫn có thể tiếp tục huy động tài trợ tư nhân để tiếp tục công việc của họ.
### Giai đoạn 2: 3 Năm, 900 Triệu Đô La
– Giảm xuống còn năm tổ chức dựa trên xem xét chuyên gia toàn diện.
– Tài trợ đầy đủ 50 triệu đô la/năm cho mỗi năm tổ chức.
– Thành công trông như thế nào: Các đột phá nghiên cứu ban đầu nội bộ tại các phòng thí nghiệm không thể xảy ra mà không có AI và bộ dữ liệu hữu ích.
### Giai đoạn 3: 3 Năm, 900 Triệu Đô La
– Các tổ chức được tiếp tục thực hiện công việc nghiên cứu và thu thập dữ liệu với thêm trọng tâm vào việc lan tỏa các đột phá, dữ liệu và kỹ thuật vào hệ thống đổi mới rộng lớn hơn.
– Ở cuối giai đoạn này, các tổ chức nên tự động đóng cửa. Họ có thể tìm ra mô hình kinh doanh liên tục như một liên minh công nghiệp, được mua lại bởi một tập đoàn hoặc cơ quan cụ thể, v.v.
– Thành công trông như thế nào: Bộ dữ liệu mạnh mẽ, công cụ AI khoa học hữu ích được lan tỏa vào hệ thống đổi mới Hoa Kỳ, các đột phá nghiên cứu bên ngoài các phòng thí nghiệm.
## Giảm Thiểu Rủi Ro
Một lý do lớn để tài trợ cho công việc này với nguồn lực công là để làm nó theo cách làm tăng cường an ninh trong khi mở rộng quyền truy cập: thay vì để việc tạo dữ liệu không có cấu trúc xảy ra tại một công ty AI tư nhân được VC tài trợ cho chính mục đích sử dụng của nó, đề xuất này có thể:
– Biến dữ liệu thành một hàng hóa công cộng bằng cách cung cấp quyền truy cập miễn phí hoặc trợ cấp cho người dùng hợp pháp và có trách nhiệm.
– Thực sự làm cho nó khó khăn cho khủng bố hoặc người dùng vô trách nhiệm truy cập dữ liệu.
Giống như bất kỳ nỗ lực nào để tăng cường khả năng AI và nâng cao năng suất khoa học, các phòng thí nghiệm tạo dữ liệu không có cấu trúc có thể đặt ra một số lo ngại về quyền riêng tư và rủi ro. Thực hành tốt nhất trong an ninh AI và giảm thiểu rủi ro đang phát triển nhanh chóng. Thay vì một tập chính sách tĩnh rất có thể sẽ lỗi thời vào thời điểm các phòng thí nghiệm này được xây dựng, một tổ chức an ninh riêng biệt nên tạo ra, cập nhật và triển khai các thực hành tốt nhất để giảm thiểu khả năng các phòng thí nghiệm hoặc đầu ra của họ sẽ hỗ trợ các tác nhân ác ý.
Một số ví dụ về các chính sách an ninh có thể bao gồm sau đây, mặc dù các chính sách chính xác nên được để lại cho tổ chức an ninh:
– Loại trừ các lĩnh vực nghiên cứu rủi ro cao như virus học chức năng hoặc hóa học liên quan đến vũ khí.
– Hạn chế quyền truy cập dữ liệu thô và các mô hình mạnh mẽ hơn cho người dùng có trách nhiệm đã được xem xét kỹ lưỡng.
– Vì lý do riêng tư, tất cả các bộ dữ liệu nên được làm sạch thông tin nhận dạng cá nhân như khuôn mặt, giọng nói, v.v.
– Chức năng an ninh có thể được thực hiện bởi một tổ chức mới được thành lập như một phần của nỗ lực này, hoặc được giao cho các tổ chức hiện có đã có kinh nghiệm với giảm thiểu rủi ro và an ninh cho các mô hình mạnh mẽ.
Tuy nhiên, không có cách nào kín đáo để tăng cường khả năng khoa học mục đích chung mà không tăng cường khả năng mọi người làm điều xấu với nó.
## Hành Động Đề Xuất
### Ủy quyền của Quốc hội
– Ủy quyền 2 tỷ đô la trong 8 năm thông qua NDAA hoặc gia hạn America COMPETES cho “Phòng thí nghiệm Tạo dữ liệu Không có cấu trúc cho Khoa học AI.”
– Thành lập văn phòng chương trình chung bao gồm DOE, DOD, NSF và NIH với thẩm quyền giám sát được đơn giản hóa.
### Phân bổ ngân sách
– Giai đoạn 1: 200 triệu đô la trong 2 năm cho chương trình thí điểm cạnh tranh (20 tổ chức × 10 triệu đô la mỗi)
– Giai đoạn 2: 900 triệu đô la trong 3 năm cho các viện được lựa chọn giảm xuống (5 tổ chức × 60 triệu đô la/năm mỗi)
– Giai đoạn 3: 900 triệu đô la trong 3 năm cho hoạt động tiếp tục và lan tỏa công nghệ
### Cơ chế triển khai
– Kích hoạt Quyền Thực hiện Khác (OTA) cho tài trợ khối không có giám sát hạng mục truyền thống.
– Ủy quyền các thỏa thuận chia sẻ chi phí công nghiệp cho phép đối tác tư nhân đóng góp 25-50% tài trợ để đổi lấy quyền truy cập dữ liệu ưu tiên. Sự chia sẻ chi phí này sẽ cho phép công việc bắt đầu nhanh hơn và đảm bảo rằng công việc được gắn kết chặt chẽ hơn với kết quả thực sự hữu ích.
– Thiết lập quy trình cấp phép an ninh nhanh cho các nhà nghiên cứu làm việc trên hệ thống thu thập dữ liệu kép sử dụng.
– Tạo miễn trừ pháp lý về các quy trình mua sắm liên bang tiêu chuẩn để tuyển dụng nhanh tài năng hàng đầu với mức lãi cạnh tranh.
### Cơ cấu giám sát
– Chỉ định một giám đốc chương trình được Thượng viện xác nhận trong vòng 90 ngày sau khi được ủy quyền.
– Yêu cầu các cuộc xem xét toàn diện vào năm thứ 2 và năm thứ 5 bởi các chuyên gia độc lập, với tự động chấm dứt sau 8 năm trừ khi được ủy quyền rõ ràng.
– Yêu cầu các đánh giá khả năng hóa học, sinh học, phóng xạ và hạt nhân (CBRN) trước khi phát hành bất kỳ mô hình AI hoặc bộ dữ liệu nào cho người dùng bên ngoài.
## Kết Luận
Để AI thực sự trở thành một nhà khoa học hiệu quả, chúng ta cần cung cấp cho chúng không chỉ kiến thức từ sách vở mà còn cả trải nghiệm thực tế từ phòng thí nghiệm. Các phòng thí nghiệm tạo dữ liệu không có cấu trúc đại diện cho một bước tiến tham vọng để thu hẹp khoảng cách giữa lý thuyết và thực hành, giữa kiến thức ngầm và dữ liệu có cấu trúc. Bằng cách ghi lại toàn bộ quá trình nghiên cứu – từ những manh mối thị giác đến tiếng động của thiết bị, từ các quy trình chuẩn bị đến cách khắc phục sự cố – chúng ta có thể tạo ra các mô hình AI thực sự hiểu được bản chất của khoa học. Với sự đầu tư 2 tỷ đô la trong tám năm, chương trình này không chỉ có khả năng tăng tốc nghiên cứu từ 10 đến 100 lần trong các lĩnh vực được nhắm mục tiêu, mà còn định hình lại cách chúng ta hiểu và thực hiện khoa học trong kỷ nguyên kỹ thuật số.