Stable Diffusion 3: Bước đột phá mới trong lĩnh vực tạo ảnh AI

Bevoice / June 15, 2024

Stable Diffusion, đứa con cưng của Stability AI, đã trở thành biểu tượng cho khả năng tiếp cận dễ dàng và sức mạnh vượt trội trong lĩnh vực tạo ảnh bằng AI. Với sự ra mắt của Stable Diffusion 3 (SD3), tiêu chuẩn cho công nghệ tạo ảnh từ văn bản nguồn mở đã được nâng lên một tầm cao mới. Hơn nữa, việc phát hành mã nguồn của Stable Diffusion 3 Medium trên Hugging Face gần đây đã tạo nên cơn sốt trong cộng đồng. Vậy hãy cùng chúng tôi khám phá sức mạnh tiềm ẩn bên trong siêu phẩm AI này!

Kiến trúc đột phá của SD3: Hành trình từ văn bản đến hình ảnh

Khả năng ấn tượng của SD3 bắt nguồn từ kiến trúc tinh vi, được thiết kế tỉ mỉ để tối ưu hóa hiệu suất và tạo ra hình ảnh có độ trung thực cao. Bài viết này sẽ đi sâu vào các thành phần chính hoạt động nhịp nhàng để biến những dòng văn bản thành hình ảnh sống động.

1. Tiền xử lý: Đặt nền móng cho sự sáng tạo

Trước khi bước vào quá trình tạo ảnh kỳ diệu, SD3 sẽ tiến hành tiền xử lý dữ liệu hình ảnh và văn bản đầu vào thành định dạng tối ưu cho bộ máy xử lý cốt lõi. Giai đoạn quan trọng này đảm bảo hiệu quả cho cả quá trình huấn luyện và suy luận của mô hình.

Biểu diễn hình ảnh: Vai trò của Autoencoder

SD3 tận dụng sức mạnh của Autoencoder được huấn luyện trước để xử lý dữ liệu hình ảnh. Autoencoder này bao gồm hai thành phần chính:
  • Bộ mã hóa (Encoder - E): Nhận hình ảnh đầu vào (ví dụ: ảnh có độ phân giải cao) và nén thông tin của nó thành một biểu diễn không gian tiềm ẩn có kích thước thấp hơn. Không gian tiềm ẩn này nắm bắt được những đặc trưng quan trọng nhất của hình ảnh một cách cô đọng.
  • Bộ giải mã (Decoder - D): Thực hiện thao tác ngược lại, nhận biểu diễn không gian tiềm ẩn và tái tạo lại thành hình ảnh có độ phân giải đầy đủ.
Vậy tại sao lại sử dụng Autoencoder? Xử lý trực tiếp hình ảnh có độ phân giải cao đòi hỏi tài nguyên tính toán khổng lồ. Bằng cách nén hình ảnh thành không gian tiềm ẩn nhỏ hơn, SD3 có thể huấn luyện và tạo ảnh hiệu quả hơn mà vẫn giữ được các chi tiết hình ảnh quan trọng. SD3 sử dụng hệ số giảm mẫu là 8 (nghĩa là kích thước không gian tiềm ẩn nhỏ hơn 8 lần so với hình ảnh gốc) và không gian tiềm ẩn 16 kênh nâng cao cho phép biểu diễn hình ảnh phong phú hơn, góp phần tạo nên độ chân thực ấn tượng cho mô hình, đặc biệt là ở các vùng phức tạp như bàn tay và khuôn mặt.

Biểu diễn văn bản: Mã hóa ý nghĩa và phong cách

SD3 sử dụng đồng thời ba bộ mã hóa văn bản được huấn luyện trước để hiểu rõ sắc thái của lời nhắc văn bản đầu vào:
  • Hai mô hình CLIP: Hai mô hình này (CLIP L/14 và OpenCLIP bigG/14) vượt trội trong việc nắm bắt ý nghĩa ngữ nghĩa của lời nhắc và mối quan hệ của nó với các khái niệm hình ảnh.
  • Một mô hình T5-XXL: Mô hình này chuyên về hiểu cấu trúc ngôn ngữ và mối quan hệ ngữ pháp, đặc biệt hữu ích cho việc tạo văn bản trong hình ảnh.
Kết quả từ các bộ mã hóa này được kết hợp thành hai biểu diễn riêng biệt:
  • Biểu diễn gộp (Pooled Representation - cvec): Đây là một biểu diễn cô đọng nắm bắt được bản chất ngữ nghĩa và phong cách tổng thể của lời nhắc.
  • Biểu diễn ngữ cảnh (Contextual Representation - cctxt): Biểu diễn này lưu giữ trình tự của các từ và mối quan hệ của chúng trong lời nhắc, rất quan trọng cho các tác vụ như hiển thị văn bản mạch lạc.

2. Multimodal Diffusion Transformer (MMDiT): Trái tim của SD3

Sự đổi mới thực sự của SD3 nằm ở kiến trúc Multimodal Diffusion Transformer (MMDiT). Bộ khung xương sống mới lạ này được thiết kế để xử lý hiệu quả sự tương tác giữa thông tin hình ảnh và văn bản được mã hóa, đánh dấu bước tiến đáng kể so với các mô hình khuếch tán truyền thống.

Kiến trúc Transformer: Nắm bắt sự song song

Đúng như tên gọi, MMDiT tận dụng sức mạnh của Transformer. Không giống như các mạng nơ-ron hồi quy truyền thống xử lý dữ liệu tuần tự, Transformer phân tích toàn bộ chuỗi song song, giúp tăng tốc đáng kể quá trình huấn luyện và suy luận.

Hợp nhất đa phương thức: Kết nối văn bản và hình ảnh

"Đa phương thức" trong MMDiT nêu bật điểm mạnh của nó: khả năng xử lý và hợp nhất thông tin từ các phương thức khác nhau (trong trường hợp này là văn bản và hình ảnh). Điều này đạt được thông qua sự kết hợp thông minh giữa:
  • Nối chuỗi: Các đoạn hình ảnh được mã hóa (từ không gian tiềm ẩn của bộ giải mã) và các mã thông báo văn bản (từ bộ mã hóa văn bản) được kết hợp khéo léo thành một chuỗi duy nhất, cho phép Transformer phân tích chúng trong ngữ cảnh.
  • Cơ chế chú ý kép: Thay vì sử dụng một bộ trọng số duy nhất cho tất cả dữ liệu, MMDiT sử dụng hai bộ trọng số riêng biệt: một cho dữ liệu hình ảnh và một cho dữ liệu văn bản. Điều này cho phép mô hình học các biểu diễn chuyên biệt cho từng phương thức trong khi vẫn cho phép tương tác chéo phương thức.

Các khối xây dựng của MMDiT

MMDiT được xây dựng bằng cách sử dụng một loạt các khối lặp lại, mỗi khối bao gồm:
  • Chuẩn hóa lớp: Chuẩn hóa dữ liệu đầu vào, ổn định và tăng tốc quá trình huấn luyện.
  • Chú ý đa đầu: Đây là trái tim của Transformer, cho phép mô hình cân nhắc tầm quan trọng của các phần khác nhau của chuỗi đầu vào (cả hình ảnh và văn bản) liên quan đến nhau. MMDiT sử dụng các đầu chú ý riêng biệt cho hình ảnh và văn bản, cho phép xử lý tập trung trong phương thức trong khi vẫn duy trì cơ chế trao đổi thông tin chéo phương thức.
  • Mạng nơ-ron thức ăn đầu vào: Các mạng này áp dụng các phép biến đổi phi tuyến tính bổ sung cho đầu ra của cơ chế chú ý, tăng khả năng của mô hình trong việc học các mối quan hệ phức tạp trong dữ liệu.

3. Rectified Flow (RF): Từ nhiễu đến hình ảnh

SD3 sử dụng công thức Rectified Flow (RF) để tạo ảnh. Khung toán học này quy định cách mô hình dần dần biến đổi nhiễu ngẫu nhiên thành hình ảnh mạch lạc được hướng dẫn bởi lời nhắc văn bản đầu vào và các biểu diễn đã học.

Khuếch tán đường thẳng: Nâng cao hiệu quả

Các mô hình khuếch tán truyền thống thường liên quan đến các đường cong phức tạp trong quá trình chuyển đổi từ nhiễu sang hình ảnh. Tuy nhiên, RF lại áp dụng các đường khuếch tán thẳng, dẫn đến việc lấy mẫu hiệu quả hơn và yêu cầu ít bước hơn để tạo ra hình ảnh chất lượng cao.

Lấy mẫu bước thời gian Logit-Normal: Tập trung vào chi tiết

SD3 tiếp tục nâng cao khả năng huấn luyện của mình bằng cách sử dụng lấy mẫu bước thời gian Logit-Normal. Thay vì lấy mẫu đồng đều các điểm dọc theo đường dẫn khuếch tán, phương pháp này tập trung nhiều hơn vào các bước trung gian nơi mô hình tinh chỉnh chi tiết, dẫn đến chất lượng hình ảnh được cải thiện và hội tụ nhanh hơn.

SD3 Medium: Mô hình dành cho mọi người

SD3 là một họ các mô hình, từ 800 triệu tham số đến 8 tỷ tham số. SD3 Medium, với 2 tỷ tham số, là một trong những mô hình này: mục tiêu của nó là cân bằng giữa sức mạnh và hiệu quả, được thiết kế để đủ mạnh mẽ cho mục đích sử dụng chuyên nghiệp trong khi vẫn dễ tiếp cận với các cá nhân có phần cứng thông thường.

Kết luận

Với kiến trúc đột phá và cam kết về khả năng tiếp cận, SD3 hứa hẹn sẽ cách mạng hóa cách chúng ta tạo và tương tác với hình ảnh. Sự kết hợp giữa hiệu suất vượt trội, tính linh hoạt và tinh thần cởi mở khiến SD3 trở thành một công cụ vô giá cho cả nghệ sĩ, nhà phát triển và bất kỳ ai muốn khám phá tiềm năng sáng tạo vô hạn của AI.