Lưu trữ web - nhiệm vụ của thư viện trong thời đại thông tin số

Ngày đăng: 17/01/2018 03:10

Đặt vấn đề

Bản chất của nội dung web là rất dễ thay đổi, thể hiện qua việc các trang web biến mất liên tục hay các trang web được cập nhật thường xuyên. Quả thật, nội dung web và những thông tin trực tuyến rất có giá trị này lại được ví như “phù du” trong bối cảnh công nghệ số. Theo tác giả Ntoulas và cộng sự [10] thì có “80% các trang web được cập nhật hoặc biến mất sau một năm”. Các trang web là phương tiện truyền thông phổ biến trong xã hội chúng ta ngày nay và chắc chắn một trong số đó sẽ có những thông tin cực kỳ có giá trị. Từ dự báo về biến đổi khí hậu, đến cuộc bầu cử tổng thống, các lễ hội âm nhạc, quảng bá di sản văn hoá, hội nghị chuyên đề… mỗi sự kiện đều liên quan đến tạo, cập nhật hoặc đóng một trang web. Tuy nhiên, giống như bất kỳ phương tiện truyền thông nào (các ấn phẩm, tài liệu nghe nhìn, âm nhạc), việc bảo quản nội dung web - nơi chứa đựng giá trị văn hoá là rất cần thiết. Theo quan điểm này, các vấn đề về lưu trữ web nên được nhìn nhận dưới góc độ bảo quản di sản.

Lưu trữ web là gì?

Lưu trữ web là quá trình thu thập các trang web, các thông tin từ World Wide Web và gìn giữ chúng trong một kho lưu trữ. Lưu trữ web là một quá trình tương tự như lưu trữ tài liệu truyền thống trên giấy hoặc trên da; sau đó, các thông tin được chọn, lưu trữ, bảo quản và cung cấp truy cập đến cho tất cả mọi người. Truy cập thường được cung cấp đến các trang web lưu trữ, sử dụng cho chính phủ, các doanh nghiệp, tổ chức, nhà nghiên cứu, nhà sử học và cộng đồng. Như một kho lưu trữ truyền thống, tài liệu lưu trữ web được thu thập và được “chăm sóc” bởi các nhà lưu trữ, trong trường hợp này họ được gọi nhà lưu trữ web. Khi web có chứa một số lượng lớn các trang web và thông tin, các nhà lưu trữ web thường sử dụng các quá trình tự động để thu thập các trang web. Quá trình này liên quan đến việc “thu hoạch” các trang web từ các vị trí của chúng trên web “thật”, sử dụng các phần mềm được thiết kế đặc biệt. Loại phần mềm này được gọi là một trình thu thập (crawlers). Các trình thu thập đi qua web vào trong các trang web, sao chép và lưu các thông tin khi chúng “tới thăm”. Nội dung các trang web và các thông tin lưu trữ được cung cấp sẵn sàng trên mạng như là một phần của những bộ sưu tập lưu trữ web. Chúng có thể được xem, đọc và điều hướng như khi chúng ở trên web “thật”, nhưng được bảo tồn như “một bức ảnh chụp nhanh” (snapshots) của thông tin tại các mốc thời gian cụ thể. Một số tổ chức sử dụng các công cụ và quy trình đơn giản để lưu trữ nội dung web riêng của họ. Thư viện quốc gia, trung tâm lưu trữ quốc gia, các nhóm và các tổ chức khác nhau cũng tham gia vào lưu trữ những nội dung web quan trọng, lưu đến từng chi tiết. Phần mềm và các dịch vụ lưu trữ web thương mại cũng đã được cung cấp đến các tổ chức cần lưu trữ nội dung web cho công việc kinh doanh, di sản, quy định, hoặc các mục đích hợp pháp. Tổ chức lưu trữ web có quy mô lớn nhất thu thập dữ liệu web là Internet Archive (https://archive.org) nhằm mục đích duy trì một kho lưu trữ của toàn bộ World Wide Web.

Tại sao lưu trữ các trang web?

Nhiều tổ chức tạo ra các trang web như là một phần liên lạc của họ với cộng đồng và các tổ chức khác. Chúng là một công cụ rất hiệu quả cho việc chia sẻ thông tin. Các trang web thể hiện tính cộng đồng của chính tổ chức và tương tác của họ với bạn đọc và khách hàng. Thêm vào đó, đối với đa số các tổ chức, thông tin được công bố trên web ngày càng trở thành nguồn cung cấp thông tin duy nhất. Vì thế, trang web là một phần quan trọng của hồ sơ và danh tính của một tổ chức hoặc cá nhân. Trong khi đó, web cung cấp truy cập vào các thông tin mang tính cập nhật thường xuyên. Tuy nhiên, các trang web có thể bị mất trước khi được chụp/ lưu như một bằng chứng cho mục đích kinh doanh hay lịch sử. Cùng với việc mất thông tin khoa học và lịch sử, tính nhất thời của thông tin được xuất bản trên web gây cho người dùng mất những ký ức (ví dụ, mất các hình ảnh được chia sẻ trên mạng). Các liên kết web bị đứt cũng làm giảm giá trị của các ứng dụng và dịch vụ web (ví dụ, việc không thể truy cập vào các bookmark được chia sẻ, các bộ máy tìm kiếm, các trang mạng xã hội làm cho người dùng thấy bất mãn). Thêm vào đó, tính nhất thời của nguồn tài nguyên web còn ảnh hưởng đến những ấn bản in vì “các ấn bản này đã trích dẫn những nguồn tài liệu đã không còn tồn tại” [12]. Cho nên, lưu trữ web là việc rất cần thực hiện và có thể là một quá trình hiệu quả với chi phí tương đối thấp, tuỳ thuộc vào phương pháp sử dụng. Lý tưởng nhất, các lưu trữ web phải được “thu hoạch” theo định dạng ban đầu của chúng và có khả năng được phân phối như trang web “thật”, cung cấp một “hồ sơ” về thông tin cần tìm vào ngày và thời gian cụ thể.

Lưu trữ trang web trên thế giới

Bộ trưởng Anh cho rằng, nước Anh sẽ tạo ra 15 triệu trang web vào năm 2016. Nhưng theo luật bản quyền hiện tại, thư viện Anh chỉ có thể lưu trữ khoảng 1% trong số đó. Để khắc phục điều này, chính phủ Anh đang cố gắng để bắt kịp tiến độ những thông tin pháp lý mới, cho phép các thư viện lưu trữ hàng triệu trang web. Sáu thư viện lớn cấp quốc gia có nhiệm vụ sao chép tất cả các trang web miễn phí để ghi lại tài liệu về văn hoá, khoa học và lịch sử chính trị của Anh. Trong khi đó, từ năm 2004 ở Thư viện Quốc gia Anh đã được chọn lọc lưu trữ các trang web có giá trị nghiên cứu thuộc các lĩnh vực lịch sử xã hội Anh và di sản văn hoá. Các trang web được lưu trữ cho đến nay được thực hiện thông qua Open UK Web Archive, cùng với tài liệu bổ sung lưu trữ bởi Thư viện Quốc gia xứ Wales, các Uỷ ban hệ thống thông tin và Thư viện Wellcome. Tổ chức Open UK Web Archive lưu các bức ảnh chụp nhanh của hàng nghìn trang web và cung cấp chức năng tìm kiếm đa dạng bao gồm: tìm kiếm theo toàn văn, tiêu đề và URL. Các kho lưu trữ cũng có thể được hiển thị theo tiêu đề, chủ đề và bộ sưu tập đặc biệt.

Thư viện Quốc gia Ôxtrâylia là cơ quan dẫn đầu trong việc lưu trữ và bảo quản thông tin số ở Ôxtrâylia. Pandora Archive là một kho lưu trữ các tài nguyên web ởÔxtrâylia, được thành lập bởi Thư viện Quốc gia vào năm 1996 và là một tập hợp các ấn phẩm trực tuyến lịch sử liên quan đến Ôxtrâylia và người dân Ôxtrâylia. Các ấn phẩm trực tuyến và các trang web được lựa chọn để đưa vào bộ sưu tập với mục đích cung cấp lâu dài và liên tục truy cập chúng. Mặc dù gần 20 năm thành lập và là một hệ thống lưu trữ hoàn thiện nhưng Pandora vẫn không ngừng phát triển. Số liệu từ trang web http://pandora.nla.gov.au/stati- stics.html cho thấy, chỉ trong vòng tháng 7/2015, đã có 6.432.126 tập tin được lưu trữ lên Pandora với tổng dung lượng là 389GB, nâng tổng dung lượng của kho lưu trữ lên 16.47TB.

Năm 2000, tại Hoa Kỳ, Thư viện Quốc hội thành lập một dự án thí điểm để thu thập và bảo quản các trang web. Một nhóm nghiên cứu đa ngành đã nghiên cứu các phương pháp để đánh giá, lựa chọn, thu thập danh mục, cung cấp truy cập và bảo tồn các tài liệu này cho các nhà nghiên cứu của các thế hệ tiếp nối. Thư viện đã phát triển web chuyên đề và lưu trữ dựa trên sự kiện về các chủ đề như các cuộc bầu cử quốc gia Hoa Kỳ, chiến tranh Iraq và các sự kiện của ngày 11/9. Trong tháng 7/2003, Thư viện Quốc gia Ôxtrâylia, Canada, Đan Mạch, Phần Lan, Pháp, Iceland, Ý, Na Uy, Thuỵ Điển, Vương quốc Anh và Internet Archive của Hoa Kỳ thừa nhận tầm quan trọng của sự hợp tác quốc tế trong việc bảo quản nội dung Internet cho các thế hệ tương lai và hình thành Hiệp hội bảo quản Internet quốc tế. Các mục tiêu của Hiệp hội bao gồm thu thập các nội dung Internet từ khắp nơi trên thế giới, thúc đẩy sự phát triển, sử dụng các công cụ phổ biến, kỹ thuật và chuẩn, cho phép việc tạo ra các tài liệu lưu trữ quốc tế. Năm 2004, Văn phòng dự án chiến lược của thư viện lập ra một nhóm Web Archiving (lưu trữ web) để hỗ trợ các mục tiêu quản lý và bền vững cho các nội dung số vốn ở điều kiện rủi ro cao. Nhóm này có nhiệm vụ xây dựng một Thư viện Tri thức và cơ sở hạ tầng kỹ thuật cho việc chụp/ sao lưu nội dung các trang web. Trong việc phối hợp với nhiều nhân viên thư viện, các đối tác quốc gia và quốc tế, nhóm đã xác định các vấn đề về chính sách, thiết lập điều kiện thực hành tốt nhất và các công cụ để thu thập và lưu giữ nội dung web.

Thư viện tồn tại để bảo quản hiện vật văn hoá của xã hội và để cung cấp truy cập đến chúng. Chức năng của thư viện là tiếp tục thúc đẩy giáo dục và cơ hội học tập trong thời đại của công nghệ số, nên việc thư viện mở rộng những chức năng đó vào thế giới số cũng hết sức cần thiết. Đây là quan điểm chủ đạo của tổ chức Internet Archive - một tổ chức chuyên về lưu trữ nội dung web hàng đầu trên thế giới tại Hoa Kỳ. Ngoài việc phát triển bộ sưu tập riêng, Internet Archive đang thúc đẩy sự hình thành một loại hình thư viện mới - thư viện Internet.

Là một phần của sự phát triển và xúc tiến các công nghệ web lưu trữ trên một quy mô lớn, Internet Memory Foundation (trước đây là European Archive Foundation) hiện đang tham gia vào nhiều dự án ở châu Âu. Internet Memory Foundation có trụ sở tại Amsterdam và Paris, là một tổ chức phi lợi nhuận. Kể từ năm 2004, tổ chức này tích cực hỗ trợ việc bảo tồn của Internet như một phương tiện truyền thông mới. Hiện tổ chức này đang tiếp tục được lưu trữ các tập tin trên web với dung lượng hàng chục TB dữ liệu mỗi tháng. Truy cập và điều hướng vào toàn bộ kho dữ liệu đã được cung cấp từ năm 2012.

Những công nghệnào sử dụng để lưu trữ nội dung?

Theo kinh nghiệm của các thư viện hay các tổ chức lưu trữ web cho thấy, đa phần họ sử dụng các công cụ lưu trữ web mã nguồn mở. Ví dụ, Heritrix cho thu thập dữ liệu (crawling) và Wayback Machine cho truy cập. Các tổ chức cũng đã xây dựng một công cụ để quản lý tuỳ chỉnh công việc, từ việc lựa chọn các trang, thao tác với các quyền, quản lý các danh sách và thực hiện đánh giá chất lượng trên các tài liệu lưu trữ. Tuy nhiên, có một số hạn chế về những gì có thể được lưu trữ, các công nghệ thu thập thông tin thường là một số bước sau công nghệ của web hiện hành, Heritrix hiện tại không thể lưu trữ các tài liệu đa phương tiện dạng hiển thị tài liệu đa phương tiện dưới dạng dòng dữ liệu (streaming video), “web ẩn”, hay nội dung cơ sở dữ liệu yêu cầu người dùng nhập vào. Và trong khi thư viện nỗ lực để có nhiều trang web, thư viện cần đưa các chỉ dẫn để “nhện” có thể lấy được nội dung có liên quan trên các miền khác và các trang của bên thứ ba (dự án Grotke). Đối với trường hợp các đối tượng số của thư viện được lưu trữở nhiều nơi, bao gồm các máy chủ tập tin nội bộ và mảng lưu trữ đến Flickr và các thuộc tính khác trên Internet, một số thư viện xây dựng một kho lưu trữ dựa trên Fedora như một kho dữ liệu số chính, nơi mà sẽ sử dụng các công nghệ mã nguồn mở khác và chuẩn (công cụ tìm kiếm Solr và Blacklight) (dự án Leonard). Đối với một số dự án lưu trữ web khác, bản sao sẽ được lưu trữ trên đĩa CD. Một số tổ chức khác cũng đã mạnh dạn lưu nội dung web đã sao chụp bằng công nghệ đám mây.

Mặc dù công nghệ lưu trữ web đã được triển khai hơn 20 năm ở thư viện và cơ quan quản lý thông tin của các nước tiên tiến trên thế giới, nhưng công nghệ này vẫn còn là lĩnh vực mới ở Việt Nam. Khái niệm “lưu trữ web” chỉ xuất hiện như một thuật ngữ mới trong dạy và học ngành đào tạo thư viện - thông tin ở một số cơ sở đào tạo. Vì những lợi ích mà lưu trữ web mang lại, thiết nghĩ các tổ chức quản lý thông tin nói chung và thư viện nói riêng cần triển khai ứng dụng lưu trữ web như là một trong những nhiệm vụ chính yếu của tổ chức trong thời đại số.

TÀI LIỆU THAM KHẢO

1. Adar, E., Teevan, J., Dumais, S.T.Resonance on the web: web dynamics and revisitation patterns // Proceedings of the 27th International Conference on Human Factors in Computing Systems. - USA: Boston, 2009.

2. Baly, N. and Sauvin, F.Archiving Streaming Media on the Web, Proof of Concept and First Results // International Web Archiving Workshop (IWAW 06). - Spain: Alicante, 2006.

3. Bleicher, A.A memory of webs past// IEEE Spectrum. - 2011. - No. 48(3). - P. 30-37.

4. Braid, Ann.Archiving Websites: A Practical Guide for Information Management Professionals // Public Libraries. - 2008. - No. 47.3. - P. 59-60.

5. Brown, A. and Thomas, D.Archiving websites // Comma. - 2005.

6. E Crook.Web archiving in a Web 2.0 world // The Electronic Library. - 2009. - No. 27(5). - P. 831-836.

7. Farrell, S. (Ed.).A guide to Web preservation: Practical advice for Web and records managers based on best practices from the JISC-funded PoWR project. JISC PoWR. Http://jiscpowr.jiscinvolve.org/wp/files/2010/06/Guide-2010final.pdf.

8. Kavcic-Colic, Alenka.Archiving the Web--some legal aspects // Library Review. - 2003.

9. Myriam B., S., Stéphane G.Archiving the web using page changes patterns: a case study // International Journal on Digital Libraries. - 2012. - Vol. 13. - P. 33-49.

10. Ntoulas A., Cho J., Olston C.What’s new on the web?: the evolution of the web from a search engine perspective // In Proceedings of the 13th international conference on World Wide Web. - 2004. - P. 1-12.

11. Pehlivan, Z., Ben Saad, M., Gançarski, S.Vi-diff: Understanding web pages changes // In: 21st International Conference on Data-base and Expert Systems Applications (DEXA’10). - Spain: Bilbao, 2010.

12. Spinellis, D.The decay and failures of web references // Communications of the ACM. - 2003. - No. 46 (1). - P. 71-77.

13. Thiele, Harold E.Building a National Strategy for Digital Preservation: Issues in Digital Media Archiving // Technicalities. - 2003. - No. 23.

14. http://archive.org, truy cập tháng 10/2015.

15. http://www.bl.uk/aboutus/stratpolprog/digi/ webarch/, truy cập tháng 10/2015.

16. http://nationalarchives.gov.uk/archives-sector, truy cập tháng 10/2015.

17. http://internetmemory.org/en/, truy cập tháng 10/2015.

_________________________

ThS. Lâm Thị Hương Duyên

Khoa Khoa học Xã hội và Nhân văn, trường Đại học Cần Thơ

Nguồn: Thư viện Quốc gia