Dữ liệu mở là một số dữ liệu được cung cấp miễn phí cho mọi người sử dụng và xuất bản lại theo ý muốn, không bị hạn chế bởi bản quyền, bằng sáng chế hoặc các cơ chế kiểm soát khác. [1] Các mục tiêu của trào lưu dữ liệu nguồn mở tương tự như các phong trào “nguồn mở (-source)” khác như phần mềm nguồn mở, phần cứng, nội dung mở, thông số kỹ thuật mở, giáo dục mở, tài nguyên giáo dục mở, chính phủ mở, tri thức mở , truy cập mở, khoa học mở và web mở. Nghịch lý thay, sự phát triển của trào lưu dữ liệu mở song song với sự gia tăng quyền sở hữu trí tuệ. [2] Dữ liệu mở đã được thiết lập từ lâu (ví dụ như trong truyền thống khoa học của Mertonian), nhưng bản thân thuật ngữ “dữ liệu mở” mới xuất hiện gần đây trở nên phổ biến với sự gia tăng của Internet và World Wide Web và đặc biệt là với sự ra mắt các sáng kiến của chính phủ về dữ liệu mở như Data.gov, Data.gov.uk và Data.gov.in.
Dữ liệu mở cũng có thể là dữ liệu liên kết; khi đó, nó là dữ liệu mở được liên kết. Một trong những dạng dữ liệu mở quan trọng nhất là dữ liệu chính phủ mở (OGD), là một dạng dữ liệu mở được tạo ra bởi các tổ chức chính phủ cầm quyền. Tầm quan trọng của dữ liệu chính phủ mở được sinh ra từ việc nó trở thành một phần trong cuộc sống hàng ngày của công dân, cho đến những công việc thường ngày của chính phủ.
Dữ liệu viết tắt FAIR / O đôi khi được sử dụng để chỉ ra rằng tập dữ liệu hoặc cơ sở dữ liệu được đề cập tuân thủ các nguyên tắc của dữ liệu FAIR và cũng mang giấy phép mở có khả năng dữ liệu rõ ràng.
Khái niệm dữ liệu mở không phải là mới, nhưng một định nghĩa được chính thức hóa là tương đối mới. Về mặt khái niệm, dữ liệu mở như một hiện tượng biểu thị rằng dữ liệu của chính phủ nên có sẵn cho bất kỳ ai có khả năng phân quyền lại dưới bất kỳ hình thức nào mà không có bất kỳ hạn chế nào về bản quyền. [3] Một định nghĩa nữa là Định nghĩa mở có thể được tóm tắt trong tuyên bố rằng “Một phần dữ liệu được mở nếu bất kỳ ai có thể tự do sử dụng, sử dụng lại và phân quyền lại nó – tối đa chỉ tuân theo yêu cầu thuộc tính hoặc chia sẻ -alike. “[4] Các định nghĩa khác, bao gồm” Dữ liệu mở là dữ liệu mà bất kỳ ai cũng có thể truy cập, sử dụng hoặc chia sẻ “, có một phiên bản ngắn có thể truy cập của định nghĩa nhưng tham khảo định nghĩa chính thức. [5]
Dữ liệu mở có thể bao gồm tài liệu phi văn bản như bản đồ, bộ gen, hợp chất hóa học, công thức toán học và khoa học, dữ liệu y tế, thực hành, khoa học sinh học và đa dạng sinh học. Các vấn đề thường nảy sinh vì những thứ này có giá trị thương mại hoặc có thể được tổng hợp lại thành những tác phẩm có giá trị. Việc truy cập hoặc sử dụng lại dữ liệu được kiểm soát bởi các tổ chức, cả công lập và tư nhân. Việc kiểm soát có thể thông qua các hạn chế truy cập, giấy phép, bản quyền, bằng sáng chế và các khoản phí để truy cập hoặc sử dụng lại. Những người ủng hộ dữ liệu mở cho rằng những hạn chế này là đi ngược lại lợi ích chung và những dữ liệu này nên được cung cấp mà không bị hạn chế hoặc tính phí. Ngoài ra, điều quan trọng là dữ liệu có thể được sử dụng lại mà không cần xin phép thêm, mặc dù các hình thức sử dụng lại có thể được kiểm soát bởi giấy phép.
Mô tả điển hình về nhu cầu dữ liệu mở:
Nhiều nhà khoa học đã chỉ ra một điều trớ trêu là ngay tại thời điểm lịch sử khi chúng ta có các công nghệ cho phép dữ liệu khoa học sẵn có trên toàn thế giới và quy trình phân tán, mở rộng cộng tác và tăng tốc độ cũng như chiều sâu của sự khám phá … chúng ta đang bận rộn với việc khóa dữ liệu đó và ngăn cản việc sử dụng các công nghệ tiên tiến tương ứng về tri thức — John Wilbanks, VP Science, Creative Commons[6]
Người tạo ra dữ liệu thường không xem xét sự cần thiết phải nêu các điều kiện về quyền sở hữu, cấp phép và tái sử dụng; thay vào đó, giả định rằng việc không xác nhận bản quyền sẽ đưa dữ liệu vào phạm vi công cộng. Ví dụ, nhiều nhà khoa học không coi dữ liệu được công bố phát sinh từ công việc của họ là của họ để kiểm soát và coi hành động xuất bản trên tạp chí là một sự giải phóng dữ liệu ngầm vào các cơ sở kinh doanh. Tuy nhiên, việc thiếu giấy phép gây khó khăn cho việc xác định trạng thái của tập dữ liệu và có thể hạn chế việc sử dụng dữ liệu được cung cấp trên tinh thần “Mở”. Do sự không chắc chắn này, các tổ chức công hoặc tư cũng có thể tổng hợp dữ liệu nói trên, tuyên bố rằng dữ liệu đó được bảo vệ bởi bản quyền và sau đó bán lại.
Vấn đề tri thức bản địa (IK) đặt ra một thách thức lớn về thu thập, lưu trữ và phân phối. Ở các nước thuộc thế giới thứ ba thiếu các quy trình kỹ thuật để quản lý IK.
Trong bài thuyết trình của mình tại hội nghị XML 2005, Connolly [7] đã trưng bày hai trích dẫn này về dữ liệu mở:
“Tôi muốn lấy lại dữ liệu của mình.” (Jon Bosak khoảng năm 1997) [dẫn nguồn]
“Từ lâu, tôi đã tin rằng khách hàng của bất kỳ ứng dụng nào cũng sở hữu dữ liệu mà họ nhập vào.” [8] (Trích dẫn này đề cập đến dữ liệu nhịp tim của chính Veen.)
Dữ liệu mở có thể đến từ bất kỳ nguồn nào. Phần này liệt kê một số lĩnh vực xuất bản (hoặc ít nhất là thảo luận về việc xuất bản) một lượng lớn dữ liệu mở.
Khái niệm truy cập mở vào dữ liệu khoa học đã được thiết lập về mặt thể chế cùng với sự hình thành của hệ thống Trung tâm Dữ liệu Thế giới, để chuẩn bị cho Năm Địa vật lý Quốc tế 1957-1958. [9] Hội đồng Khoa học Quốc tế (nay là Hội đồng Khoa học Quốc tế) giám sát một số Trung tâm Dữ liệu Thế giới với nhiệm vụ giảm thiểu rủi ro mất mát dữ liệu và tối đa hóa khả năng truy cập dữ liệu. [10]
Trong khi phong trào dữ liệu khoa học mở có trước Internet từ lâu, sự sẵn có của mạng nhanh chóng, phổ biến đã thay đổi đáng kể bối cảnh của dữ liệu Khoa học mở, vì việc xuất bản hoặc lấy dữ liệu trở nên ít tốn kém và tốn thời gian hơn nhiều. [11]
Dự án Bộ gen người là một sáng kiến lớn thể hiện sức mạnh của dữ liệu mở. Nó được xây dựng dựa trên cái gọi là Nguyên tắc Bermuda, quy định rằng: “Tất cả thông tin trình tự bộ gen của con người … phải được cung cấp miễn phí trong phạm vi công cộng để khuyến khích nghiên cứu và phát triển và tối đa hóa lợi ích của nó cho xã hội ‘. [12] Thêm Các sáng kiến gần đây như Hiệp hội Genomural Cấu trúc đã minh họa rằng cách tiếp cận dữ liệu mở cũng có thể được sử dụng một cách hiệu quả trong bối cảnh R&D công nghiệp. [13]
Năm 2004, Bộ trưởng Khoa học của tất cả các quốc gia của Tổ chức Hợp tác và Phát triển Kinh tế (OECD), bao gồm hầu hết các quốc gia phát triển trên thế giới, đã ký một tuyên bố về cơ bản tuyên bố rằng tất cả dữ liệu lưu trữ được tài trợ công phải được công bố công khai. [14] Theo yêu cầu và một cuộc thảo luận căng thẳng với các tổ chức sản xuất dữ liệu ở các quốc gia thành viên, OECD đã xuất bản vào năm 2007 Nguyên tắc và Hướng dẫn của OECD về Tiếp cận Dữ liệu Nghiên cứu từ Nguồn vốn Công như một khuyến nghị về luật mềm. [15]
Ví dụ về dữ liệu mở trong khoa học:
Dự án Mạng Dataverse – phần mềm kho lưu trữ thúc đẩy chia sẻ dữ liệu, trích dẫn dữ liệu liên tục và nghiên cứu có thể tái tạo [16]
Data.uni-muenster.de – Dữ liệu mở về các hiện vật khoa học từ Đại học Muenster, Đức. Ra mắt vào năm 2011.
Linkedscience.org/data – Tập dữ liệu khoa học mở được mã hóa dưới dạng Dữ liệu được Liên kết. Ra mắt năm 2011, kết thúc năm 2018. [17] [18]
Systemanaturae.org – Mở bộ dữ liệu khoa học liên quan đến động vật hoang dã được phân loại theo loài động vật. Ra mắt vào năm 2015. [19]
Có một loạt các lập luận khác nhau cho dữ liệu mở của chính phủ. [20] [21] Ví dụ, một số người ủng hộ cho rằng việc cung cấp thông tin chính phủ cho công chúng dưới dạng dữ liệu mở có thể đọc được bằng máy có thể tạo điều kiện cho chính phủ minh bạch, trách nhiệm giải trình và sự tham gia của công chúng. “Dữ liệu mở có thể là một động lực mạnh mẽ đối với trách nhiệm giải trình của công chúng — nó có thể giúp thông tin hiện có dễ dàng phân tích, xử lý và kết hợp hơn bao giờ hết, cho phép mức độ giám sát mới của công chúng.” [22] Chính phủ cho phép công chúng xem dữ liệu có thể giúp công dân tham gia vào các lĩnh vực chính phủ và “gia tăng giá trị cho dữ liệu đó.” [23]
Một số cho rằng việc mở rộng thông tin chính thức có thể hỗ trợ đổi mới công nghệ và tăng trưởng kinh tế bằng cách cho phép các bên thứ ba phát triển các loại ứng dụng và dịch vụ kỹ thuật số mới.
Chính phủ của một số quốc gia đã tạo ra các trang web để phân phối một phần dữ liệu mà họ thu thập được. Nó là một khái niệm cho một dự án hợp tác trong Chính quyền thành phố để tạo ra và tổ chức văn hóa cho Dữ liệu mở hoặc Dữ liệu chính phủ mở.
Ngoài ra, các cấp chính quyền khác đã thiết lập các trang web dữ liệu mở. Có nhiều tổ chức chính phủ theo đuổi Dữ liệu mở ở Canada. Data.gov liệt kê các trang web của tổng số 40 tiểu bang Hoa Kỳ và 46 thành phố và quận của Hoa Kỳ có các trang web để cung cấp dữ liệu mở; ví dụ. bang Maryland, bang California, Hoa Kỳ [24] và Thành phố New York. [25]
Ở cấp độ quốc tế, Liên hợp quốc có một trang web dữ liệu mở công bố dữ liệu thống kê từ các quốc gia thành viên và các cơ quan của Liên hợp quốc, [26] và Ngân hàng Thế giới công bố một loạt dữ liệu thống kê liên quan đến các nước đang phát triển. [27] Ủy ban châu Âu đã tạo ra hai cổng thông tin cho Liên minh châu Âu: Cổng dữ liệu mở của EU cho phép truy cập vào dữ liệu mở từ các tổ chức, cơ quan và các cơ quan khác của EU [28] và cổng PublicData cung cấp bộ dữ liệu từ các cơ quan công quyền địa phương, khu vực và quốc gia. trên khắp châu Âu. [29]
Ý là quốc gia đầu tiên phát hành các quy trình và hướng dẫn tiêu chuẩn theo giấy phép Creative Commons để sử dụng rải rác trong Cơ quan Hành chính Công. Mô hình mở được gọi là ODMC – Chu trình quản lý dữ liệu mở [30] và được áp dụng ở một số vùng như Veneto [31] và Umbria [32] Các vùng và thành phố chính như Reggio Calabria [33] và Genova. [34]
Vào tháng 10 năm 2015, Đối tác Chính phủ Mở đã đưa ra Hiến chương Dữ liệu Mở Quốc tế, một tập hợp các nguyên tắc và thực tiễn tốt nhất để phát hành dữ liệu mở của chính phủ được chính phủ mười bảy quốc gia, tiểu bang và thành phố chính thức thông qua trong Hội nghị thượng đỉnh toàn cầu OGP ở Mexico. [35 ]
Nhiều tổ chức phi lợi nhuận ít nhiều cung cấp quyền truy cập mở vào dữ liệu của họ, miễn là nó không làm suy yếu quyền riêng tư của người dùng, thành viên hoặc bên thứ ba của họ. So với các tập đoàn hoạt động vì lợi nhuận, họ không tìm cách kiếm tiền từ dữ liệu của mình. OpenNWT đã ra mắt một trang web cung cấp dữ liệu mở về các cuộc bầu cử. [36] CIAT cung cấp dữ liệu mở cho bất kỳ ai, những người sẵn sàng thực hiện phân tích dữ liệu lớn để nâng cao lợi ích của nghiên cứu nông nghiệp quốc tế. [37] DBLP, thuộc sở hữu của tổ chức phi lợi nhuận Dagstuhl, cung cấp cơ sở dữ liệu về các ấn phẩm khoa học từ khoa học máy tính dưới dạng dữ liệu mở. [38] Các dịch vụ trao đổi khách sạn phi lợi nhuận cung cấp cho các nhóm nhà khoa học đáng tin cậy quyền truy cập vào dữ liệu ẩn danh của họ để công bố những hiểu biết sâu sắc về lợi ích của nhân loại. Trước khi trở thành một công ty hoạt động vì lợi nhuận vào năm 2011, Couchsurfing đã cung cấp cho 4 nhóm nghiên cứu quyền truy cập vào dữ liệu mạng xã hội của mình. [39] [40] [41] [42] Vào năm 2015, các dịch vụ trao đổi khách sạn phi lợi nhuận Bewelcome và Warm Showers đã cung cấp dữ liệu của họ cho nghiên cứu công khai. [43] [44]
Cuộc tranh luận về dữ liệu mở vẫn đang tiếp tục phát triển. Các ứng dụng chính phủ mở tốt nhất tìm cách trao quyền cho người dân, giúp các doanh nghiệp nhỏ hoặc tạo ra giá trị theo một số cách tích cực, mang tính xây dựng khác. Việc mở dữ liệu của chính phủ chỉ là một con đường trên con đường cải thiện giáo dục, cải thiện chính phủ và xây dựng các công cụ để giải quyết các vấn đề khác trong thế giới thực. Trong khi nhiều lập luận đã được đưa ra một cách phân loại [cần dẫn nguồn], cuộc thảo luận sau đây về các lập luận ủng hộ và chống lại dữ liệu mở nhấn mạnh rằng những lập luận này thường phụ thuộc nhiều vào loại dữ liệu và cách sử dụng tiềm năng của nó.
Các lập luận được đưa ra thay mặt cho dữ liệu mở bao gồm những điều sau:
– “Dữ liệu thuộc về loài người”. Ví dụ điển hình là bộ gen, dữ liệu về sinh vật, khoa học y tế, dữ liệu môi trường tuân theo Công ước Aarhus
– Tiền công được sử dụng để tài trợ cho công việc và vì vậy nó phải được phổ biến rộng rãi. [46]
– Nó được tạo ra bởi hoặc tại một tổ chức chính phủ (điều này phổ biến ở các Phòng thí nghiệm Quốc gia Hoa Kỳ và các cơ quan chính phủ)
– Sự kiện không thể được đăng ký bản quyền một cách hợp pháp.
– Các nhà tài trợ cho nghiên cứu không nhận được đầy đủ giá trị trừ khi dữ liệu kết quả được cung cấp miễn phí.
– Các hạn chế về việc sử dụng lại dữ liệu tạo ra một phản ứng chống ung thư.
– Dữ liệu cần thiết cho quá trình điều hành các hoạt động của con người ở xã một cách suôn sẻ và là động lực quan trọng thúc đẩy phát triển kinh tế – xã hội (chăm sóc sức khỏe, giáo dục, năng suất kinh tế, v.v.). [47]
– Trong nghiên cứu khoa học, tốc độ khám phá được tăng tốc nhờ khả năng tiếp cận dữ liệu tốt hơn. [48]
– Việc mở dữ liệu giúp chống lại tình trạng “thối rữa dữ liệu” và đảm bảo rằng dữ liệu nghiên cứu khoa học được bảo toàn theo thời gian. [49] [50]
– Các lợi ích về kiến thức thống kê từ dữ liệu mở. Người hướng dẫn có thể sử dụng các bộ dữ liệu có liên quan tại địa phương để dạy các khái niệm thống kê cho sinh viên của họ. [51] [52]
Thông thường người ta cho rằng dữ liệu thực tế không thể được đăng ký bản quyền. [53] Tuy nhiên, các nhà xuất bản thường xuyên thêm các tuyên bố về bản quyền (thường cấm sử dụng lại) vào dữ liệu khoa học đi kèm với các ấn phẩm. Có thể không rõ liệu dữ liệu thực tế được nhúng trong văn bản đầy đủ có thuộc bản quyền hay không.
Mặc dù sự trừu tượng của con người đối với các dữ kiện từ các ấn phẩm giấy thường được chấp nhận là hợp pháp, nhưng thường có một hạn chế ngụ ý đối với việc khai thác máy bằng robot.
Không giống như truy cập mở, trong đó các nhóm nhà xuất bản đã nêu mối quan tâm của họ, dữ liệu mở thường bị thách thức bởi các tổ chức cá nhân. [Cần dẫn nguồn] Các lập luận của họ ít được thảo luận trong các cuộc diễn thuyết công khai và có ít trích dẫn hơn để dựa vào thời điểm này.
Các lập luận chống lại việc cung cấp tất cả dữ liệu dưới dạng dữ liệu mở bao gồm những điều sau:
– Tài trợ của chính phủ không được sử dụng để trùng lặp hoặc thách thức các hoạt động của khu vực tư nhân (ví dụ: PubChem).
– Chính phủ phải chịu trách nhiệm về việc sử dụng hiệu quả tiền của người đóng thuế: Nếu công quỹ được sử dụng để tổng hợp dữ liệu và nếu dữ liệu chỉ mang lại lợi ích thương mại (tư nhân) cho một số ít người dùng, thì người dùng phải hoàn trả cho chính phủ chi phí cung cấp dữ liệu.
– Dữ liệu mở có thể dẫn đến việc khai thác và công bố nhanh chóng các kết quả dựa trên dữ liệu liên quan đến các nước đang phát triển bởi các viện nghiên cứu giàu có và được trang bị tốt, mà không cần thêm bất kỳ sự tham gia nào và / hoặc mang lại lợi ích cho cộng đồng địa phương (nghiên cứu trực thăng); tương tự như việc tiếp cận rộng rãi trong lịch sử đối với các khu rừng nhiệt đới đã dẫn đến việc sử dụng (“Global Pillage”) các nguồn gen thực vật từ các nước đang phát triển. [54]
– Doanh thu kiếm được từ việc xuất bản dữ liệu có thể được sử dụng để trang trải chi phí tạo lập và phổ biến dữ liệu để việc phổ biến có thể tiếp tục vô thời hạn.
– Doanh thu kiếm được từ việc xuất bản dữ liệu cho phép các tổ chức phi lợi nhuận tài trợ cho các hoạt động khác (ví dụ: xuất bản xã hội học hỏi hỗ trợ xã hội).
– Chính phủ đưa ra tính hợp pháp cụ thể cho các tổ chức nhất định để thu hồi chi phí (NIST ở Hoa Kỳ, Khảo sát về vật liệu ở Anh).
– Các mối quan tâm về quyền riêng tư có thể yêu cầu quyền truy cập vào dữ liệu bị giới hạn đối với những người dùng cụ thể hoặc các tập hợp con của dữ liệu.
– Thu thập, ‘làm sạch’, quản lý và phổ biến dữ liệu thường là các quy trình tốn nhiều công sức và chi phí cao – bất kỳ ai cung cấp các dịch vụ này sẽ nhận được thù lao công bằng cho việc cung cấp các dịch vụ đó.
– Các nhà tài trợ không nhận được đầy đủ giá trị trừ khi dữ liệu của họ được sử dụng một cách thích hợp – đôi khi điều này đòi hỏi nỗ lực quản lý chất lượng, phổ biến và xây dựng thương hiệu có thể đạt được tốt nhất bằng cách tính phí cho người dùng.
Các mục tiêu của phong trào Dữ liệu mở cũng tương tự như các mục tiêu của phong trào “Mở” khác.
– Truy cập mở có liên quan đến việc cung cấp miễn phí các ấn phẩm học thuật trên internet. Trong một số trường hợp, những bài báo này cũng bao gồm các tập dữ liệu mở.
– Thông số kỹ thuật mở là tài liệu mô tả các loại tệp hoặc giao thức, nơi tài liệu được cấp phép công khai. Thông thường, các thông số kỹ thuật này chủ yếu nhằm mục đích cải thiện các phần mềm khác nhau xử lý các loại tệp hoặc giao thức giống nhau, nhưng các nhà độc quyền bị luật pháp buộc vào các thông số kỹ thuật mở có thể gây khó khăn hơn.
– Nội dung mở có liên quan đến việc cung cấp miễn phí các tài nguyên hướng đến khán giả (chẳng hạn như văn xuôi, ảnh hoặc video).
– Mở mang kiến thức. Open Knowledge International tranh luận về sự cởi mở trong nhiều vấn đề bao gồm nhưng không giới hạn ở những vấn đề của dữ liệu mở. Nó bao gồm (a) nội dung khoa học, lịch sử, địa lý hoặc (b) như âm nhạc, phim ảnh, sách (c) Chính phủ và các thông tin hành chính khác. Dữ liệu mở được bao gồm trong phạm vi của Định nghĩa kiến thức mở, được ám chỉ trong Giao thức triển khai dữ liệu truy cập mở của Science Commons. [56]
– Sổ ghi chép khoa học mở đề cập đến việc áp dụng khái niệm Dữ liệu mở vào càng nhiều quy trình khoa học càng tốt, bao gồm cả các thí nghiệm thất bại và dữ liệu thí nghiệm thô. [57]
– Phần mềm nguồn mở quan tâm đến các giấy phép nguồn mở mà theo đó các chương trình máy tính có thể được phân phối và thường không quan tâm chủ yếu đến dữ liệu.
– Các tài nguyên giáo dục mở có thể truy cập miễn phí, các tài liệu và phương tiện được cấp phép công khai, hữu ích cho việc giảng dạy, học tập và đánh giá cũng như cho các mục đích nghiên cứu.
– Nghiên cứu mở / khoa học mở / dữ liệu khoa học mở (khoa học mở được liên kết) có nghĩa là một cách tiếp cận để mở và kết nối các tài sản khoa học như dữ liệu, phương pháp và công cụ với các kỹ thuật dữ liệu được liên kết để cho phép nghiên cứu minh bạch, có thể tái tạo và xuyên ngành. [58]
– Open-GLAM (Phòng trưng bày, Thư viện, Lưu trữ và Bảo tàng) [59] là một sáng kiến và mạng lưới hỗ trợ trao đổi và hợp tác giữa các tổ chức văn hóa hỗ trợ truy cập mở vào các bộ sưu tập số hóa của họ. Sáng kiến GLAM-Wiki giúp các tổ chức văn hóa chia sẻ tài nguyên được cấp phép công khai của họ với thế giới thông qua các dự án hợp tác với các biên tập viên Wikipedia có kinh nghiệm. Dữ liệu Di sản Mở được liên kết với GLAM Mở, vì dữ liệu được cấp phép công khai trong lĩnh vực di sản hiện thường được sử dụng trong nghiên cứu, xuất bản và lập trình, [60] đặc biệt là trong Nhân văn Kỹ thuật số.
– Thông thường, người dùng cuối được nhắm mục tiêu không thể sử dụng dữ liệu mà không cần xử lý bổ sung (phân tích, ứng dụng, v.v.) – nếu bất kỳ ai có quyền truy cập vào dữ liệu, không ai có thể có động cơ đầu tư vào quá trình xử lý cần thiết để làm cho dữ liệu trở nên hữu ích (ví dụ điển hình bao gồm sinh học, dữ liệu y tế và môi trường).
– Không có quyền kiểm soát việc sử dụng thứ cấp (tổng hợp) dữ liệu mở. [55]
Một số cơ quan cấp vốn ủy quyền Truy cập Mở cũng ủy quyền Dữ liệu Mở. Viện Nghiên cứu Y tế Canada (CIHR) đưa ra một biểu hiện tốt về các yêu cầu (được cắt bớt ở những chỗ): [61]
Để lưu trữ dữ liệu tin sinh học, tọa độ nguyên tử, phân tử, dữ liệu thí nghiệm vào cơ sở dữ liệu công cộng thích hợp ngay sau khi công bố kết quả nghiên cứu.
Để giữ lại các tập dữ liệu gốc trong tối thiểu năm năm sau khi cấp. Điều này áp dụng cho tất cả dữ liệu, cho dù được xuất bản hay không.
Các cơ quan khác tích cực trong việc thúc đẩy việc lắng đọng dữ liệu cũng như văn bản đầy đủ bao gồm Wellcome Trust. Một bài báo học thuật được xuất bản vào năm 2013 đã ủng hộ rằng Horizon 2020 (cơ chế tài trợ khoa học của EU) nên yêu cầu các dự án được tài trợ phải cung cấp cơ sở dữ liệu của họ dưới dạng “sản phẩm được phân phối” vào cuối dự án, để sau đó chúng có thể được kiểm tra về khả năng sử dụng của bên thứ ba. đã chia sẻ. [62]
Một số cơ chế hạn chế quyền truy cập hoặc sử dụng lại dữ liệu (và một số lý do để làm điều này đã được nêu ở trên). Chúng bao gồm:
– Cung cấp dữ liệu có tính phí.
– Biên dịch trong cơ sở dữ liệu hoặc trang web mà chỉ thành viên hoặc khách hàng đã đăng ký mới có thể truy cập.
– Sử dụng công nghệ hoặc mã hóa độc quyền hoặc khép kín tạo ra rào cản cho việc truy cập.
– Tuyên bố bản quyền tuyên bố cấm (hoặc làm xáo trộn) sử dụng lại dữ liệu, bao gồm cả việc sử dụng các yêu cầu “không có dẫn xuất”.
– Bằng sáng chế cấm sử dụng lại dữ liệu (ví dụ như tọa độ 3 chiều của một số cấu trúc protein thí nghiệm đã được cấp bằng sáng chế).
– Hạn chế rô bốt đối với các trang web, với ưu tiên cho các công cụ tìm kiếm nhất định.
– Tổng hợp dữ liệu thực tế thành “cơ sở dữ liệu” có thể được bao gồm trong “quyền cơ sở dữ liệu” hoặc “chỉ thị cơ sở dữ liệu” (ví dụ: Chỉ thị về bảo vệ hợp pháp cơ sở dữ liệu).
– Quyền truy cập có giới hạn thời gian vào các tài nguyên như tạp chí điện tử (trên bản in truyền thống có sẵn cho người mua vô thời hạn).
– “Webstacles” hoặc việc cung cấp các điểm dữ liệu đơn lẻ thay vì truy vấn dạng bảng hoặc tải xuống hàng loạt tập dữ liệu.
– Áp lực chính trị, thương mại hoặc pháp lý đối với hoạt động của các tổ chức cung cấp Dữ liệu Mở (ví dụ: Hiệp hội Hóa học Hoa Kỳ đã vận động Quốc hội Hoa Kỳ hạn chế tài trợ cho Viện Y tế Quốc gia cho dữ liệu Open PubChem của mình). [63]
Tài liệu tham khảo:
- Auer, S. R.; Bizer, C.; Kobilarov, G.; Lehmann, J.; Cyganiak, R.; Ives, Z. (2007). “DBpedia: A Nucleus for a Web of Open Data”. The Semantic Web. Lecture Notes in Computer Science. 4825. p. 722. doi:10.1007/978-3-540-76298-0_52. ISBN 978-3-540-76297-3.
- ^ Kitchin, Rob (2014). The Data Revolution. London: Sage. p. 49. ISBN 978-1-4462-8748-4.
- ^ Kassen, Maxat (1 October 2013). “A promising phenomenon of open data: A case study of the Chicago open data project”. Government Information Quarterly. 30 (4): 508–513. doi:10.1016/j.giq.2013.05.012. ISSN 0740-624X.
- ^ See Open Definition home page and the full Open Definition
- ^ “What is ‘open data’ and why should we care? – The ODI”. Retrieved 1 September2021.
- ^ Science Commons
- ^ Connolly, Dan (16 November 2005). “Semantic Web Data Integration with hCalendar and GRDDL”. W3C Talks and Presentations. Atlanta, Georgia, USA: W3C. p. 2. Retrieved 2 May 2015.
- ^ Veen, Jeffrey (2 November 2005). “Polar Heart Rate Monitors: Gimme my data!”. A website by Jeffrey Veen.
- ^ Committee on Scientific Accomplishments of Earth Observations from Space, National Research Council (2008). Earth Observations from Space: The First 50 Years of Scientific Achievements. The National Academies Press. p. 6. doi:10.17226/11991. ISBN 978-0-309-11095-2. Retrieved 24 November 2010.
- ^ World Data System (27 September 2017). “Data Sharing Principles”. www.icsu-wds.org. ICSU-WDS (International Council for Science – World Data Service). Retrieved 27 September 2017.
- ^ Vuong, Quan-Hoang (12 December 2017). “Open data, open review and open dialogue in making social sciences plausible”. Nature: Scientific Data Updates. arXiv:1712.04801. Bibcode:2017arXiv171204801V. Retrieved 30 June 2018.
- ^ Human Genome Project, 1996. Summary of Principles Agreed Upon at the First International Strategy Meeting on Human Genome Sequencing (Bermuda, 25–28 February 1996)
- ^ Perkmann, Markus; Schildt, Henri (2015). “Open Data Partnerships between Firms and Universities: The Role of Boundary Organizations”. Research Policy. 44 (5): 1133–1143. doi:10.1016/j.respol.2014.12.006.
- ^ OECD Declaration on Open Access to publicly funded data Archived 20 April 2010 at the Wayback Machine
- ^ OECD Principles and Guidelines for Access to Research Data from Public Funding
- ^ Dataverse Network Project
- ^ “Data”. Linked Science. 17 October 2012. Archived from the original on 17 October 2012. Retrieved 1 September 2021.
- ^ Kauppinen, Tomi; de Espindola, Giovanna Mira (2011). Linked Open Science—Communicating, Sharing and Evaluating Data, Methods and Results for Executable Papers (PDF). International Conference on Computational Science, ICCS 2011. 4. Procedia Computer Science.
- ^ “Home”. Wildlife DataSets, Animal Population DataSets and Conservation Research Projects, Surveys – Systema Naturae. Retrieved 1 September 2021.
- ^ Gray, Jonathan (3 September 2014). Towards a Genealogy of Open Data. General Conference of the European Consortium for Political Research in Glasgow. doi:10.2139/ssrn.2605828 – via SSRN.
- ^ Brito, Jerry (21 October 2007). “Hack, Mash, & Peer: Crowdsourcing Government Transparency”. Colum. Sci. & Tech. L. Rev. 119 (2008). George Mason University. doi:10.2139/ssrn.1023485. SSRN 1023485.
- ^ Yu, Harlan; Robinson, David G. (28 February 2012). “The New Ambiguity of ‘Open Government'”. UCLA Law Review Discourse. 59. doi:10.2139/ssrn.2012489. SSRN 2012489 – via Social Science Research Network.
- ^ Robinson, David G.; Yu, Harlan; Zeller, William P.; Felten, Edward W. (1 January 2009). “Government Data and the Invisible Hand”. Yale Journal of Law & Technology. Rochester, NY. 11. SSRN 1138083 – via Social Science Research Network.
- ^ “California Open Data Portal”. data.ca.gov. Retrieved 7 May 2019.
- ^ Data, City of New York, NYC Open. “NYC Open Data”. NYC OpenData. Retrieved 7 May 2019.
- ^ “UNdata”. data.un.org. Retrieved 7 May 2019.
- ^ “World Bank Open Data | Data”. data.worldbank.org. Retrieved 7 May 2019.
- ^ “Data.europa.eu”. Retrieved 7 May 2019.
- ^ “Home | Open Data Portal”. data.europa.eu. Retrieved 7 May 2019.
- ^ “Open Data Management Cycle”.
- ^ “Linee guida per l’ecosistema regionale veneto dei dati aperti (Open Data)”.
- ^ “Modello Operativo Open Data (MOOD) Umbria”.
- ^ “Linee Guida per la Gestione Open Data – Città di Reggio Calabria”.
- ^ “Linee guida programmatiche della Città Metropolitana di Genova” (PDF).
- ^ “The Open Data Charter: A Roadmap for Using a Global Resource”. The Huffington Post. 27 October 2015. Retrieved 29 October 2015.
- ^ Green, Arthur C. “OpenNWT announces launch of new election information website”. My Yellowknife Now.
- Oyuela, Andrea; Walmsley, Thea; Walla, Katherine (30 December 2019). “120 Organizations Creating a New Decade for Food”. Food Tank. Retrieved 21 January 2020.
- ^ “dblp: How can I download the whole dblp dataset?”. dblp.uni-trier.de. Dagstuhl. Retrieved 21 January 2020.
- ^ Victor, Patricia; Cornelis, Chris; De Cock, Martine; Herrera-Viedma, Enrique (2010). “Bilattice-based aggregation operators for gradual trust and distrust”. World Scientific Proceedings Series on Computer Engineering and Information Science. World Scientific: 505–510. doi:10.1142/9789814324700_0075. ISBN 978-981-4324-69-4.
- ^ Vaka, Avinash; Manasa, G.; Sameer, G.; Das, Bhaskarjyoti (July 2019). Generation And Analysis Of Trust Networks. 2019 1st International Conference on Advances in Information Technology (ICAIT). doi:10.1109/ICAIT47043.2019.8987287.
- ^ Overgoor, Jan; Wulczyn, Ellery; Potts, Christopher (20 May 2012). “Trust Propagation with Mixed-Effects Models”. Sixth International AAAI Conference on Weblogs and Social Media.
- ^ Lauterbach, Debra; Truong, Hung; Shah, Tanuj; Adamic, Lada (August 2009). “Surfing a Web of Trust: Reputation and Reciprocity on CouchSurfing.com”. 2009 International Conference on Computational Science and Engineering. 4: 346–353. doi:10.1109/CSE.2009.345. ISBN 978-1-4244-5334-4.
- ^ Rustam Tagiew; Dmitry I. Ignatov; Radhakrishnan Delhibabu (2015). Hospitality Exchange Services as a Source of Spatial and Social Data?. (IEEE) International Conference on Data Mining Workshop (ICDMW). Atlantic City. pp. 1125–1130. doi:10.1109/ICDMW.2015.239.
- ^ Rustam Tagiew; Dmitry I. Ignatov; Radhakrishnan Delhibabu (2015). Economics of Internet-Based Hospitality Exchange. (IEEE/WIC/ACM) International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT). Singapore. pp. 493–498. arXiv:1501.06941. doi:10.1109/WI-IAT.2015.89.
- ^ BMI (7 July 2021). Open-Data-Strategie der Bundesregierung — BMI21030 [Open data strategy of the German Federal Government — BMI21030] (PDF) (in German). Berlin, Germany: Bundesministerium des Innern, für Bau und Heimat (BMI). Retrieved 26 July2021.
- ^ “On the road to open data, by Ian Manocha”. Archived from the original on 29 March 2012. Retrieved 12 August 2011.
- ^ “Big Data for Development: From Information- to Knowledge Societies”, Martin Hilbert (2013), SSRN Scholarly Paper No. ID 2205145. Rochester, NY: Social Science Research Network; https://ssrn.com/abstract=2205145
- ^ How to Make the Dream Come True[permanent dead link] argues in one research area (Astronomy) that access to open data increases the rate of scientific discovery.
- ^ Khodiyar, Varsha (19 May 2014). “Stopping the rot: ensuring continued access to scientific data, irrespective of age”. F1000 Research. F1000. Retrieved 11 March 2015.
- ^ Magee AF, May MR, Moore BR (24 October 2014). “The dawn of open access to phylogenetic data”. PLOS ONE. 9 (10): e110268. arXiv:1405.6623. Bibcode:2014PLoSO…9k0268M. doi:10.1371/journal.pone.0110268. PMC 4208793. PMID 25343725.
- ^ Rivera, Roberto; Marazzi, Mario; Torres, Pedro (19 June 2019). “Incorporating Open Data Into Introductory Courses in Statistics”. Journal of Statistics Education. Taylor and Francis. 27 (3): 198–207. doi:10.1080/10691898.2019.1669506. Retrieved 7 May 2020.
- ^ Rivera, Roberto. Principles of Managerial Statistics and Data Science. Wiley. ISBN 1119486416.
- ^ Towards a Science Commons Archived 14 July 2014 at the Wayback Machineincludes an overview of the basis of openness in science data.
- ^ Low, A., 2001. The Third Revolution: Plant Genetic Resources in Developing Countries and China: Global Village or Global Pillage. Int’l. Trade & Bus. L. Ann. 323
- ^ Sharif, Naubahar; Ritter, Waltraut; Davidson, Robert L; Edmunds, Scott C (31 December 2018). “An Open Science ‘State of the Art’ for Hong Kong: Making Open Research Data Available to Support Hong Kong Innovation Policy”. Journal of Contemporary Eastern Asia. 17 (2): 200–221. doi:10.17477/JCEA.2018.17.2.200.
- ^ “Protocol for Implementing Open Access Data”. Archived from the original on 30 January 2017. Retrieved 17 April 2009.
- ^ http://drexel-coas-elearning.blogspot.com/2006/09/open-notebook-science.html creation of term
- ^ Kauppinen, T.; Espindola, G. M. D. (2011). “Linked Open Science-Communicating, Sharing and Evaluating Data, Methods and Results for Executable Papers”. Procedia Computer Science. 4: 726–731. doi:10.1016/j.procs.2011.04.076.
- ^ “Open GLAM”. Wikimedia Meta-Wiki.
- ^ Roued-Cunliffe, Henriette (2020). Open Heritage Data: An introduction to research, publishing and programming with open data in the heritage sector. London: Facet. ISBN 9781783303595.
- ^ SPARC-OpenData@arl.org Mailing List Archive
- ^ Galsworthy, M.J. & McKee, M. (2013). Europe’s “Horizon 2020” science funding programme: How is it shaping up? Journal of Health Services Research and Policy. doi: 10.1177/1355819613476017
- ^ “Review of history and positions by the University of California”. Archived from the original on 9 November 2006. Retrieved 31 October 2006.
Nguồn https://vi.wikipedia.org/wiki