Dữ liệu mở 5 sao
Năm sao của dữ liệu mở. Một hệ thống đánh giá dữ liệu mở do Tim Berners-Lee, người sáng lập World Wide Web, ủng hộ. Để đạt 5 sao tốt nhất, dữ liệu phải đáp ứng 5 điều kiện sau: (1) Có sẵn trên web theo giấy phép mở , (2) ở định dạng dữ liệu có cấu trúc , (3) ở định dạng tệp không độc quyền, (4) sử dụng URI làm định danh, (5) Chứa liên kết đến các nguồn dữ liệu khác . Để có được 3 sao, các điều kiện từ (1) đến (3) phải được đáp ứng (cũng như các sao khác). ” Định nghĩa về Mở ” yêu cầu xếp hạng 3 sao để dữ liệu được chứng nhận là mở, nhưng nó không cần phải được viết hoặc liên kết trong RDF . Nhờ định nghĩa như vậy, nhiều loại và nguồn dữ liệu hơn có thể được mở mà không cần nỗ lực viết thông tin liên kết.
API
Giao diện lập trình ứng dụng. Về mặt dữ liệu, nó thường là một trong những phương tiện mà chương trình hoặc ứng dụng / ứng dụng được cung cấp bởi data [publisher (../publisher/) để đọc dữ liệu trực tiếp qua web . Trong trường hợp đó, ứng dụng sẽ gửi một truy vấn đến API yêu cầu cung cấp dữ liệu cụ thể mà nó cần . Ví dụ, thời gian khởi hành của xe buýt tiếp theo tại một bến xe buýt. Điều này cho phép ứng dụng sử dụng dữ liệu trong khi tiết kiệm băng thông mà không cần tải xuống toàn bộ tập dữ liệu và đảm bảo rằng dữ liệu mới nhất được tham chiếu.
Ẩn danh (Anonymousisation )
Xử lý dữ liệu bao gồm thông tin cá nhân để không còn có thể nhận dạng các cá nhân trong dữ liệu kết quả. Ẩn danh cho phép dữ liệu được xuất bản mà không vi phạm các nguyên tắc bảo vệ dữ liệu . Các kỹ thuật chính là tổng hợp và khử nhận dạng . Cần phải cẩn thận để tránh rò rỉ dữ liệu dẫn đến quyền riêng tư của các cá nhân bị xâm phạm. UKAN nghiên cứu thực tiễn tốt nhất trong việc ẩn danh dữ liệu.
BitTorrent
BitTorrent là một giao thức phân phối băng thông được sử dụng để trao đổi các tệp lớn giữa nhiều máy tính. Thay vì tải xuống các tệp từ một vị trí cụ thể, BitTorrent sử dụng các tệp ngang hàng để cho phép chúng tải xuống lẫn nhau.
CKAN
Là một nền tảng phần mềm mã nguồn mở để tạo cổng dữ liệu , do Kiến thức mở duy trì. CKAN được sử dụng làm nền tảng tiết lộ dữ liệu chính thức ở hơn 20 quốc gia và chính quyền khu vực, đồng thời được nhiều tổ chức hơn bao gồm các tổ chức phi chính phủ như chính quyền địa phương, cộng đồng và các lĩnh vực khoa học sử dụng làm nền tảng. Các tính năng đáng chú ý bao gồm khả năng chỉnh sửa siêu dữ liệu , giao diện web dễ sử dụng cho cả nhà xuất bản và người dùng dữ liệu, tính năng xem trước dữ liệu, cài đặt cấp độ xác thực đơn vị tổ chức và tất cả các tính năng thông qua API , bao gồm cả quyền truy cập dữ liệu. Bạn có thể làm gì với.
CSV
CSV (các giá trị được phân tách bằng dấu phẩy) là định dạng tiêu chuẩn được sử dụng cho dữ liệu dạng bảng. Mỗi phần dữ liệu được biểu diễn dưới dạng một cột giá trị được phân tách bằng dấu phẩy, từng dòng trong một tệp văn bản thuần túy. Đây là một định dạng mở cực kỳ đơn giản , dễ sử dụng và được sử dụng rộng rãi để tiết lộ dữ liệu mở.
DOI
Bộ nhận dạng đối tượng kỹ thuật số. Một mã định danh cho các đối tượng kỹ thuật số (chẳng hạn như tài liệu và bộ dữ liệu) , được chỉ định bởi cơ quan đăng ký trung tâm và do đó duy nhất trên toàn cầu: không thể có hai đối tượng kỹ thuật số có DOI giống nhau trên thế giới.
Trình bao bọc dữ liệu
Một người chuyển đổi dữ liệu thành một biểu mẫu có thể sử dụng được để chúng có thể dễ dàng sử dụng bằng các công cụ tự động hoặc bán tự động. Dữ liệu xung quanh có thể bao gồm việc làm sạch dữ liệu hơn nữa .
Chỉ thị PSI của Liên minh Châu Âu
Chỉ thị PSI của EU. Chỉ thị về Tái sử dụng Thông tin Khu vực Công, 2003/98 / EC. “Cần phải thúc đẩy khả năng tái sử dụng các nguồn thông tin do các tổ chức công nắm giữ.”
GIS
Hệ thống thông tin địa lý. Hệ thống máy tính để đọc, hiển thị, phân tích và xử lý dữ liệu địa lý .
GPS
Hệ thống định vị vệ tinh (Global Positioning System) là một hệ thống dựa trên vệ tinh có thể cung cấp thông tin vị trí chính xác cho các thiết bị có thể nhận được sóng vô tuyến thích hợp (bao gồm cả điện thoại thông minh ngày nay). GPS không thể thiếu đối với các ứng dụng sử dụng nhiều thông tin vị trí, chẳng hạn như thông tin tìm kiếm tuyến đường sử dụng thông tin vị trí hiện tại và dự báo thời tiết . GPS cũng được biết đến như một ví dụ về dữ liệu mở thành công nhất, được duy trì bởi chính phủ Hoa Kỳ và cung cấp miễn phí cho các thiết bị có tích hợp bộ thu GPS.
GeoJSON
Bắt nguồn từ định dạng JSON , nó chuyên về chức năng thể hiện dữ liệu địa lý . Do đó, nó thường được sử dụng như một định dạng để trao đổi dữ liệu địa lý.
Quyền SHTT
Độc quyền cấp cho các cá nhân để sáng tạo trí tuệ.
JSON
Viết tắt của Ký hiệu đối tượng JavaScript. Một định dạng dữ liệu đơn giản nhưng mang tính mô tả. Nó là một mô tả của các cấu trúc dữ liệu phức tạp, máy có thể đọc được và đồng thời con người cũng có thể đọc được ngay cả ở đó theo cách riêng của nó, không phụ thuộc vào nền tảng và ngôn ngữ lập trình. Do đó, nó là một định dạng thường được sử dụng để trao đổi dữ liệu giữa các chương trình và hệ thống.
KML
Keyhole Markup Language, Định dạng mở dựa trên XML cho dữ liệu địa lý . KML được phát minh ra cho Keyhole Earth Viewer và sau đó được Google mua lại và đổi tên thành Google Earth. Tuy nhiên, kể từ năm 2008, nó đã trở thành tiêu chuẩn quốc tế cho Hiệp hội Không gian Địa lý Mở .
NGO
Tổ chức phi chính phủ. NGO là các tổ chức phi lợi nhuận tự nguyện tập trung vào hoạt động từ thiện, xây dựng cộng đồng, chiến dịch, nghiên cứu và các bộ phận trung tâm khác của xã hội dân sự.
ODRA
Đánh giá mức độ sẵn sàng của dữ liệu mở. Một khuôn khổ do Ngân hàng Thế giới tạo ra để đánh giá các cơ hội, trở ngại và các bước tiếp theo cần thực hiện ở các nước (đặc biệt là các nước đang phát triển, trong đó có Việt Nam) đang coi việc xuất bản dữ liệu hành chính là dữ liệu mở.
ODbL
Giấy phép cơ sở dữ liệu mở. Đây là một nỗ lực nhằm tạo ra một giấy phép mở cho dữ liệu bao gồm ” quyền cơ sở dữ liệu ” cũng như bản quyền . Việc sử dụng lại dữ liệu nhằm mục đích thực hiện điều này bằng cách thực hiện các nghĩa vụ theo hợp đồng đối với người đó. Thật không may, luật hợp đồng có một nền tảng khác với bản quyền. Điều này là do bản quyền là duy nhất đối với tác phẩm và được ràng buộc với tất cả người dùng ở phần dưới của tác phẩm, trong khi hợp đồng được ràng buộc giữa các bên và dành cho những người dùng có thể tái sử dụng dữ liệu sau khi công bố. Không có sự ép buộc nào. Tuy nhiên, ODbL rất hữu ích và những nỗ lực khác đã được thực hiện để tạo giấy phép mở, đặc biệt là cho dữ liệu.
OGP
Quan hệ Đối tác Chính phủ Mở. Một quan hệ đối tác chính phủ được khởi động vào năm 2011 với mục đích thúc đẩy chính phủ cởi mở ở các nước thành viên và hợp tác trên các thỏa thuận đa phương và các thông lệ tốt nhất. Hiện tại đã có 78 quốc gia là thành viên.
PDF
Viết tắt của Định dạng Tài liệu Di động. Nó là một định dạng tệp thể hiện bố cục trang và hình thức của tài liệu, và độc lập với phần mềm bố cục và hệ điều hành. Ban đầu là một định dạng độc quyền của Adobe Systems, nó đã được mở từ năm 2008 . Dữ liệu được ghi trong tệp PDF không thể đọc được bằng máy.
RDF
Viết tắt của Khung mô tả tài nguyên. Dùng để mô tả dữ liệu được liên kết . Nói một cách chính xác, RDF không phải là một định dạng dữ liệu, nhưng có một số định dạng tương đương đại diện cho RDF. Ví dụ, một định dạng dựa trên XML . Đơn vị nhỏ nhất của dữ liệu RDF là “bộ ba” bao gồm chủ ngữ, vị ngữ và đối tượng. Dữ liệu RDF được lưu trữ trong một cơ sở dữ liệu chuyên dụng được gọi là bộ ba lưu trữ .
SPARQL
SQL giống như ngôn ngữ truy vấn . Được sử dụng cho dữ liệu liên kết Triple store.
SQL
Viết tắt của Ngôn ngữ truy vấn có cấu trúc. Ngôn ngữ chuẩn được sử dụng để truy cập các loại cơ sở dữ liệu khác nhau .
SaaS
Phần mềm như là một dịch vụ. Có nghĩa là, nó không chỉ hoạt động trên máy của người dùng mà còn trên máy của công ty lưu trữ mà người dùng truy cập qua web . Máy chủ quản lý bộ nhớ liên quan và thường kiếm tiền từ mỗi khách hàng bằng cách tính phí người dùng dịch vụ hoặc cách khác.
Shapefile
Dữ liệu địa lý phổ biến cho định dạng tệp trong, công ty GIS Esri duy trì, đã được mở cho công chúng, nhà phát triển của phần mềm. Một Shapefile thực sự bao gồm một số tệp liên quan. Mặc dù định dạng của nó là độc quyền về mặt kỹ thuật , Esri xuất bản tất cả các tiêu chuẩn đặc điểm kỹ thuật và Shapefiles có thể được đọc bởi một loạt các phần mềm. Vì lý do này, nó thực sự hoạt động giống như một tiêu chuẩn mở.
URI / URL
Viết tắt của Định vị tài nguyên đồng nhất / Định vị tài nguyên đồng nhất. URL là địa chỉ web có định dạng “http: //…” đại diện cho một trang hoặc tài nguyên. Khi một URL được sử dụng làm mã định danh đối tượng trong dữ liệu được liên kết , nó không hoàn toàn là định vị cho đối tượng đó (ví dụ: “http://dbpedia.org/page/Paris” là tài liệu về Paris. Nó đại diện cho một địa điểm, không phải vị trí của chính Paris). Vì vậy, trong ngữ cảnh này, nó được gọi là URI thay vì URL.
API web
Một API được thiết kế để hoạt động qua internet .
XLS (X)
Định dạng bảng tính độc quyền , định dạng gốc của gói bảng tính Microsoft Excel phổ biến. Các phiên bản cũ hơn sử dụng tệp .xls, trong khi các phiên bản mới hơn sử dụng các biến thể .xlsx dựa trên XML .
XML
Ngôn ngữ đánh dấu có thể mở rộng. Một tiêu chuẩn đơn giản và mạnh mẽ để biểu diễn dữ liệu có cấu trúc .
App / Application
Một phần mềm (cũng hiểu đơn giản là “ứng dụng”) được thiết kế để chạy đặc biệt trên web , điện thoại di động hoặc các nền tảng tương tự. Các ứng dụng có thể kết nối với cơ sở dữ liệu lớn qua mạng, sử dụng dữ liệu mở làm thông tin vị trí cụ thể , được cá nhân hóa theo thời gian thực ( sử dụng GPS trên điện thoại di động ). Đây có thể là một cách hiệu quả để thực hiện điều này. Ứng dụng Crowdsourcing có thể được sử dụng để tự xây dựng bộ dữ liệu hoặc cải thiện bộ dữ liệu hiện có.
Giao diện lập trình ứng dụng
Application Programming Interface. Một cách để một chương trình máy tính tương tác với một chương trình khác. Nó được coi như một đơn vị khi người lập trình gửi hướng dẫn đến chương trình.
Thử thách ứng dụng
App challenge. Một trong những hình thức {tham gia cộng đồng} phổ biến của các nhà cung cấp dữ liệu, mời các nhà lập trình phát triển các ứng dụng / ứng dụng giải quyết các vấn đề nhất định hoặc cung cấp dịch vụ bằng cách sử dụng dữ liệu có sẵn công khai .
Không tùy chọn
Unconference. Một cuộc họp tương tự như một hội nghị, nhưng không có chương trình nghị sự được xác định trước. Sử dụng nhiều kỹ thuật đã được thiết lập, những người tham gia đồng ý về loại phiên họ sẽ có cùng nhau trong ngày. Nó cũng có thể bao gồm một phiên họp truyền thống hơn một chút với các diễn giả được mời. Một định dạng phổ biến trong cộng đồng công nghệ là sự không tham chiếu được tổ chức cùng với hoặc bên cạnh các hackathons sử dụng dữ liệu mở . Đây là một phương pháp để hiện thực hóa sự tham gia của cộng đồng bởi các nhà xuất bản dữ liệu .
Internet
Nó là một tập hợp dữ liệu có cấu trúc được thể hiện dưới dạng mà con người hiểu và cần xử lý. Thông tin được chuyển thành tri thức khi ngữ cảnh được diễn giải theo tri thức và thế giới quan của cá nhân .
Web
World Wide Web, một bộ sưu tập khổng lồ các tài liệu và dịch vụ được kết nối và liên kết với nhau có thể được truy cập qua Internet thông qua một “trình duyệt web”.
Định nghĩa mở
Định nghĩa về mở được Open Knowledge đưa ra lần đầu tiên vào năm 2005 và mô tả dữ liệu và nội dung có thể được coi là mở trong những điều kiện nào. Các “tiêu chuẩn” do Định nghĩa Mở cung cấp là cực kỳ quan trọng. Bởi vì hầu hết giá trị của dữ liệu mở nằm ở sự dễ dàng kết hợp dữ liệu mở từ nhiều nguồn khác nhau. Khả năng tương thích về mặt pháp lý và kỹ thuật đều cực kỳ quan trọng và trong định nghĩa dữ liệu mở, được cấp phép công khai sẽ tránh việc tăng giấy phép và điều khoản sử dụng cho dữ liệu mở, dẫn đến sự phức tạp và không tương thích, mà không có vấn đề gì. Chúng tôi đảm bảo rằng chúng có thể được kết hợp với nhau. Khi các tổ chức chính phủ trở nên sẵn sàng hơn để gắn nhãn “mở”, định nghĩa mở đảm bảo rằng thuật ngữ này không mất đi ý nghĩa của nó trong sự cường điệu hóa. Ngày nay, nó là tiêu chuẩn quốc tế hàng đầu về dữ liệu mở và cấp phép dữ liệu mở, với một ban cố vấn gồm những người thực hành dữ liệu mở có tay nghề cao. Các quyết định và khuyến nghị tuân thủ giấy phép chuyên ngành đã củng cố các giấy phép trên khắp thế giới. Ví dụ, “Giấy phép Chính phủ Mở” có ảnh hưởng quốc tế của Chính phủ Vương quốc Anh. Định nghĩa mở cũng đã ảnh hưởng và định hướng các cộng đồng thực hành khác trong phong trào mở, bao gồm quyền truy cập mở vào các nghiên cứu được tài trợ công, phần cứng mở và hơn thế nữa.
Mở quyền truy cập
Nguyên tắc rằng các bài báo đã xuất bản và các kết quả nghiên cứu khác, đặc biệt là các nghiên cứu được tài trợ công khai, phải được tiếp cận miễn phí với mọi người. Điều này trái ngược với mô hình truyền thống trong đó nghiên cứu được xuất bản trên các tạp chí áp đặt phí đăng ký cho độc giả. Ngoài những lợi ích tương tự như những lợi ích của dữ liệu mở, việc che giấu nghiên cứu có giá trị và có giá trị đối với những độc giả có thể sử dụng hoặc xây dựng dựa trên nó là vô đạo đức. Các tạp chí truy cập mở đã tồn tại và mối quan tâm của các nhà tài trợ nghiên cứu là cung cấp một số lực kéo, đặc biệt là trong lĩnh vực khoa học.
Chính phủ mở
Chính phủ mở nhằm mục đích tạo ra một hệ thống chính phủ nhìn chung minh bạch với người dân, công dân có thể giải thích được và hoàn thành trách nhiệm đối với công dân, phù hợp với phong trào cởi mở . Điều này bao gồm các nguyên tắc dân chủ, quy trình tố tụng, sự tham gia của công chúng và tiết lộ thông tin của chính phủ. Một cách tiếp cận triệt để và liên tục đối với việc tiết lộ thông tin của chính phủ nhằm đạt được sự tham gia của cộng đồng, ví dụ, trong việc soạn thảo và hiệu đính luật pháp và ngân sách.
Khoa học mở
Thực hành khoa học theo nguyên tắc mở. Bao gồm tiết lộ quyền truy cập mở , tiết lộ dữ liệu nghiên cứu dưới dạng dữ liệu mở với mã nguồn phù hợp và sự hợp tác liên quan, sử dụng và phát triển các công cụ xử lý dữ liệu nguồn mở .
Mã nguồn mở
Phần mềm có mã nguồn có sẵn theo giấy phép mở. Phần mềm không chỉ có sẵn miễn phí mà người dùng có các kỹ năng kỹ thuật cần thiết có thể kiểm tra mã nguồn, sửa đổi nó để chạy phiên bản mã của riêng họ, giúp sửa lỗi và phát triển các tính năng mới có thể. Một số dự án phần mềm nguồn mở lớn có hàng nghìn cộng tác viên tình nguyện. Định nghĩa Mở dựa trên nhiều Định nghĩa Nguồn Mở ban đầu, mô tả các điều kiện mà phần mềm được coi là nguồn mở.
Mở dữ liệu
Dữ liệu có thể được coi là mở khi nó được sử dụng tự do, sử dụng lại và phân phối lại – các điều kiện duy nhất phải tuân theo là ghi công và kế thừa .
Định dạng mở
Định dạng tệp có cấu trúc được mô tả theo tiêu chuẩn đã thống nhất . Được giám sát và xuất bản bởi một tổ chức chuyên nghiệp phi lợi nhuận. Các tệp đang mở được đảm bảo đọc chính xác bởi nhiều phần mềm khác nhau và được sử dụng để chuyển thông tin giữa chúng.
Tiêu chuẩn mở
Nói chung, nó được coi là một tiêu chuẩn kỹ thuật có thể được sử dụng tự do mà không bị hạn chế bởi giấy phép. Nó cũng có thể được hiểu là một tiêu chuẩn trung lập với nhà cung cấp.
Chuyển động mở
Phong trào cởi mở là một phong trào nhằm giải quyết các vấn đề cấp bách nhất của thế giới trên tinh thần minh bạch, hợp tác, tái sử dụng và truy cập tự do. Bao gồm dữ liệu mở , chính phủ mở , phát triển mở , khoa học mở và nhiều hơn nữa. Các quy trình có sự tham gia, kiến thức và đầu ra và chia sẻ phần mềm nguồn mở là những công cụ chính. Định nghĩa chi tiết về “mở” áp dụng cho dữ liệu, kiến thức và nội dung được đưa ra trong định nghĩa về mở .
Phát triển mở
Phát triển mở hướng tới triết lý của phong trào mở để phát triển quốc tế . Nó thúc đẩy chính phủ mở, minh bạch hóa các luồng hỗ trợ, sự tham gia của người thụ hưởng trong việc thiết kế và thực hiện các dự án phát triển, cũng như tính sẵn có và sử dụng dữ liệu phát triển mở.
Truy vấn
Một loại quy trình hỏi loại dữ liệu mà cơ sở dữ liệu lưu giữ. Bằng cách sử dụng các truy vấn phức tạp, có thể yêu cầu cơ sở dữ liệu cung cấp các biện pháp khác nhau, tổng lượng nội dung được lưu giữ, v.v. Nhiều cơ sở dữ liệu cho phép bạn sử dụng SQL hoặc một ngôn ngữ truy vấn cụ thể cho cơ sở dữ liệu đó. Web API cho phép các ứng dụng để gửi truy vấn đến cơ sở dữ liệu thông qua các trang web . So với tải xuống và xử lý dữ liệu, phương pháp này giảm băng thông cần thiết và tải tính toán của ứng dụng.
Đám mây
Nó tùy thuộc vào các lưu trữ công ty để lưu trữ các dữ liệu trong đám mây, giải phóng chủ sở hữu dữ liệu từ quản lý lưu trữ vật lý. Thay vì lưu trữ trên một máy, nó thường được lưu trữ trên nhiều máy ở các vị trí khác nhau, nhưng chủ sở hữu và người dùng dữ liệu không cần biết chi tiết. Công ty lưu trữ có trách nhiệm lưu giữ dữ liệu và giữ cho dữ liệu đó có sẵn trên Internet .
Nguồn lực cộng đồng
Chia công việc xây dựng một lượng lớn dữ liệu thành các nhiệm vụ nhỏ hơn để nhiều tình nguyện viên có thể cùng thực hiện. Cho một ví dụ. Wikipedia là một bách khoa toàn thư có nguồn cung cấp từ cộng đồng. Galaxy Zoo là công ty tiên phong về dữ liệu khoa học có nguồn gốc từ cộng đồng và được xây dựng bằng cách để những người không phải là chuyên gia phân loại các thiên hà một cách trực quan. NOVAM là một dịch vụ yêu cầu người dân đảm bảo rằng dữ liệu công khai về vị trí của các trạm dừng xe buýt ở Vương quốc Anh là chính xác và thực hiện các chỉnh sửa nếu cần, và nguồn cung ứng cộng đồng đã thực hiện 18.000 chỉnh sửa.
Creative Commons
Một tổ chức phi lợi nhuận được thành lập vào năm 2001 để tạo điều kiện sử dụng lại nội dung đã xuất bản theo một số giấy phép tiêu chuẩn, một số giấy phép mở (mặc dù một số giấy phép khác bao gồm các điều khoản phi thương mại), có thể được sử dụng khi tái sử dụng và phát hành nội dung, đồng thời cũng có thể làm rõ ý nghĩa .
Thu hồi chi phí
Nguyên tắc định giá cho tài nguyên, chẳng hạn như dữ liệu. Nó được phân biệt với chi phí cận biên và nhằm mục đích khôi phục chi phí thu thập dữ liệu. Dữ liệu được tính để khôi phục chi phí không phải là dữ liệu mở theo định nghĩa của mở. Các nghiên cứu đã chỉ ra rằng tính phí {hàng tồn kho} dựa trên nguyên tắc thu hồi chi phí có tốc độ tăng trưởng chậm hơn so với giá tự do hoặc giá cận biên.
Máy chủ
Một máy tính được cài đặt trên Internet, thường được quản lý bởi một công ty lưu trữ, đáp ứng các yêu cầu từ người dùng. Ví dụ: cần tải xuống các trang web và tệp hoặc để truy cập chức năng của các gói SaaS chạy trên máy chủ .
Civic Hacking
Xây dựng các công cụ và cộng đồng giải quyết các vấn đề xã hội và thành phố cụ thể, thường là trực tuyến. Các công cụ giúp người dùng gặp gỡ tại địa phương với những người cùng chí hướng về một mối quan tâm cụ thể, báo cáo bất kỳ cơ sở hạ tầng bị hỏng nào cho chính quyền địa phương hoặc cùng nhau dọn rác trong khu phố của bạn Các hoạt động như làm việc có thể là một ví dụ. Dữ liệu mở ở cấp địa phương đặc biệt hữu ích cho các dự án civic hacking.
Scraping
Trích xuất dữ liệu từ dữ liệu không thể đọc được của máy, chẳng hạn như trang web và tài liệu PDF , đồng thời tạo dữ liệu có cấu trúc từ kết quả. Vì việc quét màn hình yêu cầu một chương trình chuyên dụng và thời gian lập trình rất tốn kém, nó thường chỉ được thực hiện sau khi mọi nỗ lực lấy dữ liệu có cấu trúc đều thất bại. Các câu hỏi pháp lý có thể nảy sinh về việc liệu việc cạo sửa có vi phạm bản quyền hoặc điều khoản dịch vụ của trang web nguồn hay không .
Bảng tính
Một bảng dữ liệu và công thức có thể được xử lý tương tác bằng các chương trình dành riêng cho bảng tính như Microsoft Excle và OpenOffice Calc.
Mã nguồn
Một tệp mã máy tính được viết bởi một lập trình viên được sử dụng để tạo ra một phần mềm. Mã nguồn thường được chuyển đổi hoặc “biên dịch” thành một định dạng có thể chạy trên máy tính của bạn. Do đó, người dùng sẽ không nhìn thấy mã nguồn trừ khi nó được phát hành dưới dạng mã nguồn mở .
TSV
Tab-separated values là một trong những định dạng tệp văn bản thường được sử dụng khi chia sẻ dữ liệu dạng bảng. Cực kỳ đơn giản và máy có thể đọc được .
Dữ liệu
Dữ liệu được coi là mô tả sự kiện chưa qua xử lý và nguyên thủy, thường đề cập đến một tập hợp thông tin số có hệ thống trong một bảng số, chẳng hạn như bảng tính và cơ sở dữ liệu . Khi cấu trúc dữ liệu được cấu trúc và biểu diễn theo cách dễ sử dụng và phù hợp cho một mục đích cụ thể, thì đó là thông tin hỗ trợ sự hiểu biết của con người.
Làm sạch dữ liệu
Điều này bao gồm những điều sau: Sự không nhất quán và sửa lỗi. Xử lý tập dữ liệu để dễ sử dụng. Loại bỏ các phần tử không phải {machine-readable}, chẳng hạn như theo công thức. Sử dụng các nhãn tiêu chuẩn cho các hàng và cột đầu đề. Biểu diễn đúng số, ngày tháng và các đại lượng khác. Chuyển đổi sang định dạng tệp thích hợp . Khớp nhãn với các tập dữ liệu khác được sử dụng trong Tích hợp dữ liệu.
Dữ liệu báo chí
Báo chí dữ liệu. Khả năng làm việc với dữ liệu ngày càng trở thành một phần quan trọng trong đào tạo nhà báo. Các kỹ năng cần thiết để nghiên cứu và viết các bài báo dựa trên dữ liệu tốt là làm sạch dữ liệu , nghiên cứu và đào sâu để hiểu được nội dung bài viết muốn truyền tải và hình dung phù hợp .
Tập dữ liệu
Tập dữ liệu. Dữ liệu được tổ chức thành một mảnh. Thuật ngữ “tập dữ liệu” có thể thay đổi một chút theo ngữ cảnh và có thể đề cập đến toàn bộ cơ sở dữ liệu , bảng tính hoặc đơn giản là một tệp dữ liệu hoặc một tập hợp dữ liệu liên quan đến tài nguyên dữ liệu.
Cơ sở dữ liệu
(i) Việc thu thập dữ liệu có tổ chức có thể được coi như một cơ sở dữ liệu. Ý nghĩa của từ trong trường hợp này đồng nghĩa với tập dữ liệu .
(ii) Hệ thống phần mềm quản lý và xử lý dữ liệu, có chức năng bổ sung lưu trữ, cập nhật, thay đổi và truy vấn dữ liệu. Ví dụ bao gồm mã nguồn mở PostgreSQL và Microsoft Access độc quyền .
Quyền cơ sở dữ liệu
Quyền cấm người khác đọc hoặc sử dụng lại nội dung của cơ sở dữ liệu. Nó tồn tại chủ yếu ở các khu vực pháp lý Châu Âu.
Cổng dữ liệu
Một nền tảng web để xuất bản dữ liệu . Mục đích của cổng thông tin dữ liệu là cung cấp dữ liệu cho người dùng và làm cho dữ liệu đó có thể khám phá được (có thể khám phá / phát hiện được) thông qua việc cung cấp các danh mục dữ liệu . Đồng thời, chúng tôi sẽ cung cấp cơ chế để giảm bớt khối lượng công việc khi xuất bản dữ liệu. Các tính năng chính bao gồm giao diện web để xem dữ liệu, tìm kiếm và duyệt danh mục, giao diện máy (API) tự động xuất bản dữ liệu theo yêu cầu từ hệ thống bên ngoài, xem trước dữ liệu và hình ảnh. Có chức năng chuyển đổi.
Giao thức truy cập dữ liệu
Một giao thức cho phép truy cập được xác thực vào cơ sở dữ liệu từ bên ngoài mà không cần viết lại cả hai hệ thống.
Tính toàn vẹn của dữ liệu
Sổ cái Đất Anh năm 1086, được viết bằng mực trên giấy da, ngày nay vẫn được coi là một kỹ thuật có thể đọc được rõ ràng. Tính toàn vẹn lâu dài của bộ dữ liệu trong những năm gần đây đã trở nên khó đảm bảo vì không chắc liệu các định dạng tệp, cơ sở hạ tầng máy tính, phương tiện lưu trữ và kết nối mạng có tồn tại trong tương lai hay không. Các dự án tập trung đặc biệt vào tính toàn vẹn của dữ liệu có nhiều cách tiếp cận khác nhau để tránh những vấn đề này.
Luật bảo vệ dữ liệu
Luật bảo vệ dữ liệu không bảo vệ dữ liệu, nhưng bảo vệ quyền của công chúng được sống mà không phải lo lắng về việc thông tin riêng tư của họ bị tiết lộ. Luật pháp bảo vệ các quyền như quyền riêng tư (điều kiện tài chính và sức khỏe cá nhân, ủng hộ các đảng phái chính trị, v.v.), tự do đi lại . Ví dụ, Phần Lan đã từng sử dụng hệ thống thẻ du lịch, sử dụng một đầu đọc để xem tất cả hồ sơ du lịch trên các phương tiện giao thông công cộng. Các cuộc thảo luận đã nảy sinh từ quan điểm tự do đi lại và dữ liệu được thu thập bởi thẻ du lịch sẽ bị hủy theo luật bảo vệ dữ liệu.
Chất lượng dữ liệu
Một chỉ báo về mức độ dễ dàng xử lý dữ liệu. Tập dữ liệu lý tưởng có thể đọc trực tiếp bằng máy , với công bố chính xác, toàn diện, kịp thời và các tên được cung cấp thể hiện chính xác nội dung của mục, ví dụ: vị trí dữ liệu bị thiếu. Ở trạng thái này ( xem Làm sạch dữ liệu ), quy ước đặt tên cho các cột giá trị đầu vào phù hợp với tiêu chuẩn và đủ siêu dữ liệu được thêm vào để giúp người dùng hiểu nội dung dễ dàng hơn . Ví dụ: siêu dữ liệu là nguồn của dữ liệu hoặc ý nghĩa của các giá trị trong tập dữ liệu.
Rò rỉ dữ liệu
Nếu dữ liệu cá nhân được ẩn danh không hoàn toàn, thì có thể tái tạo lại danh tính của một số chủ thể dữ liệu với dữ liệu cá nhân về họ (có thể với dữ liệu có sẵn từ các nguồn khác). Dữ liệu cá nhân không được tiết lộ ( xem Bảo vệ dữ liệu ), nhưng có thể nói nó đã bị “rò rỉ” từ dữ liệu “ẩn danh”. Các loại dữ liệu bí mật khác rất dễ bị rò rỉ, chẳng hạn như do các biện pháp bảo mật dữ liệu kém. Xem không nhận dạng .
Quản lý dữ liệu
Các chính sách, thủ tục và công nghệ được sử dụng để xử lý dữ liệu trong suốt vòng đời dữ liệu, từ thu thập dữ liệu đến lưu trữ, bảo quản và sử dụng. Chính sách quản lý dữ liệu nên đưa vào tài khoản các yêu cầu của chất lượng dữ liệu , tính sẵn có, bảo vệ dữ liệu , toàn vẹn dữ liệu, vv
Tích hợp dữ liệu
Việc sử dụng dữ liệu hữu ích và thú vị thường liên quan đến việc kết hợp dữ liệu từ nhiều nguồn khác nhau. Điều này yêu cầu khả năng tương thích cho các bộ dữ liệu khác nhau: cùng một đối tượng, đơn vị, tọa độ, v.v. phải sử dụng cùng một tên. Nếu chất lượng dữ liệu tốt, quy trình tích hợp dữ liệu này rất dễ dàng, nhưng nếu không, nó có thể cực kỳ tốn kém. Mục tiêu chính của dữ liệu được liên kết là tự động hóa tất cả hoặc gần như tất cả việc tích hợp dữ liệu. Dữ liệu không mở là một rào cản đối với việc tích hợp dữ liệu. Việc lấy dữ liệu và nhận được các quyền cần thiết để sử dụng nó là một việc tốn thời gian và phải được thực hiện lại cho từng tập dữ liệu.
Tập dữ liệu
Thu thập dữ liệu. Tập dữ liệu được tạo ra bằng cách thu thập dữ liệu theo nhiều cách khác nhau: đo thủ công hoặc tự động (ví dụ dữ liệu khí tượng), khảo sát (dữ liệu sensus), hồ sơ quyết định (dữ liệu ngân sách), hoặc giao dịch đang diễn ra (dữ liệu chi dữ liệu), {mô hình hóa} toán học (ước tính dân số), v.v.
Triple store
” Bộ ba” tạo nên dữ liệu RDF có thể được lưu trữ trong một cơ sở dữ liệu chuyên dụng được gọi là bộ ba lưu trữ. Đối với Triple store, bạn có thể phát hành và truy vấn tìm kiếm bằng ngôn ngữ truy vấn SPARQL .
Hackathon
Một sự kiện, thường kéo dài hơn một hoặc hai ngày, nơi các nhà phát triển, chuyên gia chủ đề và những người khác cùng nhau tạo ra các ứng dụng , hình ảnh trực quan và nguyên mẫu nhằm giải quyết các vấn đề trong một miền cụ thể, thường sử dụng nhiều dữ liệu. Hackathons tập trung vào một bộ sưu tập dữ liệu cụ thể là một hình thức tương tác cộng đồng có thể có của các nhà xuất bản dữ liệu. Hackathon là một định dạng phổ biến trong cộng đồng mã nguồn mở .
Hàng loạt
Số lượng lớn. Dữ liệu có sẵn hàng loạt nếu toàn bộ tập dữ liệu có thể được tải xuống hệ thống của người dùng một cách dễ dàng và hiệu quả. Ngược lại, nếu bạn bị giới hạn ở một phần của tập dữ liệu, chẳng hạn như nếu bạn cần hàng nghìn hoặc hàng triệu yêu cầu để truy xuất toàn bộ tập dữ liệu vì một thao tác bị giới hạn ở một vài phần tử, thì số lượng lớn không hẳn. Cung cấp quyền truy cập hàng loạt là một yêu cầu đối với dữ liệu mở .
Miền công cộng
Phạm vi công cộng là có Nội dung không có bản quyền . Ví dụ, thời hạn bảo vệ đã hết hạn, hoặc bất kỳ ai cũng có thể sử dụng nó theo bất kỳ cách nào và người ta nói rằng nó thuộc phạm vi công cộng. Theo giấy phép Creative Commons, đó là một trong những CC0 là một ‘sự cống hiến phạm vi công cộng’, từ bỏ càng nhiều càng tốt tất cả các quyền của tác phẩm, ý định để đưa vào phạm vi công cộng.
Dữ liệu lớn
Big data. Đó là một tập hợp lượng dữ liệu khổng lồ không thể lưu trữ, giao tiếp hoặc xử lý bằng các phương pháp truyền thống. Khi nhu cầu xử lý lượng dữ liệu khổng lồ như vậy (ví dụ, lượng dữ liệu khí tượng khổng lồ và các dữ liệu khoa học khác) tăng lên, đồng thời, nhu cầu xử lý lượng dữ liệu lớn như vậy cũng tăng lên, các công nghệ máy tính chuyên về nó đang thúc đẩy sự phát triển của kiến trúc và ngôn ngữ lập trình.
Định dạng tệp
Cách ghi tệp trên đĩa máy tính. Định dạng thường tương ứng với phần cuối cùng của tên tệp (“phần mở rộng”). Ví dụ: tệp CSV là school-list.csv. Định dạng tệp dành cho định dạng bên trong của tệp, không phải cho phương thức hiển thị cho người dùng. Ví dụ: các tệp CSV và XLS có cấu trúc rất khác nhau trên đĩa, nhưng chúng sẽ trông rất giống nhau khi được mở trong một chương trình bảng tính như Excel .
Quyền riêng tư
Đó là quyền mà một cá nhân có trong cuộc sống của mình và bao gồm quyền không được tiết lộ thông tin về bản thân. Quyền riêng tư cũng được ghi nhận trong Tuyên ngôn Quốc tế về Nhân quyền và Công ước Châu Âu về Nhân quyền. Xem bảo vệ dữ liệu .
Độc quyền
Sở hữu độc quyền.
(i) Phần mềm độc quyền được sở hữu bởi các công ty hạn chế việc sử dụng nó. Người dùng thường phải trả một khoản phí để sử dụng phần mềm, mã nguồn hoặc đọc hoặc viết lại, không thể hoặc bán lại như một phần của phần mềm khác hoặc sao chép phần mềm. Các ví dụ nổi tiếng là Microsoft Excel và Adobe Acrobat. Phần mềm không độc quyền thường là mã nguồn mở .
(ii) Các định dạng tệp độc quyền do công ty sở hữu và kiểm soát. Cần có phần mềm độc quyền để yên tâm sử dụng định dạng dữ liệu này. Không giống như định dạng mở , các chi tiết của định dạng này là bí mật hoặc riêng tư và công ty có thể thay đổi bất kỳ lúc nào. Phần mềm độc quyền thường đọc và ghi dữ liệu ở định dạng riêng. Ví dụ: các phiên bản khác nhau của Microsoft Excel sử dụng các định dạng XLS hoặc XLSX độc quyền.
Máy chủ lưu trữ
Host. Một công ty lưu trữ dữ liệu người dùng trên máy tính (máy chủ) của riêng mình và cung cấp dữ liệu đó qua Internet . Dịch vụ được lưu trữ là dịch vụ chạy trên máy tính của nhà cung cấp dịch vụ, nơi dữ liệu được lưu trữ và có thể truy cập qua mạng. SaaS liên quan .
Siêu dữ liệu
Metadata. Thông tin về tập dữ liệu. Ví dụ: tiêu đề và mô tả tóm tắt, phương pháp thu thập, tác giả hoặc nhà xuất bản, vùng phủ sóng và độ tuổi, giấy phép , ngày tháng và tần suất cập nhật, v.v. Việc tiết lộ siêu dữ liệu thích hợp là điều cần thiết cho cả khả năng tìm thấy và khả năng sử dụng.
Giấy phép
Một công cụ pháp lý cho phép chủ sở hữu bản quyền cấp quyền cho các tác phẩm được bảo hộ. Dữ liệu và nội dung được cho là mở nếu chúng tuân thủ định nghĩa về mở và phải tuân theo giấy phép được áp dụng rõ ràng. Một số giấy phép mở tiêu chuẩn có sẵn, chẳng hạn như giấy phép Creative Commons CC-BY , chỉ yêu cầu ghi công .
Giấy phép hỗn hợp
Trộn giấy phép. Nếu Dự án X xuất bản nội dung và muốn lấy nội dung từ Dự án Y, giấy phép của Y phải cho phép sử dụng lại ở mức độ ít nhất bằng mức giấy phép của X. Ví dụ: nội dung được xuất bản theo giấy phép phi lợi nhuận không được đưa vào wikipedia. Bởi vì giấy phép mở của Wikipedia bao gồm việc sử dụng thương mại và do đó không thể bao gồm dữ liệu phi lợi nhuận. Đây là một ví dụ mà các giấy phép không thể được trộn lẫn với nhau.
Thời gian thực
Dữ liệu được cập nhật liên tục, chẳng hạn như vị trí hiện tại của các chuyến tàu trên mạng. Cần có một truy vấn để có được phiên bản mới nhất .
Tài nguyên
CKAN sử dụng thuật ngữ này để chỉ một trong các đối tượng dữ liệu riêng lẻ (tệp và API như bảng tính ) trong tập dữ liệu .
Dữ liệu được liên kết
Một trong những định dạng biểu diễn dữ liệu, tất cả các số nhận dạng là http: //… URI và sử dụng danh sách chuẩn các số nhận dạng ( xem từ vựng ) nếu có thể và khi tập dữ liệu chứa các liên kết đến các tham chiếu tập dữ liệu cho cùng một đối tượng. Việc cần làm. Mục đích chính của nó là tự động tích hợp dữ liệu ngay cả đối với các bộ dữ liệu lớn . Dữ liệu được liên kết thường được thể hiện trong RDF . Xem thêm dữ liệu mở 5 sao , lưu trữ gấp ba .
Dữ liệu lưu lượng truy cập
Dữ liệu vận chuyển. Các tuyến đường giao thông công cộng, lịch trình và dữ liệu thời gian thực rất hữu ích nhưng khó xuất bản dưới dạng dữ liệu mở. Ngay cả khi dữ liệu được công bố, định dạng dữ liệu được xuất bản bởi các tập đoàn và ngành vận tải khác nhau cũng không thống nhất, điều này khiến bên thứ ba gặp khó khăn trong việc cung cấp dịch vụ vận tải tích hợp chúng. Trong lĩnh vực này, các hoạt động tiêu chuẩn hóa và tiến bộ hơn nữa trong các hoạt động dữ liệu mở là bắt buộc.
Con người có thể đọc được
Dữ liệu ở định dạng con người có thể đọc được. Một số định dạng có thể đọc được của con người không thể đọc được bằng máy vì chúng không phải là dữ liệu có cấu trúc , chẳng hạn như PDF . Có nghĩa là, biểu diễn dữ liệu trên đĩa không thể hiện các mối quan hệ thực tế mà dữ liệu có.
Thông tin khu vực công
Thông tin Khu vực Công (PSI) là thông tin được thu thập hoặc quản lý bởi các tổ chức công.
Nhà xuất bản
Một người phân phối và cung cấp dữ liệu có sẵn và các nội dung khác. Nhà xuất bản dữ liệu bao gồm các cơ quan chính phủ, tổ chức liên kết, cơ sở nghiên cứu, tổ chức phi chính phủ , phương tiện truyền thông, doanh nghiệp và cá nhân.
Sử dụng lại
Tái sử dụng. Có rất ít trường hợp dữ liệu được thu thập cho một mục đích cụ thể không thể được sử dụng cho các mục đích khác. May mắn thay, dữ liệu là một nguồn tài nguyên vô tận ( xem Bi kịch của Commons ). Sau khi được thu thập, nó chỉ đơn giản là cung cấp sẵn theo giấy phép mở cho người sở hữu dữ liệu để thực hiện việc tái sử dụng đó, và vì bất kỳ lý do gì, nó được sử dụng lại nhiều lần theo những cách không mong muốn khi thu thập được.
Ẩn danh
Xử lý dữ liệu có chứa thông tin cá nhân để kết quả không xác định cá nhân. Ẩn danh cho phép dữ liệu được xuất bản mà không vi phạm chính sách bảo vệ dữ liệu . Các công nghệ chính là tập hợp và khử danh tính . Cần phải cẩn thận để tránh xâm phạm quyền riêng tư cá nhân do rò rỉ dữ liệu . UKAN đang nghiên cứu các phương pháp hay nhất trong việc ẩn danh dữ liệu.
Dữ liệu địa lý
Tập dữ liệu chứa dữ liệu đại diện cho thông tin vị trí (ví dụ: vĩ độ / kinh độ, các mã hóa tiêu chuẩn khác, v.v.). Nhiều loại dữ liệu như bản đồ, tuyến đường vận chuyển, dữ liệu môi trường và dữ liệu địa chính có thể được xuất bản dưới dạng dữ liệu địa lý.
Chuyển đổi
Sự chuyển đổi. Xử lý tự động để cung cấp dữ liệu cho nhiều ứng dụng hơn bằng cách đọc dữ liệu ở một định dạng tệp và xuất cùng một dữ liệu ở các định dạng khác nhau.
Nhiều nguyên tắc về mắt
Many eyes principle. Khi một điều gì đó được nhiều người nhìn thấy, chúng ta có xu hướng có thể đoàn kết và phát hiện ra những sai lầm trong đó. Do đó, việc hiển thị dữ liệu mở có thể cải thiện độ chính xác và chất lượng dữ liệu của nó, đặc biệt nếu nó có giao diện thông báo lỗi tốt
Sự tham gia của công dân
Sự tham gia của công dân. Nỗ lực để người dân tham gia tích cực vào việc hoạch định chính sách và ra quyết định của chính quyền thành phố. Sự tham gia của người dân là mục tiêu trọng tâm của chính phủ mở . Nó phù hợp với mục tiêu cải thiện việc ra quyết định chính sách và giành được và duy trì sự ủng hộ và hỗ trợ của người dân. Dữ liệu mở là một công cụ quan trọng để khuyến khích sự tham gia của cộng đồng có hiểu biết.
Băng thông
Tốc độ truyền dữ liệu giữa các máy tính. Băng thông có giới hạn, vì vậy các ứng dụng nhằm đáp ứng nhu cầu của người dùng trong khi chỉ tải xuống lượng dữ liệu tối thiểu nhất.
Ghi công
Lời cảm ơn tới nguồn (tác giả gốc) khi sử dụng hoặc xuất bản lại dữ liệu. Giấy phép dữ liệu được cấp phép có thể yêu cầu ghi công vào nguồn. Theo định nghĩa của mở, dữ liệu tuân theo giới hạn này cũng được coi là dữ liệu mở .
Thông tin
Tập hợp dữ liệu có cấu trúc được thể hiện ở định dạng mà con người có thể hiểu và xử lý . Thông tin biến thành kiến thức khi nó có thể diễn giải được trong bối cảnh kiến thức và thế giới quan của một người .
Sổ cái tài sản thông tin
IAR là một tập hợp siêu dữ liệu về một lượng lớn thông tin do các chính phủ và cơ quan chính phủ nắm giữ. IAR theo nghĩa rộng cũng bao gồm cơ sở dữ liệu, tệp quá khứ, tệp điện tử gần đây, thông tin thống kê, kết quả nghiên cứu, v.v.
Chỉ thị PSI của EU công nhận tầm quan trọng của việc tạo sổ đăng ký tài nguyên cho những người muốn sử dụng lại thông tin công khai. Tôi đang yêu cầu các thành viên của mình cung cấp một cái gì đó như danh sách hoặc cổng thông tin. Đây là yêu cầu. ”Các công cụ giúp người dùng lại tiềm năng tìm thấy các tài liệu sẵn có để sử dụng lại và các điều kiện để sử dụng lại có thể tạo điều kiện thuận lợi đáng kể cho việc sử dụng xuyên biên giới các tài liệu của khu vực công. Do đó, các Quốc gia Thành viên cần đảm bảo rằng có sự sắp xếp thực tế để giúp tái -người dùng tìm kiếm tài liệu có sẵn để sử dụng lại. Danh sách tài sản, tốt nhất là có thể truy cập trực tuyến các tài liệu chính (tài liệu được sử dụng lại nhiều lần hoặc có khả năng được sử dụng lại rộng rãi) và các trang web cổng thông tin được liên kết với tài sản phi tập trung danh sách là ví dụ về sự sắp xếp thực tế như vậy. ”
IAR có thể được xây dựng theo nhiều cách. Mỗi bộ chính phủ có thể tạo IAR của riêng mình và liên kết nó với IAR quốc gia. IAR cũng có thể bao gồm thông tin do các tổ chức công không chủ động tiết lộ. Bằng cách đó, công chúng có thể được thông báo về những thông tin sẵn có và những thông tin nào có thể được yêu cầu. “Điều quan trọng đối với những người sử dụng IAR là đăng ký thông tin họ có càng đầy đủ càng tốt, để họ có thể tin tưởng rằng tài liệu của họ sẽ được tìm thấy. Việc đăng ký không đầy đủ có thể là một vấn đề nghiêm trọng, vì IAR trở nên không đáng tin cậy và không khuyến khích bạn sử dụng nó để tìm thông tin. ”
Điều quan trọng là siêu dữ liệu trong IAR phải toàn diện và các công cụ tìm kiếm hoạt động bình thường. Theo tinh thần dữ liệu mở của chính phủ, các cơ quan công quyền phải công bố IAR cho công chúng dưới dạng dữ liệu thô theo giấy phép mở. Chẳng hạn, tin tặc tư nhân có thể tận dụng dữ liệu đó để tạo ra các công cụ tìm kiếm và giao diện người dùng.
Kết nối
Khả năng kết nối. Khả năng kết nối liên quan đến khả năng kết nối và giao tiếp với Internet, đặc biệt là World Wide Web.
Dữ liệu có cấu trúc
Tất cả dữ liệu đều có một số cấu trúc, nhưng “dữ liệu có cấu trúc” là dữ liệu trong đó các mối quan hệ cấu trúc giữa các phần tử được thể hiện theo cách dữ liệu được lưu trữ trên đĩa của máy tính. XML và JSON là các định dạng phổ biến có thể đại diện cho nhiều loại cấu trúc. Ví dụ: phần trình bày bên trong của tài liệu xử lý văn bản hoặc tài liệu PDF phản ánh vị trí của thực thể trên trang chứ không phải cấu trúc logic của nó. Do đó, rất khó hoặc không thể giải nén tự động.
Tiêu chuẩn
Các thông số kỹ thuật đã xuất bản (ví dụ: một số định dạng tệp nhất định ), các thuật ngữ được khuyến nghị sử dụng trong một miền cụ thể, kết hợp các mục siêu dữ liệu thường được sử dụng, v.v. Việc tuân thủ các tiêu chuẩn liên quan có thể làm tăng đáng kể giá trị của dữ liệu công khai bằng cách cải thiện khả năng đọc của máy và tạo điều kiện tích hợp dữ liệu .
Máy đọc được
Máy có thể đọc được. Dữ liệu ở định dạng dữ liệu mà máy tính của bạn có thể tự động đọc và xử lý. Ví dụ: CSV , JSON , XML . Dữ liệu máy đọc được phải là dữ liệu có cấu trúc . Tham khảo so sánh: Con người có thể đọc được .
Các tài liệu phi kỹ thuật số (ví dụ: tài liệu in hoặc viết tay) không thể đọc được bằng máy do tính chất phi kỹ thuật số của chúng. Tuy nhiên, ngay cả các tài liệu kỹ thuật số cũng không nhất thiết là máy có thể đọc được. Ví dụ: hãy xem xét một tệp PDF có chứa một bảng dữ liệu. Đây chắc chắn là kỹ thuật số, nhưng không thể đọc được bằng máy. Bởi vì máy tính sẽ phải vật lộn để truy cập thông tin được lập bảng. Ngay cả khi nó là rất dễ đọc của con người . Một bảng ở dạng bảng tính tương đương sẽ có thể đọc được bằng máy.
Ví dụ khác, văn bản được quét (ảnh) không thể đọc được (nhưng con người có thể đọc được!), Nhưng máy có thể đọc được nếu nó là tệp văn bản ASCII đơn giản tương đương hoặc định dạng xử lý văn bản như Microsoft Word. Hãy bắt đầu.
Lưu ý: Định dạng máy đọc được thích hợp có thể khác nhau tùy thuộc vào kiểu dữ liệu, ví dụ: định dạng máy đọc được cho dữ liệu địa lý sẽ khác với dữ liệu dạng bảng.
Kích thước
Một bảng hoặc bảng tính thông thường có thể dễ dàng biểu diễn hai chiều dữ liệu: mỗi điểm dữ liệu có một hàng và một cột. Tuy nhiên, rất nhiều dữ liệu trong thế giới thực có nhiều thứ nguyên hơn: ví dụ: tập dữ liệu về nhiệt độ bề mặt Trái đất thay đổi theo vị trí và thời gian (cần có hai tọa độ để chỉ định vị trí trên trái đất, ví dụ: vĩ độ và kinh độ, và một tọa độ để chỉ định thời gian).
Dữ liệu thô
Dữ liệu gốc có thể đọc được bằng máy tạo nền tảng cho bất kỳ ứng dụng, trực quan hóa, nghiên cứu hoặc diễn giải đã xuất bản nào.
Có thể khám phá
Dữ liệu mở không chỉ được mở cho công chúng, nó không đủ trừ khi người dùng có thể tìm thấy nó hoặc biết sự tồn tại của nó. Ngoài việc đơn giản xuất bản ngẫu nhiên trên các trang web, chính phủ và các nhà xuất bản dữ liệu lớn khác có thể giúp tìm tập dữ liệu dễ dàng hơn bằng cách lập chỉ mục chúng trong danh mục và cổng dữ liệu .
Quyền sở hữu trí tuệ
Quyền cho phép tác giả độc quyền một sáng tạo trí tuệ.
Kiến thức
Tập hợp thông tin về khả năng hiểu hoặc hiểu thế giới của một người (hoặc nhân loại) .
Dữ liệu nghiên cứu
Nghiên cứu thực nghiệm trong khoa học và khoa học xã hội tạo ra một lượng lớn dữ liệu. Quản lý dữ liệu nghiên cứu (RDM) là một hệ thống quy tắc mới nhằm tìm kiếm các phương pháp hay nhất để xử lý vấn đề này. Theo truyền thống, dữ liệu thuộc về các nhà nghiên cứu và chỉ những kết quả nghiên cứu cuối cùng, chẳng hạn như các chuyên luận phân tích dữ liệu, mới được công bố. Khoa học mở tin rằng dữ liệu nên được công khai để cải thiện khả năng xác minh của công trình và cung cấp cho các nghiên cứu khác. Hợp tác khoa học mở yêu cầu công bố dữ liệu ở giai đoạn đầu của dự án theo triết lý cơ bản của nó, nhưng văn hóa nghiên cứu đòi hỏi những thay đổi lớn trước khi nó được công nhận rộng rãi.
Giấy phép thừa kế
Giấy phép chia sẻ tương tự. Giấy phép yêu cầu người tạo ra tác phẩm phái sinh áp đặt giấy phép giống (hoặc gần giống) cho tác phẩm với tác phẩm gốc.
Bản quyền
Quyền hợp pháp đối với tài sản trí tuệ (ví dụ như sách) của người tạo ra tác phẩm. Dữ liệu cá nhân (thông tin thực tế) không có bản quyền, nhưng việc lựa chọn và tổ chức dữ liệu trong cơ sở dữ liệu nói chung là có bản quyền. Trong Liên minh Châu Âu, ” quyền cơ sở dữ liệu ” độc lập bảo vệ cơ sở dữ liệu chống lại các nỗ lực thực chất để “lấy” dữ liệu . Chủ sở hữu bản quyền thường có thể sử dụng giấy phép công nhận quyền của người khác đối với tài liệu được bảo vệ theo những hạn chế nhất định .
Dữ liệu của chính phủ
Trong số lượng dữ liệu khổng lồ được thu thập thông qua các hoạt động của chính phủ, dữ liệu không cần giữ bí mật (dữ liệu về kinh tế, hoạt động dân chủ, báo cáo tài chính, tội phạm, giao thông công cộng, v.v.). Phần lớn dữ liệu này sẽ tăng giá trị khi nó được phát hành dưới dạng dữ liệu mở ở trạng thái có thể tái sử dụng cho kinh doanh, nghiên cứu, hoạt động công dân, báo chí dữ liệu, v.v.
Hình ảnh hóa
Hình dung. Biểu diễn trực quan của dữ liệu thường là cách hấp dẫn nhất để tiết lộ hình thức chính, mức độ liên quan và các ngoại lệ của truyền thông dữ liệu. Mặc dù có nhiều công cụ, nhưng việc tạo trực quan hóa cho bộ dữ liệu không phải là một quá trình tự động và ý nghĩa, mối quan hệ và câu chuyện cụ thể về dữ liệu của các biến được sử dụng để thiết kế các biểu diễn trực quan làm sáng tỏ thông điệp của dữ liệu. Cần chú ý những thứ như vậy.
Từ vựng
Một tiêu chuẩn xác định các số nhận dạng được sử dụng cho một tập hợp các đối tượng cụ thể . Sử dụng từ vựng chuẩn, nếu có, là chìa khóa để cho phép tích hợp dữ liệu . Dữ liệu được liên kết rất phong phú về từ vựng trong nhiều lĩnh vực chủ đề khác nhau.
Mã định danh
Tên của khái niệm hoặc đối tượng trong cơ sở dữ liệu. Giá trị nhận dạng có thể là tên thực của đối tượng (ví dụ: ‘London’, ‘W1 1AA’, mã zip London, v.v.), mô tả cho khái niệm (‘dân số’) hoặc cụ thể, chẳng hạn như’XY123 ‘. Nó có thể là một mã tùy ý chỉ có ý nghĩa trong ngữ cảnh sử dụng trong tập dữ liệu của. Việc xác định cẩn thận các định danh bằng cách sử dụng các tiêu chuẩn thích hợp có tác dụng tạo thuận lợi cho việc tích hợp dữ liệu . Xem dữ liệu được liên kết .
Tính minh bạch
Các tổ chức như chính phủ được cho là minh bạch khi các hoạt động và quy trình ra quyết định của họ được hiểu rõ, ghi chép và xem xét kỹ lưỡng. Minh bạch là một trong những nguyên tắc của chính phủ mở . Tăng tính minh bạch là một trong những lợi thế của dữ liệu mở.
Chi phí cận biên
Chi phí bổ sung cần thiết để cung cấp bản sao của tài nguyên chẳng hạn như dữ liệu. Theo định nghĩa của open, để dữ liệu được mở, bạn không được tính phí nhiều hơn chi phí cận biên. Chi phí cận biên thường bằng 0 nếu dữ liệu có thể được tải xuống qua internet. Có thể phát sinh chi phí cận biên đặc biệt nhỏ. Ví dụ, nếu bạn cần đặt nó vào đĩa và gửi nó qua đường bưu điện vì kích thước của nó.
Phi lợi nhuận
Phi thương mại. Một hạn chế như một phần của giấy phép là không thể tự do sử dụng lại nội dung cho các mục đích “thương mại”. Những hạn chế như vậy không phải là mở theo định nghĩa về mở. Những hạn chế như vậy thường làm giảm giá trị kinh tế và gây ra các vấn đề với việc trộn giấy phép , cũng như gây ra nhiều loại trừ hơn dự định (ví dụ: việc sử dụng giáo dục có phải là “thương mại” hay không “) . Mục đích của điều khoản phi lợi nhuận có thể được hiểu rõ hơn bởi yêu cầu kế thừa .
Xác định danh tính
khử nhận dạng. Ẩn danh một loại bản ghi của cơ sở dữ liệu cá nhân trong khi vẫn giữ lại thông tin nhận dạng cụ thể như tên, nó ẩn danh định danh để thay thế. Không nhận dạng có nguy cơ rò rỉ dữ liệu cao hơn so với tổng hợp . Ví dụ, nếu hồ sơ nhà tù chứa tiền án và tiền sử bệnh của tù nhân, việc truy cập trái phép vào bệnh sử thường có thể xác định một cá nhân trong hồ sơ tội phạm của tù nhân mà không có tên. Trong các trường hợp khác, rủi ro này không tồn tại hoặc giá trị của dữ liệu chưa được thu thập lớn đến mức có thể tạo ra dữ liệu không được xác định theo các biện pháp bảo vệ được thiết kế cẩn thận.
Dịch từ http://opendatahandbook.org/glossary (ngày 22/07/2021)