NHẬN DẠNG THỰC THỂ CÓ TÊN
Với dữ liệu tiếng Việt
1. Giới thiệu
Nhận dạng thực thể có tên (Named Entity Recognition – NER) nhằm nhận biết các chuỗi
từ trong văn bản là tên của một đối tượng nào đó, điển hình như tên người, tên tổ chức,
tên địa danh, thời gian v.v. NER là nhiệm vụ đóng vai trò quan trọng trong các ứng dụng
trích xuất thông tin, đã được quan tâm nghiên cứu trên thế giới từ đầu những năm 1990.
Từ năm 1995, hội thảo quốc tế chuyên đề Hiểu thông điệp (Message Understanding
Conference - MUC) lần thứ 6 đã bắt đầu tổ chức đánh giá các hệ thống NER cho tiếng
Anh. Tại hội thảo CoNLL năm 2002 và 2003, các hệ thống NER cho tiếng Hà Lan, Tây
Ban Nha, Đức và Anh cũng được đánh giá. Trong các tác vụ đánh giá này, người ta xét 4
loại thực thể có tên: tên người, tên tổ chức, tên địa danh và các tên khác. Gần đây, vẫn
tiếp tục có các cuộc thi về NER được tổ chức, ví dụ GermEval 2014 cho tiếng Đức.
Đối với tiếng Việt, đây là cuộc thi thứ hai nhằm đưa ra được một đánh giá khách quan về
chất lượng các công cụ NER, khuyến khích phát triển các hệ thống trích rút thực thể có
tên đạt độ chính xác cao. So với cuộc thi thứ nhất tại VLSP 2016, tập dữ liệu lần này đa
dạng, phong phú hơn và được tập hợp theo một số lĩnh vực nhằm có các đánh giá chi tiết
hơn về các hệ thống NER.
2. Mô tả nhiệm vụ
Phạm vi của cuộc thi đầu tiên này là đánh giá khả năng nhận dạng các thực thể có tên
thuộc một trong ba loại: tên người, tên tổ chức và tên địa danh. Việc nhận dạng các loại
thực thể có tên khác sẽ được đề cập đến trong các lần thi sau.
3. Dữ liệu
Dữ liệu là các bài báo, đăng trên các phương tiện truyền thông xã hội, không phải dữ liệu
nhân tạo (do người làm dữ liệu sinh ra).
Trong đó, ba loại thực thể có tên được xác định tương thích với các loại thực thể mô tả
trong CoNLL2003.
1. Tên địa lí (Địa danh - Location) bao gồm các thực thể có toạ độ địa lí nhất định,
ghi lại được trên bản đồ:
● Tên gọi các hành tinh: Mặt Trăng, Mặt Trời, Trái Đất…
● Tên gọi các thực thể mang yếu tố địa lí tự nhiên và địa lí lịch sử (quốc gia,
vùng lãnh thổ, châu lục), các vùng quần cư (làng, thị trấn, thành phố, tỉnh,
giáo khu, giáo xứ), các điểm kinh tế (vùng nông nghiệp, khu công nghiệp)
● Tên gọi các thực thể tự nhiên (đèo, núi, dãy núi, rừng, sông, suối, hồ, biển,
vịnh, vũng, eo biển, đại dương, thung lũng, cao nguyên, đồng bằng, khu bảo
tồn thiên nhiên, bãi biển, khu sinh thái, v.v.)
● Tên gọi các thực thể là công trình xây dựng, công trình kiến trúc công cộng
(cầu, đường, cảng, đập, lâu đài, tháp, quảng trường, bảo tàng, phòng trưng
bày, hội trường, trường học, nhà trẻ, thư viện, bệnh viện, viện dưỡng lão,
trung tâm y tế, nhà thờ, nhà xứ, tu viện, nhà ở, chung cư, kí túc xá, chợ,
công viên, nhà hát, rạp chiếu phim, khu thể thao, bể bơi, trung tâm thanh