Tham dự Tech Lounge

Tham dự Tech Lounge


Từ điển Bách khoa toàn thư Việt Nam [PRC dạng từ điển]

nguyenkimvy
10/6/2011 22:2Phản hồi: 27
Từ điển bách khoa Việt Nam là tên của bộ từ điển bách khoa gồm bốn tập do Nhà xuất bản Từ điển Bách khoa in, mỗi tập dày trên dưới 1.000 trang, khổ 19×27, gồm khoảng 4 vạn mục từ thuộc 40 ngành khoa học khác nhau. Đây là bộ từ điển bách khoa của Việt Nam đầu tiên được biên soạn với sự tổ chức và chỉ đạo của Nhà nước Việt Nam, với kinh phí 32 tỷ đồng. Từ điển có mục đích cung cấp những tri thức cơ bản nhất về đất nước, con người, lịch sử xã hội, văn hóa, khoa học, công nghệ Việt Nam xưa và nay và những tri thức văn hóa, khoa học, kĩ thuật của thế giới. Từ điển do 1.200 nhà khoa học hàng đầu biên soạn trong 15 năm, nay mới được 40.000 mục từ, hiện đã xuất bản thành bốn tập sách, có trang Web để tra cứu.

LINK MEDIAFIRE:
Code:
_http://www.mediafire.com/?c1m0czzuidcum
web:
Code:
_http://dictionary.bachkhoatoanthu.gov.vn/default.aspx
+ hơn 40 ngàn đề mục.
+ có hình minh họa.
+ hổ trợ tra cứu bằng tiếng việt không dấu trên kindle.
+ có thể đặt làm từ điển trên kindle hoặc mobireader.
27 bình luận
Chia sẻ

Xu hướng

Cảm ơn bạn Vỹ rất nhiều vì những đóng góp cho cộng đồng, vừa mới có bộ 10.000 đầu sách VNThuQuan nay lại là Bách Khoa Thư Từ Điển.
pyramid0501
ĐẠI BÀNG
13 năm
Cảm ơn bác Nguyễn Kim Vĩ, nhờ có bác mà chúng mình mới có nhiều tài liệu hay như thế này. Tất cả vì tương lai con em chúng ta bác nhẩy.
Chào bạn nguyenkimvy!

Rất cảm ơn bạn đã bỏ công tạo eBook này. Và hoan nghênh bạn không mã hóa eBook.
Nếu không có eBook của bạn, tra cứu từ trang web Bách khoa Toàn thư sẽ rất phiền, nhiều lúc nó bị quá tải.
Nếu có thể mong bạn chỉnh lại các điểm sau:
  1. Xem lại cách trình bày hình ảnh trong eBook. Có những hình nên ở dòng riêng, canh giữa
  2. Bạn chịu khó build lại chế độ nén tối đa (high-compression) để eBook gọn hơn.
  3. Phần tra từ: Bạn chịu khó bổ sung phần dùng wildcard, vì sẽ tiện tra cứu hơn.

Cảm ơn bạn.
*P/S: Trước đây tôi cũng có lấy về phần dữ liệu thô (trên 2Gb). Nhưng sau thấy có những chỗ các tác giả lại trình bày nội dung ở dạng hình ảnh (bạn thử xem "vi phân toàn phần" thì biết) và nhiều chỗ có liên kết sai, nên bỏ luôn.
nguyenkimvy
ĐẠI BÀNG
13 năm
Chào bạn, cám ơn bạn đã có những đóng góp xây dựng có ý nghĩa. Về những ý đó, mình có ý kiến như sau. Thứ nhất về hình ảnh, không thể ảnh nào cũng chỉnh ra giữa và 1 dòng riêng, vì thỉnh thoảng 1 ảnh là đại diện cho 1 công thức rất nhỏ mà nên nằm vào 1 câu văn (là đại diện cho text mà không hiển thị bình thường đc chứ ko phải ảnh minh họa, tạm thời mình chưa tìm cách lọc ảnh để giải quyết vấn đề này)
+ về vấn đề thứ 2 thì mình đã thử và thấy với những ebook lớn thế này, thời gian để nén có thể làm quá trình tạo ebook tăng lên 10 lần, hơi lâu để đợi nên mình cũng sẽ làm khi có thời gian, còn để test thì mình chỉ để chế độ bình thường.
+ về vấn đề thứ 3, mình đã tìm hiểu 1 chút, nhưng vẫn chưa thực hiện được. nếu bạn đã làm rồi thì có thể gửi cho mình 1 mẫu project nhỏ hổ trợ vấn đề này không?

Bản trước bị lỗi ở 1 số bài viết chỉ gồm duy nhất 1 hình ảnh, mình vừa chỉnh lại! sẽ upload sớm nhất có thể.
Chào Kim Vỹ!
Mình thử làm gọn và build lại thì eBook còn 88Mb!
Để tìm với wildcard, bạn làm như sau:
Ở mỗi mục từ bạn chỉnh thành có dạng:
Code:
[B]<mbp:pagebreak/>
<idx:entry name="main" wild="yes" scriptable="yes"><h1><idx:orth>[/B]aivơ s.[B]</idx:orth></h1>[/B]
(Charles Ives; 1874 - 1954), nhà soạn nhạc, một trong những đại diện tiêu biểu nhất của nền âm nhạc Hoa Kì. Âm nhạc Aivơ rất độc đáo và tách biệt với mọi trào lưu của âm nhạc đương thời. Từ 1894, Aivơ sử dụng đa tiết tấu và đa điệu tính trong âm nhạc. Đã ngừng sáng tác từ 1928. Là một thiên tài bị bỏ quên, mãi đến 1950 mới nổi tiếng thế giới. Tác phẩm: "Concơt Xônata" cho pianô, "Ba quảng trường ở bang Niu Inhlen" cho dàn nhạc, "Giao hưởng thứ tư", vv.[B]
</idx:entry>[/B]
Còn phần tìm với wildcard, bạn tạm dùng cú pháp:
Code:
<DIV bgcolor="#FFEBD6" align="center">
<a onclick="index_search('main', 'Tìm chữ (có thể dùng *,?):', '', '', '', 8 +1024)">Tra từ</a>
</DIV>
Ngoài ra, để cho panel "Tìm | Trở lại" luôn hiện diện ở đầu khung trang (top), bạn bố trí trong file HTML như thế này:
Code:
<html>
<head>
<title>Bách khoa Toàn thư</title>
</head>
<body>
<center>
<h1 align="center">Từ điển bách khoa toàn thư Việt Nam</h1>
tạo bởi<i> Nguyễn Kim Vỹ</i>
<hr width="10%"/>
<DIV bgcolor="#FFEBD6" align="center">
<a onclick="index_search('main', 'Tìm chữ (có thể dùng *,?):', '', '', '', 8 +1024)">Tra từ</a></DIV><hr/>
</center>
Từ điển bách khoa Việt Nam là ...
<mbp:pagebreak/>
[COLOR="#B22222"][B]<mbp:frameset>[/B]
  <mbp:slave-frame device="all" display="[B]top[/B]" breadth= "auto">
    <div bgcolor="#FFEBD6" align="center">
    <a onclick="index_search('main', 'Tra từ (có thể dùng *,?):', '', '', '', 8 +1024)">Tìm</a>
    | <a onclick="history.back()">Trở lại</a></div>
  </mbp:slave-frame>[/COLOR]
<mbp:pagebreak/>
<idx:entry name="main" wild="yes" scriptable="yes"><h1><idx:orth>a</idx:orth></h1>(<i>nhạc</i>), 1. Kí hiệu bằng chữ cái chỉ nốt la. 2. Chỉ giọng điệu la trưởng (thường thêm dur) (xt. <i>Trưởng</i>). 3. Chữ tắt chỉ bè antô trong các tổng phổ. a: chỉ giọng điệu la thứ (thường thêm moll) (xt. <i>Thứ</i>).</idx:entry>
...
<mbp:pagebreak/>
<idx:entry name="main" wild="yes" scriptable="yes">
<h1><idx:orth>“nạn kinh”</idx:orth></h1>(“Nanjing”), cuốn sách giải thích 81 vấn đề khó trong “Nội kinh” (x. “<i><u>Nội kinh</u>”</i>), ra đời vào thời Chiến quốc ở Trung Quốc (475 - 221 tCn.), tương truyền là của <u>Biển Thước</u> (Bian Shi). Được công nhận là bộ sách kinh điển của Đông y.
</idx:entry>
<mbp:pagebreak/>
[B][COLOR="#B22222"]</mbp:frameset>[/COLOR][/B]
</body>
</html>
Có một điểm bạn cũng nên xem xét: Với từ điển, khi mở nó, thì nên tự động chuyển đến trang đầu tiên, thay vì chuyển đến trang đọc lần cuối. Muốn vậy, thêm vào file .OPF đoạn sau (với giả định file nguồn của bạn là "BachKhoaToanThu.html"):
Code:
<guide>
[B]<reference type="start" title="Startup Page" href="BachKhoaToanThu.html"></reference>[/B]
</guide>
Nếu được, mong bạn cũng bổ sung cho "Wikipedia tiếng Việt" chức năng tìm với Wildcard nhé.
nguyenkimvy
ĐẠI BÀNG
13 năm
Mình đã build thử , tiếc là cái này trên kindle không hoạt động bạn ạ! Chỉ chạy trên mobireader. Bản wikipedia với cái này nếu bạn thích có thể convert sang html rồi làm tiếp cho mọi người được không? (tại mình làm để sử dụng trên kindle là chính ấy mà)
nguyenkimvy
ĐẠI BÀNG
13 năm
OK, Cám ơn bạn rất nhiều. Bạn hiểu rỏ về prc thật đấy, không biết những chức năng này có hoạt động tốt trên kindle 3 không, để mình built thử!
tienlbhoc
TÍCH CỰC
13 năm
bác quocsan này hình như bên e-thuvien , build cái oxford 8 và longman 5 đúng không, hèn chi thạo prc vậy, bổ xung thêm tí nhé
Code:
http://www.mobipocket.com/dev/article.asp?basefolder=prcgen&file=indexing.htm
thêm cái này vào <idx:entry spell="yes"> thì sẽ có khả năng kiểm tra từ gần đúng (chưa thử vì con N81 đã mãi mãi ra đi, b7320 cũng vừa mới bán, hiện đang dùng nook color android), trước dùng prc rất ấn tượng với cái oxford 7 có nhiều mục, nhiều tính năng và có khả năng tra gần đúng ví dụ gõ umbrala, nó ra umbrella ngay.

À bác quocsan share cho mình cái dedrm với dehuff.py mà bác dịch ngược prc có được không, hướng dẫn cách dùng nữa nhé :p

Chào tienlbhoc, Kim Vỹ!
Lại gặp chuyên gia ở đây. Vui quá!
Trong file PRC.zip đính kèm có 3 file
  1. mobidedrm.py: Để bỏ khóa file .PRC
  2. mobiunpack.py: Để chuyển file .PRC không khóa thành file .HTML, .OPF và các file ảnh
  3. mobiunpack_2.py: Mình tạm "độ lại" từ "mobiunpack.py". Lý do sẽ nêu ở dưới.
Để sử dụng, bạn cần cài Python. Có thể dùng ActivePython. Sau đó bạn chép 3 file .py từ file zip đính kèm vào thư mục "C:\Python27\lib\", giả định là bạn cài Python vào "C:\Python27".
Để mở khóa file, bạn có thể gõ ở dòng lệnh (command prompt)
Code:
C:\Python27\python C:\Python27\lib\mobidedrm.py [COLOR="#0000FF"]ABC[/COLOR].prc [COLOR="#0000FF"]ABC[/COLOR].mobi [COLOR="#B22222"][COLOR="#0000FF"]nnn[/COLOR][/COLOR]
Trong đó:
  • "ABC" là tên eBook
  • "nnn" là PID của Mobipocket Reader. Bạn mở mục "About" của Mobipocket Reader thì sẽ thấy PID.
Khi mở khóa thành công, sẽ có eBook ABC.mobi – là eBook đã mở khóa.

Để chuyển eBook không khóa thành file .HTML, .OPF và các file ảnh, bạn có thể gõ (command prompt)
Code:
C:\Python27\python C:\Python27\lib\[B]mobiunpack.py[/B] [COLOR="#0000FF"]ABC[/COLOR].prc [COLOR="#0000FF"]Path[/COLOR]
Trong đó:
  • "ABC" là tên eBook
  • "Path" là đường dẫn, nơi chứa kết xuất.

Để tiện lợi hơn, tôi đưa 2 đoạn code trên vào 2 file .bat và dùng tham số %1 (bạn thừa sức làm).

* Vấn đề vì sao lại phải "độ" thành mobiunpack_2.py: Nếu bạn xem code trong "mobiunpack.py" sẽ thấy có một vấn đề: Nó đọc, giải mã hết cả file PRC rồi mới chịu ghi ra file HTML. Thông thường thì cũng không có vấn đề gì. Nhưng hôm qua tôi convert "Wikipedia tiếng Việt" của bạn Kim Vỹ thì vấn đề xuất hiện: Python chiếm bộ nhớ cả 1Gb mà chưa chịu thôi. Cuối cùng nó bị Windows đóng.
Tôi tạm sửa để mỗi khi nó giải nén xong 1 phần thì ghi ra file; cứ vậy cho đến hết. Nhờ vậy mà mobiunpack_2.py có thể giải mã "Wikipedia tiếng Việt".

* Vấn đề với giải mã: Khi giải mã sang file .HTML, có các tag dành cho từ điển sẽ bị mất, như <idx: orth></idx: orth>, <idx:entry></idx:entry>.

Kim Vỹ ơi!
Nếu có thể, kính nhờ bạn gửi các file nguồn wikipedia cho tôi với. Địa chỉ: quocsan@gmail.com. Cảm ơn bạn.
PRC.zip
nguyenkimvy
ĐẠI BÀNG
13 năm
Bạn xem PM nhé!
Cho mình hỏi là nếu mình có một file từ điển excel thì convert sang định dạng cho kindle với wildcard có khó lắm không ?
nguyenkimvy
ĐẠI BÀNG
13 năm
Kindle không chơi wildcard đc, hoặc đc nhưng mình chưa biết làm! vậy nên chắc để làm thì khó lắm :yellowcarded:
thanh70
ĐẠI BÀNG
13 năm
Mình đang dùng Nook color, down file của bạn chép vào Kindle không tra được giờ làm sao? Bồ giúp với. Cám ơn bồ
tienlbhoc
TÍCH CỰC
13 năm
nook color không chơi từ điển prc mà phải chơi những từ điển của hệ điều hành android, nên dùng fbreader, moon reader hỗ trợ tra từ điển
sao em download về mà ko mở được vậy. Em dùng c7 và cài mobilereader. Nếu mở ebook thư viên bk toàn thư là nó thoát mobireader ngay. Ai biết chỉ giúp em nhe.
nguyenkimvy
ĐẠI BÀNG
13 năm
Vậy fbreader với moon reader có chơi đc cái bách khoa toàn thư không bác Tiến? Hình như chỉ đọc theo thứ tự chứ ko tra từ đc à?

---------- Post added at 07:22 AM ---------- Previous post was at 07:21 AM ----------

Bạn xem comment của tienbhoc xem giúp đc gì không nhé
còn kindle ở đây là mình nói đến máy đọc sách kindle chứ không phải app kindle trên các smart phone!
tienlbhoc
TÍCH CỰC
13 năm
Không chơi được, fbreader có thể đọc prc non-drm (moon reader đọc epub) có thể đọc sách rồi tra cứu link đến từ điển ngoài, còn wiki thì vào từ điển bên ngoài để tra ^^ , data build riêng cho từ điển đó chứ cũng không đọc được prc từ điển (xem thì nó sẽ giống như phần sách bình thường thôi
Quá hữu ích, đúng ebook mình đang cần.
Cám ơn các bạn.
(Up lên)
Cám ơn nha bạn!
trường hợp mình cũng giống bạn khuongduy18 là không mở tự điển được. mình dùng e7 và cài mobilereader. Nếu mở ebook thư viên bk toàn thư là nó thoát mobireader ngay. nhờ các anh chị giúp dùm
Cảm ơn chủ thớt nhiều!
Bạn góp phần giữ gìn sự trong sáng của tiếng việt
hy vọng càng ngày càng có nhiều bài hay, cám ơn bác nhiều
Cám ơn bạn rất nhiều
talamat
ĐẠI BÀNG
11 năm
Bản này sau khi unpack ra, mình thấy dữ liệu có nhiều từ trùng nhau. Sau khi lược bớt những từ trùng mình thấy được chừng 35.000 từ thôi. Không biết bác nào có dữ liệu đầy đủ hơn không nhỉ? Em đang tính làm 1 bản dạng mobi, prc và một bản dùng cho phần mềm Babylon nữa. Rất mong nhận được sự hỗ trợ từ các cao thủ.

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019