15. ungdungxulyngonngutunhien_NCHieu

15. ungdungxulyngonngutunhien_NCHieu - NG D NG X LÝ NGÔN...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: NG D NG X LÝ NGÔN NG T TRONG D CH MÁY NHIÊN TS. Nguy n Chí Hi u Khoa CN Thông tin – Trư ng H Công nghi p Tp. HCM TÓM T T Bài báo này xu t m t mô hình nh n bi t và rút trích t ng c m danh t song ng t ng li u song ng Anh-Vi t b ng các công c n i ti ng như GIZA++ -2003 [10] và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp c i thi n ch t lư ng i sánh t trong bư c ti n x lý b ng cách chuy n i c u trúc câu ngu n theo tr t t c a câu ích rút trích c m danh t song ng , xu t phương pháp xây d ng b ng t và c m t song ng t ng li u song ng v i các nét ng nghĩa, xác su t xu t hi n và lu t chuy n i [8]. Ngoài ra, các thành ph n cơ b n c a m t h th ng d ch máy trên cơ s c m t cũng ư c trình bày trong bài báo này. Th c nghi m ban u cho k t qu kh quan. ABSTRACT This paper proposes the method Extracting English – Vietnamese Noun Phrases automatically which is building from Bilingual Corpus by well-known tools as GIZA++ 2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the quality of word alignment in the pre-processing phase of Machine Translation by transferring sentence structures from the source language to target language and then using heuristics to extract noun phases. It also proposes the method of building the Phase and Word tables from Bilingual Corpus including semantics, probability and transfer rules [8]. The other components of the English – Vietnamese machine translation also are described in this paper. The result of the experiment was satisfactory. M T S T VI T T T NLP: Natural Language Processing MT: Machine Translation RBMT: Rule Based Machine Translation EBMT: Example Based Machine Translation SMT: Statistical Machine Translation PBMT: Phrase Based Machine Translation 1. GI I THI U X lý ngôn ng t nhiên là m t lĩnh v c nghiên c u nh m giúp cho các h th ng máy tính hi u và x lý ư c ngôn ng con ngư i. D ch máy là m t trong nh ng ng d ng chính c a x lý ngôn ng t nhiên. M c dù d ch máy ã ư c nghiên c u và phát tri n hơn 50 năm qua, song v n t n t i nhi u v n c n nghiên c u. Vi t nam, d ch máy ã ư c nghiên c u hơn 20 năm, nhưng các s n ph m d ch máy hi n t i cho ch t lư ng d ch còn nhi u h n ch [5]. Hi n nay, d ch máy ư c phân chia thành m t s phương pháp như: d ch máy trên cơ s lu t, d ch máy th ng kê và d ch máy trên cơ s ví d [18]. Do nh ng khác bi t v ng h , khác bi t v văn hóa và thi u v ng ngu n tài nguyên, nên các phương pháp d ch máy hi n h u thư ng g p tr ng i khi áp d ng vào c p ngôn ng Anh – Vi t. Phương pháp d ch máy trên cơ s lu t c n ph i xây d ng h th ng lu t cú pháp, ng nghĩa và ph i có m t t i n khá y thông tin cho các m c t như ng nghĩa, ng d ng,... th c hi n phương pháp d ch máy d a trên cơ s lu t, ngư i ta c n nhi u th i gian và ti n b c nhưng s n ph m d ch v n không t chính xác như mong i. D ch máy b ng phương pháp th ng kê chưa có nhi u nghiên c u áp d ng cho c p Anh – Vi t và k t qu nghiên c u c a N.P.Thai [20] cũng h t s c khiêm t n. Do s khác bi t khá l n v c u trúc cú pháp c a câu và ngu n ng li u song ng chu n, nên nh hư ng n ch t lư ng i sánh t Anh – Vi t, mà k t qu c a i sánh t l i quy t nh n ch t t ưc chính xác lư ng d ch. Hi n nay, i sánh t cho c p Anh – Trung [17] ch 50% - 60%. K t qu này có th tương t khi áp d ng i sánh t cho c p ti ng Anh – Vi t [20]. Phương pháp d ch máy trên cơ s ví d truy n th ng s d ng các câu m u hay còn g i là câu ví d . Các câu này ư c lưu tr trên cơ s d li u v i y các thông tin như cây chú gi i, các liên k t gi a các thành ph n c a hai câu thu c hai ngôn ng . Phương pháp này cũng c n t p lu t cú pháp c a các câu ngôn ng ngu n xây d ng cơ s d li u cho m u câu ví d . S khác bi t t s ư c xác nh thông qua t i n phân l p, câu nh p s ư c phân tích b ng t p lu t cú pháp và xác nh c p cây cú pháp c a câu ngu n và câu ích. M t ti p c n khác v i phơng pháp d ch máy trên cơ s ví d là xây d ng ngân hàng m u câu ví d . Câu ngu n ch c n so trùng t ng ph n v i m u câu ví d b ng các gi i thu t phù h p (có s d ng t ng nghĩa trong t i n phân l p). Phương pháp này c n khá nhi u th i gian tìm ki m, x lý thông tin so trùng m u. chính xác c a phương pháp ph thu c vào s m u ư c lưu tr nhi u hay ít. Trong th c t th t khó có th lưu tr y các câu m u trên cơ s d li u vì s câu song ng trong kho ng li u là nhi u vô k . V i hai ngôn ng khác bi t như ti ng Anh và ti ng Vi t v i ngu n tài nguyên khá nghèo nàn, thì vi c xây d ng kho câu m u s càng c n nhi u th i gian và ti n b c và là công vi c c a nhi u nhà ngôn ng h c th c hi n trong nhi u năm. D ch máy d a trên ng li u ang ư c áp d ng vào nhi u h th ng d ch t ng trong nh ng năm g n ây, vi c l y úng ư c c p ánh x ích và ngu n m t cách t ng là m t yêu c u thi t y u cho các phương pháp d ch d a trên ng li u. Phương pháp d ch th ng kê hi n t i ang c i thi n ư c ch t lư ng d ch b ng các mô hình hu n luy n không ch d a trên cơ s các t ơn mà còn d a trên các c m t . D.Marcu và W.Wong [7], Kenji Yamada và Kevin Knight [11], P.Koehn, F.J.Och, và D.Marcu, [15, 16] ã cho k t qu kh quan. Tuy nhiên các c m t trong các nghiên c u này không th c s là c m t c a ngôn ng h c. 2. C M DANH T TI NG VI T C m t ti ng Vi t ư c nhi u nhà ngôn ng h c trong và ngoài nư c quan tâm nghiên c u như Nguy n Tài C n [14], H Lê [9], Nguy n Kim Th n [13], Di p Quang Ban [6] và g n ây nh t là lu n văn ti n sĩ c a Tuong Hung Nguyen [19]. 2.1 Nh ng công trình nghiên c u nư c ngoài Shum bi u di n c m danh t ti ng Vi t c d ng lu t sinh và d ng cây như sau: Nom → NP Mod NP → Nu N Dem NP → Pron NP → Npr Nu → PL CL Nu → Q CL Nu → Num CL Nom (a) N → N’ N” Trong ó: Nom: Ch ng Mod: B ng Nu: S m Dem: Ch nh t Pron: i t Npr: Danh t riêng N: Danh t N’: danh t phân lo i N”: danh t không phân lo i PL: S nhi u Q: Lư ng t Nom (b) NP Nu PL Q Num N CL Mod Dem NP Pron Npr Mod Hình : C u trúc c m danh t ti ng Vi t c a Shum [19] Beatty ưa ra hai kh năng có th có c a c m danh t ti ng Vi t ư c bi u di n qua c u trúc cây như sau: NP Num CL N’ N NP N’ Dem N’ Num N’ (a) NP AP Trong ó: AP: C m tính t NP Dem (b) AP CL N Hình 2: C u trúc c m danh t ti ng Vi t c a Beatty [19] Tuy nhiên Beatty ã không xem xét n các m o t t ch xu t cái (cái con mèo này – this cat). 2.2 Nh ng công trình nghiên c u trong nư c Nguy n Tài C n cho r ng c m danh t (danh ng ph n trung tâm và ph n cu i như sơ sau: Ph n u Ph n trung tâm Ba ngư i C hai t nh T t cà nh ng cái ch trương (articles : m t, nh ng, các), và ) g m có ba ph n: ph n Ph n sau này nh y chính xác ó u, Trong th c t danh ng còn có th xu t hi n c dư i nh ng d ng ch có hai ph n: - D ng ch có ph n u và ph n trung tâm, Ph n u Ph n trung tâm Ba bát - D ng ch có ph n trung tâm và ph n sau, Ph n trung tâm Ph n sau bát này - D ng ch có ph n u và ph n sau, Ph n u Ph n sau Ba tái Di p Quang Ban ưa ra c u t o chung c a c m danh t có ba ph n là ph n trung tâm, ph n ph trư c và ph n ph sau. Ph n trung tâm thư ng là m t danh t ho c m t ng danh t . Trong ph n ph trư c ngư i ta ã xác nh ư c ba v trí khác nhau s p x p theo m t tr t t nh t nh. ph n ph sau thư ng nh n ư c hai v trí có tr t t n nh. Ph n ph trư c c m danh t thư ng dùng ch y u t s lư ng c a s v t nêu trung tâm, ph n ph sau ch y u dùng ch y u t ch t lư ng c a s v t nêu thành ph n trung tâm. Ph n ph trư c (-1, -2, - Ph n trung tâm 3) (0) Ví d 1: t tc -3 nh ng -2 cái -1 con mèo 0 Ph n ph sau (1, 2) en 1 y 2 - v trí 0 là v trí c a danh t chính, - v trí -1 là v trí c a t ch xu t cái, - v trí -2 là v trí c a t ch s lư ng, ví d : m t, hai…; vài, ba, dăm, dăm ba…; m i, t ng, m i..; nh ng, các, m t…; m y, - v trí -3 là v trí c a t ch t ng lư ng, ví d : t t c , h t th y, c … - v trí 1 là v trí c a t nêu c trưng miêu t có th g p nhi u lo i t khác nhau như: danh t , ng t , tính t , s t , i t và th i v t , ví d : phòng t p chí, phòng c, phòng h p, phòng 14, phòng ngoài, phòng (c a) chúng tôi, chuy n trư c, - v trí 2 là v trí c a t ch nh, ví d : cái máy này, qu táo kia… Tuong Hung Nguyen phát tri n thêm nh ng v n mà Beatty chưa bàn n và ưa ra c u trúc t ng quát c a c m danh t như hình 3. DP D’ D Ví d 2: Các CÁI con mèo Này These very cats DemP Các NumP i Num’ Num FocP CÁI CL con CLP CLP CL’ NP Mèo cat Dem Dem’ NumP NÀY this Trong ó: DP: Determiner Phrase D: Determiner DemP: Demonstrative Phrase NumP: Numeral Phrase Num: Numeral CLP: Classifier Phrase CL: Classifier FocP: Focus NP: Noun Phrase ti Hình 3: C u trúc c m danh t ti ng Vi t c a Tuong Hung Nguyen Qua kh o sát các nghiên c u v c m danh t ti ng Vi t chúng ta th y r ng: cho n nay chưa có m t nh nghĩa chu n th ng nh t v cách g i c a t lo i cũng như c u trúc c m danh t ti ng Vi t. Trong c t c a bài báo này ch y u d a vào các phân tích c a Tuong Hung Nguyen và Nguy n Tài C n. 3. D CH MÁY TRÊN CƠ S C M T Phương pháp d a trên cơ s t có nhi u h n ch . Do thi u thông tin ng c nh khi xác nh xác su t c a các t , nên nghĩa c a t ư c ch n nhi u lúc không úng v i ng c nh. Ng nghĩa c a t khi d ch l i ph thu c vào các t khác xu t hi n cùng v i nó trong câu, ví d c m t “to kick the bucket” ng nghĩa v i “to die”, “around the clock” có nghĩa là “continuously” và “as a matter of fact” mang nghĩa “actually”. ôi khi ng nghĩa m t t c a ngôn ng ích không di n t nghĩa m t t trong ngôn ng ngu n và ngư c l i. Mô hình d ch song ng d a trên cơ s t thì quá trình xác nh nghĩa c a câu ích ch ư c th c hi n b i s ghép t và hoán i v trí c a t theo c u trúc cú pháp. Trong m t s trư ng h p ngư i ta c n có thêm các thao tác ph như chèn thêm t ho c xóa b t t . Th c t các mô hình d ch theo t không b o m úng nghĩa cho câu ích là do nó không có kh năng lưu ch a các lu t sinh cho t t c các câu trong th c t và các c t chi ti t các hành vi ng nghĩa nhúng trong m i lu t sinh c a t ng ng c nh c th . 3.1 Gi i pháp kh c ph c nh ng h n ch ã trình bày ph n 1, bài báo xu t m t phương pháp d ch máy m i v i tên g i là d ch máy d c trên cơ s c m t (Phrase Based Machine Translation – PBMT). Phương pháp này ư c xây d ng trên cơ s s d ng hai phương pháp EBMT và SMT v i nh ng nét ng c nh trong cơ s tri th c. Ví d câu: Old men love classical music (Nh ng ngư i àn ông già thích nh c c i n). Hình 4: Phương pháp PBMT cho câu: Old men love classical music Qua hai ví d trên hình 4, chúng ta th y r ng n u các c m danh t (Noun Phrase – NP) song ng (như nh ng cây con c a các cây cú pháp) ư c lưu tr trong kho ng li u, nó s giúp cho t c d ch và ch t lư ng d ch máy ư c c i thi n áng k . Nh ng cây con này ư c rút trích ra t kho ng li u (corpus) song ng Anh – Vi t ã ư c hu n chính xác c a s n ph m d ch ph thu c nhi u vào kho d li u này và s luy n trư c. lư ng m u song ng m c c m t ư c rút trích ư c. i u này có th th c hi n ư c b ng phương pháp PBMT. N u NP ư c coi là m t nút (mà không còn ph i quan tâm các thành ph n con c a cây NP) thì h u như tr t t t và c m t khác trên cây cú pháp c a hai ngôn ng h u như không có s thay i. Hình 5: i sánh m t-nhi u rút trích c m danh t ti ng Vi t tương ng v i c m danh t ti ng Anh trong c p câu song ng thì v n i sánh t có nh hư ng quy t nh n vi c rút trích. Tuy nhiên trong th c t ngôn ng luôn t n t i m t s v n trong i sánh. Ví d trên hình 5, t “saw” v trí th 2 trong câu ti ng Anh ư c i sánh v i hai t trong ti ng Vi t là t “th y” v trí 4 và t “quan sát” v trí 10 trong ti ng Vi t. Trong gi i thu t i sánh c m danh t cơ s nguyên th y c a Yarowsky [2], chính xác c a vi c rút trích ph thu c vào chính xác c a i sánh t , nhưng v n t n ch ng chéo và xung t, t i là trong quá trình i sánh t ngư i ta luôn g p ph i v n v n “stopword”. Stopword là t c a ngôn ng ngu n không ư c d ch sang ngôn ng ích và ngư c l i như ví d trên hình 9. V n biên trái và ph i c a c m t i sánh cũng là m t v n như hình 6. gi i quy t v n này, bài báo th c hi n chuy n i tr t t t câu ti ng Anh theo tr t t t trong câu ti ng Vi t trư c khi i sánh như ví d trên hình 7. Hình 6: i sánh t Anh-Vi t Trong th c t ngôn ng , các mô hình i sánh t th ng kê c a Och và Ney [10], hay mô hình t i n c a Ker và Chang [12] áp d ng cho c p Anh - Vi t còn h n ch [4]. Nguyên nhân c a các h n ch này là do s khác bi t v ng h , ng c nh, ng nghĩa c a t ,t c trưng,… i sánh i m neo là m t gi i pháp cho bài toán này như ví d trên hình 7. (a) (b) (c) (d) [I1] like2 [her3 first4 six5 Vietnamese6 dresses7] [Tôi1] thích2 [sáu3 cái áo dài4 Vi t Nam5 [I1] like2 [six3 dresses4 u tiên6 c a cô ta7] first6 u tiên6 her7 ] c a cô ta7] Vietnamese5 Hình 7: i sánh i m neo [Tôi1] thích2 [sáu3 cái áo dài4 Vi t Nam5 Trong quá trình d ch máy, vi c thêm hay xóa t trong câu ư c th c hi n trong quá trình ki m tra ng nghĩa. Mô hình d ch d a trên cơ s t thư ng cho chính xác r t h n ch [5, 20]. Mô hình PBMT kh c ph c h n ch này b ng cách xác nh ng nghĩa c a c m t thay vì ng nghĩa c a t , xác nh ng c nh và lu t chuy n i c a câu d ch [8]. Mô hình PBMT bao g m hai giai o n chính như mô t trong m c 3.2. 3.2 Phương pháp d ch trên cơ s c m t (PBMT) 3.2.1 Giai o n hu n luy n Trong nh ng năm g n ây, nhi u nhà nghiên c u quan tâm n vi c rút trích c m danh t song ng . Yarowsky [2] phát tri n mô hình chi u thu nh n mã t lo i, c m danh t cơ s , tên th c th và phân tích hình v c a ngôn ng ích thông qua ngôn ng ngu n. E.Riloff [3] xây d ng h th ng rút trích thông tin cho ngôn ng m i thông qua mô hình chi u. Mô hình c a chúng tôi th c hi n trên phương pháp c a Yarowsky v i m t s c i thi n kh c ph c v n ch ng chéo, xung t trong mô hình c a chi u. • Các bư c rút trích c m danh t : Bư c 1: Phân tích câu ngu n xác nh các c m t , Bư c 2: Gán nhãn mã t lo i (POS: Part-Of-Speech) câu ngu n. Bư c 3: S p x p l i tr t t t c a câu ngu n theo tr t t t c a câu ích. Bư c 4: i sánh t c a câu ngu n sau khi ã ư c s p x p v i câu ích. Bư c 5: Vi t l i lu t sinh cho ngôn ng ngu n t ng li u ã i sánh và gán nhãn. Bư c 6: Rút trích c m danh t ho c t Anh – Vi t tương ng. • Gi i thu t trích rút c m danh t : a) Xác nh c m danh t (NP) ích qua i sánh t : V i m i m t NP ngu n có v trí t j1 t i j2, thì NP ích tương ng ư c xác nh b i imin và imax . Trong ó: imin = minj {i = a(j)} (t ngu n v trí j ư c i sánh (align) v i t ích v trí i) imax = maxj {i = a(j)} v i j = j1 … j2 b) M r ng NP ích theo các quy t c sau: b.1 N u t th imin – 1 thu c l p t phân lo i CL (CL: Classifier) thì imin = imin – 1 b.2 N u t th imin – 1 là t “CÁI” thì imin = imin – 1 b.3 N u t th imin – 1 thu c l p m o t Ar (Ar: Articles) thì imin = imin – 1, Ar = {m t, nh ng, các} m t [- PL; - Definite] : tương ng v i c m NP ti ng Anh là s ít và không xác nh nh ng [+PL; - Definite]: tương ng v i c m NP ti ng Anh là s nhi u và không xác nh xác các [+PL; + Definite]: tương ng v i c m NP ti ng Anh là s nhi u và nh (a) These1 yellow2 books3 (i) Books1 yellow2 these3 (ii) CÁC1 CÁI2 cu n3 sách4 vàng5 này6 (iii) (b) These1 two2 black3 dogs4 (i) Two1 dogs2 black3 these4 (ii) Hai1 CÁI2 con3 chó4 en5 này6 (iii) Hình 8 : M r ng c m danh t theo t c trưng Thay vì i sánh (i) v i (iii) bài báo i sánh (ii) v i (iii), ví d trên hình 8 (a) “CÁI2 con3” ư c l y thêm t ng cho dù không ư c i sánh, ví d trên hình 8 (b) “CÁC1 CÁI2 cu n3” ư c l y thêm nh các quy t c b.1, b.2, và b.3. Do ó làm tăng thêm chính xác c a i sánh c m danh t . • D li u u vào là các c p câu song ng Anh Vi t G n t lo i và phân o n câu ti ng Anh (fnTBL|TnT) i sánh t trong c p câu song ng (GIZA++) Kho ng li u cho d ch máy Ánh x Chuy n Lc i Rút trích lu t sinh và t o b ng c m t Hình 9 : Giai o n hu n luy n • K t qu c a quá trình hu n luy n là các b ng: + B ng c m t (Ps, Rs, Pt, Rt, C, Pr), + B ng t (Ws, Wt, POS, Pr). Trong ó: Ps: c m t ngu n Pt: c m t ích Rs: chu i lu t sinh ngu n Rt: chu i lu t sinh ích C: nét ng c nh Pr: xác su t Ws: t ngu n Wt: t ích POS: t lo i • Các bư c th c hi n: G n nhãn t lo i cho câu ti ng Anh. Phân tích cú pháp và phân o n câu ti ng Anh. i sánh t . T o b ng c m t và b ng t . 3.2.2 Giai o n áp d ng Có th mô t mô hình d ch ơn gi n như sau: u tiên câu nh p ngôn ng ngu n ư c gán nhãn t lo i và phân tích cú pháp (gi ng như cách phân tích rút ra các thay th b ng c m t c m t ). Ti p theo h th ng tìm các c m t này trong b ng t tương ng ngôn ng xu t. Các t không thu c b ng c m t thì tìm trên b ng t . Sau ó thêm m t s thao tác chèn và s p x p l i n u c n theo các quy t c ã xác nh trư c. Gi i thu t: Mô hình d ch ơn gi n trên cơ s c m t Anh – Vi t Nh p: câu ti ng Anh (mà thông tin ã có trong b ng c m t ho c b ng t ). Xu t: câu ti ng Vi t ã ư c d ch. Phương pháp: − G n nhãn t lo i cho các t c a câu nh p − Phân tích cú pháp và phân o n câu nh p − Tìm c m t tương ng trong b ng c m t , n u so trùng c m t thì l y ra c m t ti ng Vi t tương ng. Trong trư ng h p không tìm ư c c m t tương ng thì tìm t trong b ng t và l y t ti ng Vi t tương ng. N u không tìm th y thì báo l i. − S p x p l i câu d ch cho phù h p v i c u trúc cú pháp c a câu ti ng Vi t Câu ti ng Anh G n t lo i, phân tích cú pháp và phân o n câu Câu ti ng Anh ã phân tích Kho ng li u cho d ch máy Hình 10 : Giai o n ng d ng 4. K T QU TH C NGHI M 4.1 Tiêu chu n ánh giá Bài báo này s d ng tiêu chu n ánh giá c a Och và Ney năm 2003 [8] trong i sánh t (WA: Word-Alignment). Och và Ney ưa ra ba tiêu chu n ánh giá ch t lư ng WA là Recall, Precision và AER (Alignment Error Rate) theo các công th c sau: Recall = |A∩S| |S| Precision = P | |A∩ |A| AER(S,P,A) ∩ 1 - + |A ∩ P| |A= S| |A|+|S| Trong ó: A = {(j, aj) | aj >0} S : i sánh ch c ch n cho các trư ng h p i sánh không nh p nh ng, P : Có kh năng i sánh, T p các c p câu l y i sánh b ng tay ư c l y ng u nhiên t ng li u hu n luy n. khách quan s có hai ngư i ánh giá v i các k t qu tương ng là S1, S2, P1, P2 và k t qu t ng h p S và P ư c tính theo công th c: P = P1 ∪ P2 và S = S1 ∩ S2 4.2 K t qu Bài báo s d ng b ng li u bao g m b t i n bách khoa - Heinemann, 2003 (The Fahasa/Heinemann Illustrated Encyclopedia), Penn Treebank và các câu chuyên song ng . K t qu i sánh t b ng Giza++ Anh -Anh Anh - Viet Ng li u Ghi chú Gc o G c Phân o n Phân o n danh t t và o và tính t 1 2 3 Penn Treebank, 99,99% 8827 c p câu Encyclopedia, 6118 c p câu Story, 10014 c p câu 99,1% 59,1% 54,5% 68,3% 70,5% 79,2% 84,7% Tính tr c ti p [10] [10] 5. K T L U N s p x p tr t t t cho câu ti ng Anh theo S d ng tri th c ngôn ng ti ng Vi t tr t t t c a câu ti ng Vi t trư c khi i sánh t b ng Giza++ (như ã mô t trong m c 3.2) cho k t qu r t kh quan. Vi c s p x p tr t t t trong câu ti ng Anh theo ti ng Vi t không nh ng t k t qu cao trong i sánh t , mà còn cho k t qu cao trong rút trích c m danh t song ng Anh-Vi t. Tuy nhiên có s ánh giá chính xác hơn, mô hình xu t c n th c nghi m trên b ng li u l n hơn v i các ng c nh khác nhau (kho ng 500.000 c p câu). Công vi c này là bư c ti p theo trong nghiên c u c a chúng tôi trong th i gian t i. K t qu c a nghiên c u c a bài báo cũng có th ng d ng cho các c p ngôn ng khác, các nghiên c u và các ng d ng d a trên ng li u song ng như: - ng d ng trong bài toán rút trích c m danh t , c m ng t , c m gi i t ,… - Xây d ng các ng li u song ng m c c m t cho các mô hình d ch máy th ng kê, ví d , các mô hình nh n bi t ti ng nói,… 6. TÀI LI U THAM KH O H.Cunningham, D.Maynard, K.Bontcheva and V.Tablan (2002), “GATE: A framework and graphical development environment for robust NLP tools and applications” Proceedings of The 40th Anniversary Meeting of the Association for Computational Linguistics. David Yarowsky và Grace Ngai, (2001). “Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection across Aligned Corpora”. Johns Hopkins University Baltimore, MD 21218, USA. Ellen Riloff, Charles Schafer and David Yarowsky, “Inducing Information Extraction Systems for New Languages via Cross-Language Projection”, In Proceedings of the 19th International Conference on Computational Linguistics (COLING 2002) D.Dien, H.Kiem, T.Ngan, X.Quang, Q.Hung, P.Hoi, V.Toan. (2002) “Word alignment in English – Vietnamese bilingual corpus”, Proceedings of EALPIIT’02, Hanoi, Vietnam, pp. 3-11. [1] [2] [3] [4] inh i n (2003), “Mô hình h c lu t chuy n i t ng li u song ng cho h d ch t ng Anh-Vi t”, Lu n án ti n sĩ, i h c Qu c gia Tp.HCM. [6] Di p Quang Ban, Ng Pháp Ti ng Vi t, Nhà xu t b n giáo d c, 2004. [7] D.Marcu and W.Wong, 2002, “A phrase-based, joint probability model for statistical machine translation”. In Proc, Conf, on Empirical Methods for Natural Language Processing, pages 133-139, Philadelphia, PA, July. [8] Hieu Chi Nguyen, Tuoi Thi Phan, Dung Xuan Nguyen (2007), “Learning Transfer Rules of Base Noun Phrases from Bilingual Corpus”, Proceeding of The 10th International Oriental COCOSDA 2007 Conference -O-COCOSDA’07, pp.96101. [9] H Lê, Cú pháp ti ng Vi t, Nhà xu t b n Khoa h c xã h i Hà n i, 1992. [10] Franz Josef Och, Herman Ney, “A Systematic Comparision of Various Statistical Alignment Models”. Association for Computational Linguistics, 2003. [11] Kenji Yamada and Kevin Knight, “A Syntax-based Statistical Translation Model”, In Proc, of the 39th Annual Meeting of ACL, Nancy, France, 2001. [12] S.J.Ker and J.S.Chang (1997), “A Class-based Approach to Word Alignment”, Computational Linguistics, Vol 23, No.2, p.313-343. [13] Nguy n Kim Th n, Nghiên c u ng pháp ti ng Vi t, NXB Giáo d c, 1997. [14] Nguy n Tài C n, Ng pháp ti ng Vi t, Nhà xu t b n i h c Qu c gia Hà n i, 1999. [15] P.Koehn, F.J.Och, and D.Marcu. “Statistical phrase-based translation”. In Proc, of the Human Language Technology Conf. (HLT-NAACL), pp.127-133, Edmonton, Canada, May-June 2003. [16] Philipp Koehn, “Noun Phrase Translation”, Ph.D. dissertation, University of Southern California, 2003. [17] Rebecca Hwa, “Breaking the resource bottleneck for multilingual processing”. University of Endinburgh IGK Summer School September 6, 2004. [18] Ruslan Mitkov, Computational Linguistics, The Oxford University Press, First Published, 2003. [19] Tuong Hung Nguyen, “The structure of the Vietnamese Noun Phrase”, Ph.D. dissertation, Boston University Graduate School of Arts and Sciences, 2004. [20] N.P.Thai and A.Shimazu (2006), “Improving Phrase-Based SMT with MorphoSyntactic Analysis and Transformation”, Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, August. [5] ...
View Full Document

Ask a homework question - tutors are online