|
un proiect realizat de
sustinuti de
|
Analiza factorilor ce influenteaza repetitiile (stilul individual al autorilor, natura textelor si limba in care sunt scrise)
Stiinta Calculatoarelor
| Locul de desfasurare al stagiului: |
Bucuresti |
| Numarul de pozitii disponibile: |
3 pozitii |
| Departament/echipa: |
Natural Language Processing |
| Perioada de desfasurare a stagiului: |
05.07.2010 - 30.09.2010 (Minim) 1 luna in intervalul mentionat anterior |
| Salariu: |
0 RON |
| Recomandari: |
|
| Cunostinte minime : |
- Cunostinte bune de programare si structuri de date (C / C++ / Java / Python / PHP);
- Notiuni de algoritmi de baza
- Gandire logica
- Dorinta de a studia si invata lucruri algoritmi si tehnici mai dificile |
| Cunostinte ce vor fi dobandite |
- Notiuni de algoritmi avansati pentru prelucrarea limbajului natural (PLN)
- Utilizarea de biblioteci open source pentru dezvoltarea de aplicatii de PLN
- Studiul unor lucrari si concepte mai dificile
- Colaborarea cu membrii echipei de CSCL / PLN din facultate |
| Activitati desfasurate in timpul stagiului |
Trei activitati diferite pentru fiecare stagiar:
a. Limba: i. Descriere varianta 1: se considera un corpus bi/multi – lingual si se evalueazÄ� repetiÈ�iile in fiecare corpus pentru a vedea daca se repeta aceleaÈ�i lucruri (ca parte de vorbire, conÈ�inut, samd), cu aceleaÈ�i frecvente, samd. ii. Descriere varianta 2: toate cuvintele din lexiconul a doua sau mai multe limbi sunt cÄ�utate pe Google pentru a determina frecventa lor de apariÈ�ie pe Web si apoi rezultatele sunt comparate pentru a vedea daca exista corelaÈ�ii in ceea ce priveÈ�te cele mai frecvente lucruri repetate (repetiÈ�ie de conÈ�inut, de structuri samd).
b. Stilul/Genul textului: i. Descriere: se compara doua corpusuri diferite de texte din punctul de vedere al repetiÈ�iei – primul corpus fiind alcÄ�tuit din poezii si altul conÈ�inând comentarii literare ale poeziilor din primul corpus (cele doua corpusuri trebuie construite).
c. Stilul individual: i. Descriere: Se porneÈ�te de la un corpus cu texte scrise de diverÈ�i autori. AplicaÈ�ia trebuie sa înveÈ�e caracteristicile fiecÄ�rui autor pentru ca la final sa fie capabila sa recunoascÄ� stilul fiecÄ�rui autor in parte (se dau texte noi si trebuie sa se identifice autorul). Caracteristici ce pot fi utilizate: repetiÈ�ii, paronimie, lanÈ�uri semantice, „popularitatea” unor cuvinte –frecventa lor de apariÈ�ie intr-un corpus- precum si distribuÈ�iile lor in textele din corpus.
Indrumator: - Costin Chiru |
| Continuarea colaborarii |
Lucrare de diploma, publicare de lucrari, participare in proiecte de cercetare. |
| Restrictii: |
|
| Alte observatii: |
Vor fi organizate intalniri bisaptamanale in laboratoarele din facultate in lunile iulie si septembrie. Prezenta nu va fi obligatorie la toate aceste intalniri si puteti sa lucrati si de acasa. Scopul principal este realizarea obiectivului final asociat fiecarui stagiu in parte. |
| Cazare: |
Nu se ofera posibilitatea cazarii pentru studentii din alte orase. |
Intoarcere
Recomanda stagiul unui prieten
Comentarii
Adauga un comentariu:
|
|
|
Parteneri principali
|