Computational Linguistics, by Lucas Freitas

>> LUCAS FREITAS: Hei. Tervetuloa kaikille. Nimeni on Lucas Freitas. Olen juniori [kuultavissa] opiskelu tietojenkäsittelytiede jossa keskitytään laskennallinen kielitiede. Joten minun toissijainen on kieli ja kielellinen teoria. Olen todella innoissani opettaa teille hieman siitä kenttään. Se on erittäin jännittävä alue opiskelemaan. Myös paljon potentiaalia tulevaisuutta. Joten, olen todella innoissani, että te harkitsevat hankkeita laskennallinen kielitiede. Ja minä olen enemmän kuin mielellään neuvoja joku teistä jos päätät harjoittaa yksi niistä. >> Joten ensiksi, mitkä ovat laskennallisia kielitiede? Joten laskennallinen kielitiede on leikkauspisteessä kielitieteen ja tietotekniikassa. Joten, mikä on kielitiede? Mikä on tietojenkäsittelytiede? No alkaen kielitiede, mitä otamme ovat kieliä. Joten kielitiede on todella tutkimus luonnollisen kielen yleensä. Niin luonnollinen kieli - puhumme kieli, että me todella käyttävät kommunikoida toistensa kanssa. Joten emme tarkalleen puhu noin C tai Java. Me puhumme enemmän Englanti ja Kiinan ja muiden kielten että me käyttävät kommunikoida toistensa kanssa. >> Haastava juttu se on, että nyt meillä on lähes 7000 maailman kielten. Joten on varsin korkea lajike kielten että voimme tutkia. Ja sitten luulet, että se on luultavasti hyvin vaikea tehdä, esimerkiksi käännös yhdestä kielestä muut, koska olet lähes 7000 heistä. Joten, jos luulet tehdä käännös yhdestä kielestä muut olette on lähes yli miljoona erilaisia yhdistelmiä, että voit on kielikohtaisesti. Joten se on todella haastavaa tehdä joitakin Tällainen esimerkki käännös järjestelmä jokainen kieli. >> Joten, kielitiede kohtelee syntaksin, semantiikka, pragmatiikka. Te ette juuri tarvitse tietää, mitä ne ovat. Mutta erittäin mielenkiintoinen asia on, että kuin syntyperäinen puhuja, kun opit kieltä kuin lapsi, olet itse oppia kaikki nuo asiat - syntaksin semantiikka ja pragmatiikka - itse. Ja kenenkään ei tarvitse opettaa sinulle syntaksi sinua ymmärtämään, miten lauseet ovat jäsennelty. Niin, se on todella mielenkiintoista, koska se on jotain, joka tulee hyvin intuitiivisesti. >> Ja mitä te viette alkaen tietojenkäsittelytiede? No, tärkeintä, että me on tietotekniikassa on ensimmäinen kaikki, tekoäly ja koneoppiminen. Joten, mitä me yritämme tehdä laskennallinen kielitiede on opettaa tietokoneesi miten tehdä jotain kielen. >> Niin, esimerkiksi kone käännös. Yritän opettaa minun tietokone, kuinka tietää, miten siirtyminen yhdestä kieli muille. Joten, pohjimmiltaan kuin opetus tietokone kahdella kielellä. Jos teen luonnollisen kielen käsittely, joka on kyseessä on esimerkiksi Facebookin Graph haku, opetat tietokoneesi miten ymmärtää kyselyitä hyvin. >> Joten, jos sanot "kuvia minun ystäviä. "Facebook ei kohtele että koko merkkijono, joka on vain joukko sanoja. Se todella ymmärtää suhteessa välillä "valokuvia" ja "ystäväni" ja ymmärtää, että "valokuvat" ovat omaisuutta "ystäväni." >> Niin, se on osa, esimerkiksi luonnollisen kielen käsittely. Se yrittää ymmärtää, mitä on suhde sanat lauseen. Ja suuri kysymys on, voitko opettaa tietokoneen miten puhua kieltä yleensä? Joka on hyvin mielenkiintoinen kysymys ajatella, ikään kuin ehkä tulevaisuudessa, aiot pystyä puhua matkapuhelimeesi. Kind of kuten mitä teemme Siri mutta jotain enemmän kuin, voit itse sanoa mitä haluat ja puhelin tulee ymmärtää kaiken. Ja se voi olla seurata kysymyksiä ja vatvoa. Se on jotain todella jännittävää, mielestäni. >> Niin, jotain luonnollista kieltä. Jotain todella mielenkiintoista luonnollisella kielellä on se, että, ja tämä on luottoa minun kielitiede professori, Maria Polinsky. Hän antaa esimerkin ja uskon se on todella mielenkiintoinen. Koska opimme kieltä siitä, kun olemme syntyneet ja sitten meidän native kieli eräänlainen kasvaa meille. >> Ja pohjimmiltaan opit kieltä minimaalinen input, eikö? Olet juuri panosta oman vanhemmat, mitä kieli kuulostaa pidät ja vain oppia se. Niin, se on mielenkiintoista, koska jos tarkastellaan noita lauseita esimerkiksi. Näytät ", Mary laittaa takki joka kerran hän lähtee talosta. " >> Tässä tapauksessa se on mahdollista saada sana "hän" viittaa Mary, eikö? Voit sanoa "Mary laittaa takki joka kerta Mary lähtee talo. ", niin se käy hyvin. Mutta sitten jos tarkastellaan lause "Hän laittaa takki joka kerta Mary lähtee talosta. "tiedät sen mahdotonta sanoa, että "hän" on viitaten Mary. >> Ei ole tapa sanoa, että "Mary asettaa on takki joka kerta Mary lehdet talon. "Niin se on mielenkiintoista, koska tämä on sellainen intuitio että jokainen syntyperäinen puhuja on. Eikä kukaan opetettiin, että tämä on siten, että syntaksin toimii. Ja että voit vain tämä ", hän" viittaa Mary tässä ensimmäisessä tapauksessa ja oikeastaan tämä toinen myös, mutta ei tässä yksi. Mutta jokainen tavallaan saa jotta saman vastauksen. Kaikki ovat yhtä mieltä siitä. Joten se on todella mielenkiintoista, miten vaikka et tiedä kaikkia sääntöjä omalla kielellä sellainen ymmärtää miten kieli toimii. >> Joten mielenkiintoinen asia luonnon kieli on, että sinun ei tarvitse tiedä mitään syntaksin tietää, jos lause on kieliopin tai ungrammatical varten Useimmissa tapauksissa. Mikä saa sinut ajattelemaan, että ehkä mitä tapahtuu on, että läpi elämän, sinua vain pitää saada enemmän ja enemmän lauseita teille puhunut. Ja sitten pitää ulkoa kaikki lauseet. Ja sitten kun joku kertoo sinulle jotain, kuulet, että lause ja sinä katsot sanastoa lauseiden ja katso jos että lause on siellä. Ja jos se on siellä sinua sanovat, että se kieliopin. Jos se ei ole sanot se on ungrammatical. >> Tuossa tapauksessa sanoisit, oh, niin sinulla on valtava luettelo kaikista mahdollista lauseita. Ja sitten kun kuulet lauseen, tiedät, jos se on kieliopin tai ei perustu tämän. Asia on, että jos tarkastellaan lause, esimerkiksi " viisi-johdossa CS50 TFs keitetyt sokea mustekala käyttäen DAPA muki. "Se on ehdottomasti ei lause että olet kuullut ennen. Mutta samalla tiedät sen melko paljon kieliopin, eikö? Ei ole kielioppivirheitä ja voit sanoa, että se on mahdollista lause. >> Joten se tekee meistä ajattelevat, että todella siten, että opimme kieltä ei ole vain ottaa valtava tietokanta mahdollisista sanoja tai lauseita, mutta enemmän ymmärtäminen suhde sanat Näitä virkkeitä. Onko järkeä? Näin on, niin kysymys on, voiko tietokoneet oppia kieliä? Voimmeko opettaa kielen tietokoneisiin? >> Joten, nyt ajatella eroa välillä syntyperäinen kielen puhuja ja tietokone. Joten, mitä tapahtuu puhujan? No, syntyperäinen puhuja oppii kieli altistumisesta sitä. Yleensä sen varhaislapsuudessa vuotta. Joten periaatteessa, sinun täytyy vain vauva, ja sinun pitää puhua siitä, ja se vain oppii puhumaan kieli, eikö? Joten, olet periaatteessa antaa tulo vauva. Joten, voit väittää, että tietokone voi tehdä sama asia, eikö? Voi vain antaa kieli syötteenä tietokoneelle. >> Kuten esimerkiksi joukko tiedostoja että on kirjoja Englanti. Ehkä se on yksi tapa, että te voisi mahdollisesti opettaa tietokone Englanti, eikö? Ja itse asiassa, jos ajattelee sitä, se vie ehkä pari päivää lukea kirjaa. Saat tietokone kestää sekunnin katsokaa kaikki sanat kirjan. Voit siis ajatella, että voi olla vain tämän argumentti työpanoksen ympärilläsi, se ei riitä sanoa, että se on jotain, että vain ihmiset voivat tehdä. Voit ajatella tietokoneita voi myös saada palautetta. >> Toinen asia on, että äidinkielenään myös aivot, joka on kielten oppimisen valmiudet. Mutta jos ajattelee sitä, aivot on kiinteä asia. Kun olet syntynyt, se on jo asetettu - tämä on aivot. Ja kun kasvaa, voit vain saada enemmän tuloon kieltä ja ehkä ravinteita ja muita juttuja. Mutta aika paljon aivoihin on kiinteä asia. >> Joten voit sanoa, no, ehkä voit rakentaa tietokone, jossa on joukko toimintoja ja että vain matkivat kielten oppimisen valmiudet. Joten siinä mielessä, voisi sanoa, no, minä voi olla tietokone, jossa on kaikki asioita minun täytyy oppia kieltä. Ja viimeinen asia on, että natiivi puhuja oppii yrityksen ja erehdyksen. Joten periaatteessa toinen tärkeä asia kielen oppiminen on, että olet sellainen ja oppia asioita tekemällä yleistyksiä siitä, mitä kuulet. >> Joten kun varttuvat opit, että jotkut sanat ovat enemmän kuin sanat, jotkut muut niistä ovat adjektiiveja. Ja sinun ei tarvitse olla mitään tuntemus kielitiede ymmärtää, että. Mutta vain tietää olemassa joitakin sanoja on sijoitettu osaan virkkeen ja toiset muilla osia lauseen. >> Ja että kun teet jotain, joka on kuten lause, joka ei ole oikein - ehkä siksi yli yleistys esimerkiksi. Ehkä kun olet nuori, huomaat että monikko on yleensä muodostetaan asettamalla s sanan lopussa. Ja sitten yrität tehdä monikko "Hirvieläinten" kuin "peuroja" tai "hammas", kuten "Tooths." Niin sitten vanhempasi tai joku korjaa sinua ja sanoo ei, monikko "hirvieläinten" on "hirvi" ja monikko "hammas" on "hampaat." Ja sitten opit niitä asioita. Joten voit oppia ja erehdyksen. >> Mutta voit myös tehdä tietokoneen kanssa. Sinulla voi olla jotain kutsutaan vahvistaminen oppimista. Joka on pohjimmiltaan sama kuin antaisi tietokone palkita, kun se tekee jotain kunnolla. Ja antaa sille vastakohta palkita ja kun se tekee jotain väärin. Voit itse nähdä, että jos menet Google Käännä ja yrität kääntää lause, se kysyy palautetta. Joten jos sanot, Voi, on parempi käännös tämä lause. Voit kirjoittaa sen ylös ja sitten jos paljon ihmiset pitää sanoa, että on parempi käännös, se vain oppii, että se pitäisi käyttää käännös sijaan yksi sen antaa. >> Niin, se on hyvin filosofinen kysymys nähdä, jos tietokoneita aiotaan voi puhua tai ei tulevaisuudessa. Mutta minulla on suuria toiveita, että he voivat perustu pelkästään nämä väitteet. Mutta se on vain enemmän filosofinen kysymys. >> Joten vaikka tietokoneet silti voi puhua, mitkä ovat asioita, joita voimme tehdä? Joitakin todella hienoja asioita ovat tietojen luokittelu. Niinpä esimerkiksi, te tiedätte että sähköpostipalvelut tehdä, sillä Esimerkiksi roskapostin suodatus. Joten kun saat roskapostia, se yrittää suodattaa toiseen ruutuun. Joten miten se tehdään? Se ei ole kuin tietokone vain tietää mitä sähköpostiosoitteet lähettävät roskapostia. Joten se on enemmän perustuu sisältöön viestin, tai ehkä nimen tai ehkä jotkut kuvio, joka sinulla on. >> Joten periaatteessa, mitä voit tehdä, on saada paljon tietoa, sähköposteja, jotka ovat roskapostia, sähköpostit, jotka eivät ole roskapostia, ja oppia, mitä Tällainen malleja teillä on ne, jotka ovat roskapostia. Ja tämä on osa laskennallisen kielitiede. Sitä kutsutaan tiedon luokittelun. Ja me todella tulee nähdä esimerkki, että seuraavassa dioja. >> Toinen asia on luonnollista kieltä käsittely, joka on asia, joka Kuvaaja Hae tekee kerroit voit kirjoittaa lauseen. Ja se uskoo, että ymmärrät mitä on merkitystä ja antaa sinulle paremman tuloksen. Oikeastaan, jos menet Google tai Bing ja etsit jotain Lady Gagan korkeus, olet todella menossa saada 5 '1 "informaation sijaan hänen koska se todella ymmärtää mitä puhut. Joten se on osa luonnollista kielen käsittelyyn. >> Vai myös silloin, kun käytät Siri, ensin sinulla on algoritmi, joka yrittää kääntää mitä sanot sanoiksi, tekstimuodossa. Ja sitten se yrittää kääntää että osaksi merkitys. Niin, että kaikki osa luonnon kielen käsittelyyn. >> Sitten on machine translation - joka on itse asiassa yksi suosikeistani - joka on juuri kääntämiseen kielestä toiseen. Voit siis ajatella, että kun teet machine translation, sinulla on loputtomia mahdollisuuksia lauseita. Joten ei ole tapa vain tallentaa jokainen käännös. Joten sinun täytyy keksiä mielenkiintoisia algoritmit pystyä kääntää joka ikinen virke jollakin tavalla. >> Teillä on kysyttävää tähän mennessä? Ei? OK. >> Joten mitä aiomme nähdä tänään? Ensinnäkin aion puhua luokitusta ongelma. Niin yksi että olin sanovat roskapostia. Mitä aion tehdä, on, koska lyrics laulun, voit yrittää selvittää suurella todennäköisyydellä kuka on laulaja? Oletetaan, että minulla on kappaleita Lady Gaga ja Katy Perry, jos annan sinulle uusi biisi, voit selvittää, jos se Katy Perry vai Lady Gaga? >> Toinen, olen juuri menossa puhumaan noin segmentointi ongelma. Joten en tiedä, jos te tiedätte, mutta Kiina, japani, muista Itä-Aasian kieliä, ja muita kieliä yleisesti, ei ole välilyönnit sanojen. Ja sitten jos ajattelee niin, että tietokoneesi sellainen yrittää ymmärtää luonnollisen kielen käsittely, siinä tarkastellaan sanoja ja yrittää ymmärtää suhteiden niiden välillä, eikö? Mutta sitten jos sinulla on kiinalainen, ja te on nolla välilyöntejä, se on todella vaikea selville, mitä on suhde sanoja, koska niillä ei ole mitään sanoja ensin. Joten sinun täytyy tehdä jotain kutsutaan segmentointi mikä tarkoittaa vain laskemisesta välejä mitä me kutsuisi sanat näissä kielissä. Järkeä? >> Ja sitten me aiomme puhua syntaksin. Joten vain vähän luonnollisia kielen käsittelyyn. Se tulee olemaan vain yleiskatsaus. Joten tänään, periaatteessa mitä haluan tehdä on antaa teille hieman sisällä mitkä ovat mahdollisuudet että voit tehdä laskennallisin kielitiede. Ja sitten näet, mitä ajattelet on viileä joukossa asioita. Ja ehkä voit ajatella hankkeen ja tule juttelemaan. Ja voin antaa sinulle neuvoja miten toteuttaa se. >> Joten syntaksin tulee olemaan hieman noin Graph Etsi ja kone käännös. Olen juuri menossa antaa esimerkki siitä, miten voit esimerkiksi kääntää jotain Portugalin ja Englanti. Kuulostaako hyvältä? >> Joten ensin, luokittelun ongelma. Sanon, että tämä osa seminaarin tulee olemaan haastavin yksi vain koska siellä tulee olevan jonkin verran koodausta. Mutta se tulee olemaan Python. Tiedän te tiedä Python, joten Olen juuri menossa selittää aavalla tasolla sitä, mitä olen tekemässä. Ja sinun ei tarvitse oikeastaan piittaa paljon syntaksin koska se on jotain te voi oppia. OK? Kuulostaa hyvältä. >> Niin mikä on luokitus ongelma? Joten olet antanut joitakin sanoituksia laulu, ja haluat arvata joka laulaa sitä. Ja tämä voi olla mitä tahansa ja muita ongelmia. Joten se voidaan esimerkiksi olet presidentinvaalikampanjan ja sinulla on puheen, ja haluat löytää , jos se oli esimerkiksi Obama tai Mitt Romney. Tai voit olla nippu sähköposteja ja haluat selvittää, jos ne ovat roskapostia tai ei. Niin se vain luokittelemalla joitakin tiedot perustuvat sanat että olet siellä. >> Niin tehdä, että sinun täytyy tehdä joitakin oletuksia. Joten paljon laskennallinen kielitiede tekee oletuksia, yleensä järkevää oletuksia, jotta voit saada hyviä tuloksia. Yritetään luoda malli siitä. Ja sitten kokeilla sitä ja katso jos se toimii, jos se antaa sinulle hyvä tarkkuus. Ja jos niin käy, niin olet yrittää parantaa sitä. Jos se ei, olet kuin, OK, ehkä en pitäisi tehdä erilaisen oletuksen. >> Niin oletetaan, että aiomme tehdä on, että taiteilija yleensä laulaa aiheesta, useita kertoja, ja ehkä käyttää sanoja useita kertoja vain koska he ovat tottuneet siihen. Voit vain kuvitella ystäväsi. Olen varma, että te kaikki on ystäviä jotka sanovat niiden allekirjoitus lause, kirjaimellisesti joka ikinen lause - kuten jotkut tiettyä sanaa tai tiettyjä lause, että he sanovat varten jokainen lause. >> Ja mitä voit sanoa on, että jos näet lause, joka on allekirjoitus lause, voit arvata, että luultavasti ystäväsi on yksi sanoen se, eikö? Niin teet että oletus ja sitten se miten luoda malli. >> Esimerkiksi, että aion antaa palaa kuinka Lady Gaga, esimerkiksi ihmisiä sanoa, että hän käyttää "vauva" varten kaikki hänen ykkönen kappaleita. Ja oikeastaan tämä on video, joka näyttää hänen sanomalla sanan "vauva" varten eri kappaleita. >> [VIDEOTOISTOSTA] >> - (Laulaen) Baby. Vauva. Vauva. Vauva. Vauva. Babe. Vauva. Vauva. Vauva. Vauva. >> [END VIDEOTOISTOSTA- >> LUCAS FREITAS: Niin on, luulen, 40 kappaleita täällä, jossa hän sanoo sana "vauva". Joten voit periaatteessa arvata että jos näet kappale, jolla on sana "vauva" on joitakin korkean todennäköisyys, että se on Lady Gaga. Mutta yritetään kehittää tätä Vielä enemmän muodollisesti. >> Joten nämä ovat sanoituksia kappaleita Lady Gaga ja Katy Perry. Joten sinä katsot Lady Gaga, näet ne on paljon tapahtumia "baby" paljon tapahtumia ja "tapa." Ja sitten Katy Perry on paljon esiintymiä "," Paljon esiintymiä "tulen." >> Joten periaatteessa mitä haluamme tehdä, on, saat lyyrinen. Oletetaan, että saat lyric varten laulu, joka on "vauva" vain "vauva". Jos juuri saada sana "vauva" ja tämä on kaikki tiedot, jonka saat Lady Gaga ja Katy Perry, kukapa Arvaatko on henkilö joka laulaa laulun? Lady Gaga tai Katy Perry? Lady Gaga, eikö? Koska hän on ainoa, joka sanoo "Vauva". Tämä kuulostaa tyhmä, eikö? OK, tämä on todella helppoa. Olen vain katsomalla kaksi kappaletta ja Tietenkin hän on ainoa, jolla on "Vauva". >> Mutta mitä jos sinulla on nippu sanoja? Jos sinulla on todellinen lyric, jotain kuten "vauva, minä vain meni tapaamaan [? CFT?] luento "tai jotain sinne päin, ja sitten sinun todella täytyy selvittää - perustuvat kaikki nämä sanat - kuka on taiteilija, joka luultavasti lauloi tämän laulun? Joten yritetään kehittää Tässä hieman pidemmälle. >> OK, joten perustua pelkästään tietoihin, että me sai, näyttää siltä, että Gaga on luultavasti laulaja. Mutta miten voimme kirjoittaa Tämän virallisemmin? Ja siellä tulee olemaan hieman vähän tilastoja. Joten jos eksyt, kokeile ymmärtää käsite. Sillä ei ole väliä, jos ymmärrät yhtälöt aivan hyvin. Tämä kaikki tulee olemaan verkossa. >> Joten periaatteessa mitä olen laskettaessa on Todennäköisyys, että tämä laulu on by Lady Gaga otetaan huomioon, että - joten tämä tankoväline koska - Näin sana "vauva". Onko järkeä? Joten yritän laskea että todennäköisyys. >> Joten ei tämä lause nimeltään Bayes lause, joka sanoo, että todennäköisyys tietyn B, on todennäköisyys B annetaan, kertaa todennäköisyys, yli todennäköisyys B. Tämä on pitkä yhtälö. Mutta mitä sinun täytyy ymmärtää alkaen se on, että tämä on mitä haluan laskea, eikö? Niin todennäköisyys, että että laulu on vuoteen Lady Gaga koska olen nähnyt sanan "Vauva". >> Ja nyt, mitä Saan on todennäköisyys sana "vauva" annettuja että minulla on Lady Gaga. Ja mitä on se, että pohjimmiltaan? Tämä tarkoittaa sitä, mikä on todennäköisyys nähdä sana "vauva" in Gaga lyrics? Jos haluan laskea, että hyvin yksinkertaisella tavalla, se on vain numero kertaa näen "vauva" over kokonaismäärä sanojen Gaga lyrics, eikö? Mikä on taajuus, näen että sana Gagan toimii? Järkeä? >> Toinen termi on todennäköisyys Gaga. Mitä se tarkoittaa? Tämä tarkoittaa periaatteessa sitä, mikä on todennäköisyys luokittelussa lyriikoita kuin Gaga? Ja se on outo, mutta Ajatellaan esimerkkinä. Joten sanotaan, että todennäköisyys ottaa "vauva" in biisi on sama Gaga ja Britney Spears. Mutta Britney Spears on kahdesti enemmän kappaleita kuin Lady Gaga. Joten jos joku vain satunnaisesti saat lyrics "baby", ensimmäinen asia, sinun tarkastella on, mikä on todennäköisyys ottaa "vauva" in Gaga biisi "vauva" vuonna Britney laulu? Ja se on sama asia. >> Joten toinen asia, että näet on, No, mikä on todennäköisyys Tämän lyric itsessään on Gaga lyric, ja mikä on todennäköisyys että Britney lyric? Joten koska Britney on niin paljon enemmän lyrics kuin Gaga, olet luultavasti sanoa, no, tämä on luultavasti Britney lyyrinen. Joten siksi meillä on tämä termi täällä. Todennäköisyys Gaga. Järkevää? Onko se? OK. >> Ja viimeinen on vain todennäköisyys "baby", joka ei oikeastaan väliä, että paljon. Mutta se todennäköisyys näkeminen "vauva" Englanti. Me yleensä eivät välitä, että paljon, että termi. Onko järkeä? Joten todennäköisyys Gaga on kutsutaan ennen todennäköisyys luokan Gaga. Koska se tarkoittaa vain sitä, että mikä on todennäköisyys ottaa tämän luokan - joka on Gaga - vain yleensä vain ilman ehtoja. >> Ja sitten kun minulla on todennäköisyys Gaga annetaan "baby", me kutsumme sitä plus teary todennäköisyys, koska se on todennäköisyys, että Gaga annetaan jonkin verran näyttöä. Joten annan sinulle todisteet että olen nähnyt sanan vauvan ja laulu järkeä? OK. >> Jos siis laskenut, että kullekin kappaleet Lady Gaga, mitä se olisi - ilmeisesti, en voi siirtää tämän. Todennäköisyys Gaga on jotain, 2 yli 24, kertaa 1/2, yli 2 yli 53. Sillä ei ole väliä, jos tiedät mitä nämä luvut ovat peräisin. Mutta se on vain numero, joka on menossa olla enemmän kuin 0, eikö? >> Ja sitten kun teen Katy Perry, todennäköisyys "vauva" annetaan Katy on jo 0, eikö? Koska ei ole mitään "vauva" Katy Perry. Niin sitten tämä tulee 0, ja Gaga voittoa, mikä tarkoittaa, että Gaga on luultavasti laulaja. Onko järkeä? OK. >> Joten jos haluan tehdä asiasta virallisen, Voin itse tehdä malli useita sanoja. Joten haluan sanoa, että minulla on jotain kuten "vauva, olen tulessa ", tai jotain. Joten se on useita sanoja. Ja tässä tapauksessa, näet että "vauva" on Gaga, mutta se ei ole Katy. Ja "palo" on Katy, mutta se ei ole Gaga, eikö? Niin se alkaa hankalampi, eikö? Koska näyttää siltä, että melkein on tasan kaksi. >> Joten mitä sinun tarvitsee tehdä on olettaa riippumattomuus joukossa sanoja. Joten periaatteessa mitä se tarkoittaa, että Olen vain laskettaessa, mikä on todennäköisyys nähdä "vauva", mikä on todennäköisyys nähdä "I" ja "Olen", ja "on" ja "palo" kaikki erikseen. Sitten olen kertomalla ne kaikki. Ja näen mikä on todennäköisyys nähdä koko lause. Järkeä? >> Joten periaatteessa, jos minulla on vain yksi sana, mitä haluan löytää on arg max, mikä tarkoittaa, mikä on luokka, joka on antaa minulle suurin todennäköisyys? Joten mikä on luokka, joka antaa minulle suurimman todennäköisyyden, todennäköisyys luokan tiettyä sanaa. Joten tässä tapauksessa, Gaga annetaan "baby." Tai Katy annetaan "baby." Järkeä? >> Ja pelkästään Bayes, että yhtälö, että näytin, luomme tämän jakeen. Ainoa asia on, että näet, että todennäköisyys sana annetaan luokka muuttuu riippuen on luokka, eikö? Määrä "vauvan" s että minulla on in Gaga on erilainen kuin Katy. Todennäköisyys luokan myös muutoksia, koska se on vain numero kappaleita jokainen niistä on. >> Mutta todennäköisyys sana itse tulee olemaan sama kaikille taiteilijoita, eikö? Niin todennäköisyys, että sana on juuri, mikä on todennäköisyys nähdä, että sana Englanti kieli? Joten se on sama kaikille niistä. Joten koska tämä on vakio, voimme vain pudota tämä ja siitä välitä. Joten tämä on todella yhtälö etsimme. >> Ja jos minulla on useita sanoja, olen vielä menossa on ennen todennäköisyys täällä. Ainoa asia on, että olen kertomalla todennäköisyys kaikki muut sanat. Joten olen kertomalla ne kaikki. Järkeä? Se näyttää oudolta, mutta periaatteessa sitä, laskea ennen tämän luokan ja Sitten kerrotaan todennäköisyys kunkin sanoista on tässä luokassa. >> Ja te tiedätte, että todennäköisyys sana annetaan luokka tulee olemaan monta kertaa huomaat, että sana tämän luokan, jaettuna määrä sanoja teillä on, että luokan yleensä. Järkeä? Se on vain, kuinka "vauva" oli 2 yli sanojen määrästä Minulla oli lyrics. Joten taajuus. >> Mutta on yksi asia. Muista kuinka oli osoittaa, että todennäköisyys "vauva" on lyrics Katy Perry on 0 vain siksi Katy Perry ei ole "vauva" ollenkaan? Mutta se kuulostaa hieman tyly vain yksinkertaisesti sanoa, että sanoitukset eivät voi olla taiteilija vain koska heillä ei ole että sana erityisesti milloin tahansa. >> Joten voit vain sanoa, hyvin, jos ei ole tätä sanaa, aion antaa sinulle pienemmän todennäköisyys, mutta olen vain aio antaa sinulle 0 heti. Koska ehkä se oli jotain, "Tulipalo, tulipalo, tulipalo, tulipalo", joka on täysin Katy Perry. Ja sitten "vauva" ja se vain menee 0 heti, koska siellä oli yksi "Vauva". >> Joten periaatteessa mitä teemme, on jotain nimeltään Laplace tasoitusta. Ja tämä tarkoittaa vain sitä, että annan jonkinlaisella todennäköisyydellä jopa sanat joita ei ole olemassa. Joten mitä teen, on että kun olen laskennassa, olen aina lisää 1 osoittaja. Joten vaikka sana ei ole, Tässä tapauksessa, jos tämä on 0, olen silti Laskettaessa tätä 1 yli kokonaismäärä sanoja. Muuten, saan kuinka monta sanaa Minulla ja lisään 1. Joten Luotan molemmissa tapauksissa. Järkeä? >> Joten nyt tehkäämme joitakin koodausta. Aion täytyy tehdä se melko nopeasti, mutta se on vain tärkeää, että kaverit ymmärtävät käsitteet. Joten mitä me yritämme tehdä on juuri toteuttaa tämän asia, että juuri sanoin - Haluan laittaa lyrics from Lady Gaga ja Katy Perry. Ja ohjelma tulee pystyä eli jos nämä uudet sanoitukset ovat Gaga tai Katy Perry. Järkeä? OK. >> Joten minulla on tämä ohjelma aion soittaa classify.py. Joten tämä on Python. Se on uusi ohjelmointikieli. Se on hyvin samanlainen joissakin tapoja C ja PHP. Se muistuttaa, koska jos haluat oppia Python kun tietää C, se on todellakaan ole niin paljon haastetta vain koska Python on paljon helpompaa kuin C ensinnäkin. Ja paljon asioita on jo täytäntöön sinulle. Joten miten kuten PHP on useita toimintoja, lajitella luettelon, tai liittää jotain to array, tai blaa, blaa, blaa. Python on kaikki nekin. >> Joten olen juuri menossa selittää nopeasti miten voisimme tehdä luokitusta ongelma täällä. Sanotaan siis, että tässä tapauksessa, minulla on lyrics from Gaga ja Katy Perry. Siten, että minulla on niitä lyrics on, että ensimmäinen sana lyrics on taiteilijan nimi ja loput on lyrics. Joten haluan sanoa, että minulla on tämän luettelon joista ensimmäinen on sanoittanut Gaga. Joten tässä olen oikealla tiellä. Ja seuraava on Katy, ja se on myös sanoitukset. >> Joten tämä on, miten voit julistaa muuttuja Python. Sinun ei tarvitse antaa tietotyyppi. Sinä vain kirjoittaa "lyrics" ikään kuin PHP. Järkeä? >> Mitkä ovat asioita, joita minun täytyy laskea pystyä laskemaan todennäköisyyksiä? Minun täytyy laskea "prioritodennäköisyydet" Kunkin eri luokat, jotka minulla on. Minun täytyy laskea "posteriors" tai melko paljon todennäköisyydet kunkin eri sanoja, jotka Voin olla kunkin taiteilijan. Joten sisällä Gaga, esimerkiksi aion on lista kuinka monta kertaa näen kukin sanoja. Järkeä? >> Ja lopuksi, olen juuri menossa luettelon nimeltä "sanoja", joka on juuri menossa olla kuinka monta sanaa I ovat kunkin taiteilijan. Joten Gaga, esimerkiksi kun katson sanoittaja, olin mielestäni 24 sanat yhteensä. Joten tämä lista on vain täytyy Gaga 24, ja Katy toiseen numeroon. Järkeä? OK. >> Joten nyt oikeastaan, nyt Siirry koodausta. Joten Python, voit itse palata joukko eri asioita toiminto. Joten aion luoda tämän toiminnon nimeltään "ehdollinen", joka on menossa palauttaa kaikki ne asiat, "Priorit", "todennäköisyyksiä", ja "Sanoja". Niin "ehdollinen", ja se on aiotaan vaarantaa "lyrics." >> Joten nyt haluan sinun todella kirjoittaa tätä toimintoa. Niin niin, että voin kirjoittaa tämän Toiminto Sain määritelty tämän toimimaan "def." Niin tein "def ehdollinen, "ja se kestää "Lyrics." Ja mitä tämä aikoo tehdä on ensinnäkin, minulla on aiempia tuomioita että haluan laskea. >> Niin niin, että voin tehdä tämä on luoda sanakirja Python, joka on melko sama asia kuin hash taulukon tai se on kuin iteratiivinen array PHP. Näin minä julistaa sanakirja. Ja periaatteessa mitä tämä tarkoittaa, että prioritodennäköisyydet of Gaga on 0,5, jos esimerkiksi 50% sanoitukset ovat alkaen Gaga, 50% on peräisin Katy. Järkeä? Joten minun täytyy selvittää, miten laskea prioritodennäköisyydet. >> Seuraavan ne, jotka minun täytyy tehdä myös, ovat todennäköisyydet ja sanoja. Niin todennäköisyydet Gaga on luettelo kaikki todennäköisyydet, että olen on kunkin sanoja Gaga. Joten jos menen todennäköisyyksiä Gaga "Vauva", esimerkiksi, se antaa minulle jotain 2 yli 24 tässä tapauksessa. Järkeä? Joten en mene "todennäköisyyksiä," mene "Gaga" kauha, joka on luettelo kaikista Gaga sanat, sitten menen "vauva" ja näen todennäköisyydellä. >> Ja lopuksi minulla on tämä "Sanat" sanakirja. Joten tässä, "todennäköisyyksiä." Ja sitten "Sanoja". Joten jos teen "sanoja", "Gaga" mitä tulee tapahtumaan on, että se aio antaa minulle 24, sanomalla, että minä on 24 sanoja lyrics from Gaga. Järkevää? Joten tässä, "sanoja" on yhtä kuin Dah-Dah-dah. Kunnossa >> Joten mitä aion tehdä, on Aion kerrata enemmän kuin lyrics, joten kukin naruja Minulla on luettelossa. Ja aion laskea niitä asioita kunkin ehdokkaita. Järkevää? Joten minun täytyy tehdä silmukka. >> Joten Python mitä voin tehdä on "linja in lyrics. "sama asia kuin "Jokaiselle" lausunto PHP. Muistakaa, kuinka se oli PHP voisin sanoa "jokaiselle lyrics kuten line. "Järkevää? Vien kullekin viivalle, tässä tapauksessa tämä merkkijono ja seuraava string joten kullekin viivalle, mitä olen aikoo tehdä, on ensimmäinen, aion jakaa tämä rivi luettelo sanat toisistaan välilyönnillä. >> Niin cool juttu Python on, että voisit vain Google kuten "kuinka voin jakaa merkkijonon sanoiksi? "Ja se on aio kertoa teille, miten se tehdään. Ja tapa tehdä se, se on vain "line = Line.split () "ja se on pohjimmiltaan aikoo antaa sinulle listan kukin sanoja tässä. Järkevää? Joten nyt, että tein, että haluan tietää kuka on laulaja tuon laulun. Ja tehdä, että minun täytyy vain saada ensimmäinen osa array, eikö? Joten voin vain sanoa, että olen "laulaja = Line (0) "Järkevää? >> Ja sitten mitä minun täytyy tehdä, on aluksi kaikki, aion päivittää kuinka monta sanoen minulla on kohdassa "Gaga." joten olen vain aio laskea, kuinka monta sanaa I on tässä luettelossa, eikö? Koska tämä on kuinka monta sanaa minulla on vuonna sanoitukset ja olen juuri menossa lisää se "Gaga" array. Onko järkeä? Älä keskittyä liikaa syntaksin. Ajatella enemmän käsitteitä. Se on tärkein osa. OK. >> Joten mitä voin tehdä on, jos "Gaga" on jo tässä luettelossa, joten "jos laulaja lause ", joka tarkoittaa sitä, että olen jo on sanat Gaga. Haluan vain lisätä ylimääräisiä jotakin sen. Joten mitä teen on "sanoja (laulaja) + = Len (line) - 1 ". Ja sitten voin vain tehdä Viivan pituus. Joten kuinka monta elementtiä I on jono. Ja minun täytyy tehdä miinus 1 vain siksi ensimmäistä alkiota on vain laulaja ja tämä ei ole lyrics. Järkevää? OK. >> "Else", se tarkoittaa, että haluan itse aseta Gaga listaan. Joten en vain "sanoja (laulaja) = Len (line) - 1, "anteeksi. Joten ainoa ero näiden kahden välillä linjat on, että tämä yksi, se ei ole vielä olemassa, joten olen vain alustamatta. Tämä yksi Olen oikeastaan lisäämällä. OK. Joten tämä oli lisäämällä sanoja. >> Nyt haluan lisätä aiempia tuomioita. Joten miten voin laskea prioritodennäköisyydet? Prioritodennäköisyydet voidaan laskea kuinka monta kertaa. Joten kuinka monta kertaa näet, että laulaja joukossa kaikki laulajat, että olet on, eikö? Joten Gaga ja Katy Perry, Tässä tapauksessa näen Gaga kerran, Katy Perry kerran. >> Joten periaatteessa prioritodennäköisyydet Gaga ja Katy Perry olisi vain yksi, eikö? Sinä vain, kuinka monta kertaa Näen taiteilija. Joten tämä on erittäin helppo laskea. Voin vain jotain vastaavaa samankaltaisina ", jos laulaja aiempia tuomioita, "olen juuri menossa lisätä 1 niiden aiempia tuomioita ruutuun. Joten, "aiempia tuomioita (laulaa)" + = 1 "ja sitten" muuten " Aion tehdä "aiempia tuomioita (laulaja) = 1. "Järkevää? >> Joten jos sitä ei ole olemassa Sain laittaa kuin 1, muuten en vain lisätä 1. OK, joten nyt kaikki, että olen vielä tekemättä on myös lisätä kunkin sanoja todennäköisyyksiä. Joten minun täytyy laskea kuinka monta kertaa Näen jokaisen sanoja. Joten minun täytyy vain tehdä uuden silmukan linjaa. >> Niin ensimmäinen asia, että aion tehdä, on tarkistaa, jos laulaja on jo todennäköisyydet array. Joten olen tarkistaa, jos laulaja ei on todennäköisyydet array, olen vain menossa alustaa yksi niistä. Se ei ole edes array, anteeksi, se on sanakirja. Joten todennäköisyydet laulaja on menossa olla avoin sanakirja, joten olen vain alustetaan sanakirja sitä. OK? >> Ja nyt en voi itse tehdä silmukka laskea kunkin sanat " todennäköisyyksiä. OK. Joten mitä voin tehdä on silmukka. Joten olen juuri menossa kerrata rivin yli. Niin niin, että voin tehdä, että Python on "for i in välillä." 1 koska haluan aloittaa toisen elementti, koska ensimmäinen on laulaja nimi. Joten yhdestä asti Viivan pituus. Ja kun en vaihtelevat sen itse mennä alkaen kuten täällä 1 Len line miinus 1. Joten se jo tekee, että asia tehdä n miinus 1 paneelit, joka on hyvin kätevä. Järkevää? >> Joten kullekin näistä, mitä aion tehdä, on, aivan kuten toinen, Aion tarkistaa, jos sana tässä asema linja on jo todennäköisyyksiä. Ja sitten kuten sanoin täällä, todennäköisyydet sanoja, kuten laitoin "Todennäköisyyksiä (laulaja)". Joten nimi laulaja. Joten jos se jo "Probabilit (laulaja)", se tarkoittaa, että minun haluat lisätä 1 sitä, joten aion do "todennäköisyyksiä (laulaja)", ja sana on nimeltään "rivi (i)". Aion lisätä 1 ja "muu" Olen vain menossa alustaa sen 1. "Line (i)". Järkevää? >> Joten, olen laskenut kaikki ryhmät. Joten nyt kaikki, että minun täytyy tehdä tämä on vain "palata aiempia tuomioita, todennäköisyydet ja sanat. "Mennään onko olemassa mitään, OK. Näyttää siltä, kaikki toimii toistaiseksi. Niin, että on järkevää? Jollain tavalla? OK. Joten nyt minulla on kaikki todennäköisyydet. Joten nyt ainoa asia mitä on jäljellä on vain on, että asia, joka laskee tuotteen kaikkien todennäköisyydet kun saan lyrics. >> Joten haluan sanoa, että haluan nyt soittaa tämä toiminto "luokitella ()" ja asia, että toiminto vie on vain väite. Sanotaan "Baby, olen tulessa" ja se on menossa selvittää, mitä on Todennäköisyys, että tämä on Gaga? Mikä on todennäköisyys, , että tämä on Katie? Kuulostaako hyvältä? Joten olen juuri menossa on luotava uusi toiminto nimeltään "luokitella ()" ja se vie jonkin verran lyrics samoin. Ja sitä paitsi lyrics Olen myös täytyy lähettää aiempia tuomioita, todennäköisyydet ja sanoja. Joten aion lähettää lyrics, aiempia tuomioita, todennäköisyyksiä, sanoja. >> Joten tämä on ryhtynyt lyrics, aiempia tuomioita, todennäköisyyksiä, sanoja. Joten, mitä se tekee? Se pohjimmiltaan on menossa läpi kaikki mahdollista ehdokkaista on laulajana. Ja missä ovat ne ehdokkaat? He ovat prioritodennäköisyydet, eikö? Joten minulla on kaikki nämä siellä. Joten aion olla sanakirja kaikista mahdollisista ehdokkaista. Ja sitten kunkin ehdokkaan aiempia tuomioita, niin se tarkoittaa, että se tulee olla Gaga, Katie jos olisin Enemmän se olisi enemmän. Aion alkaa mitata Tämän todennäköisyyden. Todennäköisyys kuten näimme PowerPoint on ennen kertaa tuotteen kunkin muut todennäköisyydet. >> Joten en voi tehdä saman täällä. Voin vain tehdä todennäköisyys on aluksi juuri ennen. Joten rikosrekisteri ehdokas. Oikea? Ja nyt minun täytyy kerrata kaikkia sanoja, jotka minulla on lyrics olla voi lisätä todennäköisyyttä kullekin niistä, OK? Joten, "sanaan lyrics" mitä aion vain, jos sana on "Todennäköisyyksiä (ehdokas)", joka tarkoittaa, että se on sana, joka ehdokas on niiden lyrics - esimerkiksi "vauva" Gaga - mitä aion tehdä, on, että todennäköisyys on menossa kerrottava 1 plus todennäköisyydet ehdokas, joka sana. Ja sitä kutsutaan "sana". Tämä jaettuna sanojen määrä että minulla on, että ehdokas. Kokonaismäärä sanoja, jotka minulla on laulaja, että minä katson. >> "Else". se tarkoittaa että se on uusi sana niin se olisi kuin esimerkiksi "Fire" Lady Gaga. Joten haluan vain tehdä 1 yli "Sana (ehdokas)". Joten en halua laittaa tähän termi tässä. >> Joten se tulee olemaan periaatteessa kopioimalla tämän. Mutta aion poistaa tämän osan. Niin se vain olemaan 1 tuosta. Kuulostaako hyvältä? Ja nyt lopussa, olen juuri menossa tulostaa nimi ehdokas ja todennäköisyys, että sinulla on ottaa S niiden sanoitukset. Järkevää? Ja minä itse ei edes Tarvitsen tätä sanakirja. Järkevää? >> Joten katsotaanpas, jos tämä todella toimii. Joten jos juoksen tämän, se ei toimi. Odota sekunti. "Sanat (ehdokas)", "sanat (ehdokas)", se on nimen array. OK Niin, se sanoo, että on joitakin bug varten ehdokas aiempia tuomioita. Haluan vain rentoutua hieman. OK. Kokeillaan. OK. >> Joten se antaa Katy Perry on tämä todennäköisyys tämän kertaa 10 miinus 7, ja Gaga on tämä kertaa 10 miinus 6. Niin näet se osoittaa, että Gaga on suurempi todennäköisyys. Joten "Baby, olen Fire" on luultavasti Gaga laulu. Järkevää? Joten tämä on mitä me teimme. >> Tämä koodi tulee olemaan julkaistaan verkossa, joten te voi tarkistaa sen. Ehkä käyttää joitakin sitä, jos haluat tehdä hankkeen tai jotain vastaavaa. OK. Tämä oli vain osoittaa mitä laskennallisia kielitiede koodi näyttää. Mutta nyt mennään enemmän korkean tason kamaa. OK. >> Joten muita ongelmia I puhui - segmentointi ongelma on ensimmäinen niistä. Joten olet täällä Japani. Ja sitten näet, että ei ole välilyöntejä. Joten tämä on periaatteessa sitä, että se on yläosassa tuoli, eikö? Puhutko Japani? Se on yläosassa tuoli, eikö? >> Opiskelija: En tiedä mitä kanji tuolla on. >> LUCAS FREITAS: Se [puhutaan JAPANIN] OK. Joten se tarkoittaa periaatteessa puheenjohtajana alkuun. Joten jos sinulla on ollut laittaa tilaa se olisi täällä. Ja sitten on [? Ueda-san. ?] Mikä tarkoittaa periaatteessa sitä Mr. Ueda. Ja näet, että "Ueda" ja olet tilaa ja sitten "san." Niin näet, että täällä on "UE" on kuin itsestään. Ja tässä se on luonteeltaan sen vieressä. >> Joten se ei ole kuin näissä kielissä merkkiä eli sanan niin sinun vain laittaa paljon tiloja. Hahmot toisiinsa. Ja ne voivat olla yhdessä kuten kaksi, kolme, yksi. Joten sinulla todella on luoda jonkinlainen on tapa toteuttaa näitä tiloja. >> Ja tämä asia on, että jos saat tietoja näistä Aasian kieliä, kaikki tulee unsegmented. Koska kukaan joka kirjoittaa japanilainen tai kiinalaisen kirjoittaa välilyönneillä. Aina olet kirjoittamassa kiina, Japani voit vain kirjoittaa kaiken ilman välilyöntejä. Se ei ole järkevää laittaa tiloihin. Joten sitten kun saat tietoja, joidenkin Itä-Aasian kieltä, jos haluat itse tehdä jotain, että sinun täytyy ensimmäisenä luokassaan. >> Ajatella tehdä esimerkki lyrics ilman välilyöntejä. Joten vain sanoja, jotka olet on lauseita, eikö? Erotetaan pisteillä. Mutta sitten ottaa vain lause ei todella auttaa tietojen antamisesta keitä nämä sanoitukset ovat vuoteen. Oikea? Joten sinun tulisi asettaa tilat ensin. Joten miten voit tehdä sen? >> Niin sitten tulee ajatus kielen malli, joka on jotain todella tärkeää laskennallisen kielitiede. Niin kielen malli on periaatteessa taulukko todennäköisyydet joka osoittaa ensinnäkin mikä on todennäköisyys ottaa sana kielellä? Joten siitä, kuinka usein sana on. Ja sitten myös esittää riippuvuutta sanojen lauseessa. >> Joten tärkein ajatus on, jos muukalainen tuli teille ja sanoi lause teille, mikä on todennäköisyys, että Esimerkiksi "tämä on minun sisko [? GTF"?] oli lause, että henkilö sanoi? Joten ilmeisesti jotkut lauseet ovat yleisempiä kuin toiset. Esimerkiksi "hyvää huomenta" tai "hyvä yö "tai" Hei ", on paljon enemmän yhteistä kuin useimmat lauseita että meillä on Englanti. Joten miksi nämä lauseet useammin? >> Ensinnäkin, se johtuu olet sanoja, jotka ovat useammin. Niinpä esimerkiksi, jos sanot, koira on iso, ja koira on jättimäinen, sinun yleensä luultavasti kuulla koira on iso useammin, koska "iso" on enemmän yleisiä Englanti kuin "jättimäinen." Niin, yksi asioita on sana taajuus. >> Toinen asia, joka on todella tärkeää on vain sanojen järjestys. Niin, se on yhteinen sanoa "kissa on laatikon sisällä. ", mutta et yleensä nähdä "ruudun sisällä on kissa." niin voit nähdä, että siellä on jonkin verran merkitystä järjestyksessä sanoja. Et voi vain sanoa, että nämä kaksi lauseilla on sama todennäköisyys vain koska he ovat samoja sanoja. Et oikeastaan tarvitse huolehtia noin järjestys samoin. Järkeä? >> Joten mitä me teemme? Joten mitä voisin yrittää saada sinut? Yritän saada mitä me soita n gramman malleja. Joten n gramman mallien periaatteessa olettaa että jokaista sanaa, että sinulla on lause. Se todennäköisyys, että että sana ei riipu ainoastaan taajuus, että sana kielellä, vaan myös sanoja, jotka ympäröivät sitä. >> Niinpä esimerkiksi, yleensä kun näet jotain on tai olet luultavasti menossa katsomaan substantiivi sen jälkeen, eikö? Koska kun on prepositio Yleensä se kestää substantiivi jälkeen. Tai jos sinulla on verbi, joka on transitiivinen et yleensä menossa on substantiivi lause. Niin se tulee olla substantiivi jonnekin ympärille. >> Joten periaatteessa, mitä se on, että se katsoo, todennäköisyys, että sanoja vierekkäin, kun olet laskettaessa todennäköisyys lauseen. Ja sitähän kieli malli on periaatteessa. Vain sanoa mitä todennäköisyys ottaa tietyn lause kielellä? Joten miksi se on hyödyllistä, pohjimmiltaan? Ja ennen kaikkea, mikä on n gramman malli sitten? >> Joten n gramman malli tarkoittaa sitä, että jokaisen sanan riippuu Seuraavan N miinus 1 sanaa. Joten periaatteessa, se tarkoittaa, että jos katson, esimerkiksi kello CS50 TF, kun Olen laskettaessa todennäköisyys lause, voit olla kuten " todennäköisyys ottaa sanan "" kertaa todennäköisyys ottaa " CS50 "kertaa todennäköisyys, että "CS50 TF." Joten periaatteessa, luen kaikki mahdolliset keinot veny. >> Ja sitten yleensä kun teet tämän, kuten projekti, laitat N olla alhainen arvo. Niin, yleensä bigrams tai trigrams. Niin että voit vain laskea kaksi sanaa, ryhmä kaksi sanaa, tai kolme sanaa, vain suorituskykyyn liittyviä ongelmia. Ja myös siksi ehkä jos sinulla on jotain "CS50 TF." Kun on "TF", on erittäin tärkeää, että "CS50" on vieressä, eikö? Nämä kaksi asiaa ovat yleensä vierekkäin. >> Jos ajattelet "TF", se on luultavasti menossa on mitä class se TF'ing varten. Myös "" on todella tärkeää varten CS50 TF. Mutta jos sinulla on jotain "CS50 TF meni luokkaan ja antoivat opiskelijat karkkia. "" Candy "ja" " ei ole mitään yhteyttä oikeasti, eikö? Ne ovat niin kaukana toisistaan, että se ei ole oikeastaan väliä, mitä sanoja olet. >> Niin tekemällä kaksikieliopillisesta tai trigram, se vain tarkoittaa, että olet rajoittamalla itse joitakin sanoja jotka ovat noin. Järkeä? Joten kun haluat tehdä segmentointi, pohjimmiltaan, mitä haluat tehdä, on nähdä mitkä ovat kaikki mahdollisia tapoja, joilla voit segmentin lause. >> Niin että näet mitä on todennäköisyys jokainen näistä lauseita olemassa kielellä? Joten mitä teet on kuin, no, Yritän laittaa tilaa täällä. Joten voit laittaa tilaa siellä ja näet mitä on todennäköisyys että lause? Sitten olet kuten, OK, ehkä joka ei ollut niin hyvä. Joten laitoin tilaa siellä ja tilaa siellä, ja voit laskea todennäköisyys nyt, ja näet, että se on suurempi todennäköisyys. >> Joten tämä on algoritmi nimeltään TANGO segmentointi algoritmi, joka on todella jotain, että olisi todella jäähtyä projekti, joka pohjimmiltaan vie unsegmented tekstistä, joka voi olla Japanin tai Kiinan tai ehkä Englanti ilman välilyöntejä ja yrittää sijoittaa välilyönnit sanojen ja se tekee että käyttämällä kielen mallin ja yrittää nähdä, mikä on korkein todennäköisyys saat. OK. Joten tämä on segmentointi. >> Nyt syntaksin. Joten, syntaksia käytetään niin monia asioita juuri nyt. Joten Graph haun, Siri melko paljon kaikenlaista luonnon kielen käsittelyyn olet. Niin mitkä ovat tärkeitä asioita syntaksi? Joten, lauseita on yleensä mitä kutsumme ainesosia. Jotka ovat ikään kuin sanaryhmien , joilla on tehtävä lauseessa. Ja he eivät voi todella olla päässä toisistaan. >> Joten, jos sanon, esimerkiksi "Lauren rakastaa Milo. "Tiedän, että" Lauren "on osatekijä ja sitten "rakastaa Milo "on myös toinen. Koska et voi sanoa kuin "Lauren Milo rakastaa "on sama merkitys. Se ei tule olla sama merkitys. Tai en voi sanoa kuin "Milo Lauren rakastaa. "Kaiken ei sama eli näin. >> Joten kaksi tärkeämpää asioita syntaksin ovat leksikaalisen tyyppejä, joilla on pohjimmiltaan toimintoon ovat sanoja itse. Joten sinun täytyy tietää, että "Lauren" ja "Milo" ovat substantiiveja. "Rakkaus" on verbi. Ja toinen tärkeä asia on että he phrasal tyyppejä. Niin tiedät, että "rakastaa Milo" on todella sanallinen lause. Joten kun sanon "Lauren," Tiedän, että Lauren tekee jotain. Mitä hän tekee? Hän rakastava Milo. Joten se on koko juttu. Mutta sen komponenttien substantiivi ja verbi. Mutta yhdessä ne tekevät verbilausekkeen. >> Joten, mitä voimme itse tehdä kanssa laskennallinen kielitiede? Joten, jos minulla on jotain esimerkiksi "Ystävät Allison." Näen jos vain ei syntaktinen puu tietäisin, että "Ystävät" on substantiivi lause se on substantiivi ja sitten "Allison" on prepositio lause, jossa "on" on ehdotus ja "Allison" on substantiivi. Mitä voisin tehdä on opettaa tietokone että kun minulla on substantiivi lause yksi ja sitten prepositio lause. Joten tässä tapauksessa, "ystävät" ja sitten "ja Milo "Tiedän, että tämä tarkoittaa, että NP2, toinen omistaa NP1. >> Joten en voi luoda jonkinlainen suhde, jonkinlainen toiminto sitä. Joten aina kun näen tätä rakennetta, jonka vastaa täsmälleen kanssa "ystäviä Allison, "Tiedän, että Allison omistaa ystäviä. Joten ystävät ovat jotain että Allison on. Järkevää? Joten tämä on pohjimmiltaan Kuvaaja Haku ei. Se vain luo säännöt On paljon asioita. Niin "ystävät Allison", "ystäväni jotka elävät Cambridge "," ystäväni jotka menevät Harvardiin. "Se luo säännöt sillä kaikki nuo asiat. >> Nyt machine translation. Joten, kone käännös on myös jotain tilastollista. Ja itse jos saat mukana laskennallinen kielitiede, paljon teidän juttuja tulee olemaan tilastoja. Niin kuin olin tekemässä esimerkiksi paljon todennäköisyyksien että olin laskettaessa, ja sitten saat tähän hyvin pieni määrä, joka on lopullinen todennäköisyys, ja sitähän antaa sinulle vastauksen. Machine translation käyttää myös tilastollinen malli. Ja jos haluat ajatella koneen käännös mahdollisimman yksinkertaisella Muuten, mitä voit ajatella on vain kääntää sana sanalta, eikö? >> Kun opettelet kielen ensimmäistä kertaa, se on yleensä mitä teet, eikö? Jos haluat kääntää lause oman käytetyn kielen opettelet, yleensä ensin sinun kääntämään jokaisen sanan yksilöllisesti, ja yrität sitten laittaa sanat paikalleen. >> Joten jos halusin kääntää tämän, [Portugaliksi] joka tarkoittaa "valkoinen kissa juoksi pois." Jos haluaisin kääntää sen Portugali ja Englanti, mitä voi tehdä on, ensin, minä vain kääntää sanasta sanaan. Joten "o" on "," "Gato", "kissa" "Branco", "valkoinen" ja sitten "fugio" on "Juoksi pois." >> Niin sitten minulla on kaikki sanat täällä, mutta he eivät ole järjestyksessä. Se on kuin "kissa valkoinen karkasi" joka on ungrammatical. Joten, voin olla toinen vaihe, joka aiotaan löytää ihanteellinen sijoitetaan kunkin sanoja. Joten tiedän, että olen itse haluavat olla "Valkoinen kissa" eikä "kissa valkoinen." Niin mitä voin tehdä on, kaikkein naiivi menetelmä olisi luoda kaikille mahdollista permutaatiot sanoen kantoja. Ja sitten nähdä, mikä on suurin todennäköisyys mukaan minun kielen malli. Ja sitten kun löydän yksi, joka on suurin todennäköisyys siihen, mikä on luultavasti "valkoinen kissa karkasi" se on minun käännös. >> Ja tämä on yksinkertainen tapa selittää kuinka paljon machine translation algoritmit. Onko järkeä? Tämä on myös jotain todella jännittävää että te voi ehkä etsintään opinnäytetyö, joo? >> Opiskelija: No, sanoit se oli naiivi tapa, niin mitä ei-naiivi tavalla? >> LUCAS FREITAS: ei-naiivi tavalla? OK. Joten ensimmäinen asia, joka on paha mieli tämä menetelmä on, että olen juuri kääntänyt sanoja, sana sanalta. Mutta joskus on sanoja, jotka voi olla useita käännöksiä. Aion yrittää ajatella jotain. Esimerkiksi "manga" portugaliksi voi joko "mankeli" tai "hihassa." Niin kun yrität kääntää sana sanan, se saattaa antaa sinulle jotain, joka ei ole mitään järkeä. >> Joten te todella haluavat tarkastellaan kaikkia mahdolliset käännökset sanoja ja nähdä, ensinnäkin, mikä on järjestys. Puhuimme permutoidaan asioita? Jos haluat nähdä kaikki mahdolliset tilausten ja Valitse yksi eniten todennäköisyys? Voit myös valita kaikki mahdolliset käännöksiä jokaiselle sana ja katso sitten - yhdistettynä permutaatiot - kumpi on suurin todennäköisyys. >> Plus, voit myös katsoa ole vain sanoja, mutta lauseita. joten voit analysoida suhteita sanat ja sitten saada parempaa käännöstä. Myös jotain muuta, joten tämä lukukausi Olen oikeastaan tekemässä tutkimusta Kiina-Englanti kone käännös, niin kääntämiseen Kiinasta Englanti. >> Ja mitä teemme on paitsi käyttäen tilastollinen malli, joka on vain nähdä todennäköisyydet nähdä Joissakin asema lauseen, olen oikeastaan myös lisäämällä joitakin syntaksin minun malli, sanoen, oh, jos näen tällaista rakentamisen, tämä on mitä haluan muuttaa sen kun kääntää. Joten voit myös lisätä jonkinlainen osa syntaksin tehdä käännös tehokkaampi ja tarkempi. OK. >> Joten miten voit päästä alkuun, jos haluat tehdä jotain laskennallisen kielitiede? >> Ensin valitset projektin , johon kielellä. Joten, siellä on niin paljon siellä. On niin monia asioita voi tehdä. Ja sitten voi ajatella mallin joita voit käyttää. Yleensä se ajattelu oletukset, kuten kuten, oh, kun olin kuten ajattelu lyrics. Olin kuin hyvin, jos haluan selvittää ulos joka kirjoitti tämän, en luultavasti halua katsomaan sanoja henkilöstä ja kuka käyttää sitä sanaa kovin usein. Joten yritä tehdä oletuksia ja yritä ajatella malleja. Ja sitten voit myös hakea verkosta sellainen ongelma, että sinulla on, ja se tulee ehdottaa teille malleja, jotka ehkä mallinnettu että asia hyvin. >> Ja myös voit aina sähköpostitse minulle. me@lfreitas.com. Ja voin vain vastata kysymyksiisi. Voimme jopa ehkä tavata niin voin antaa ehdotuksia keinoista hankkeen toteutuksen aikana. Ja tarkoitan jos saat mukana laskennallinen kielitiede, se tulee olla suuri. Olet menossa nähdä siellä on niin paljon potentiaalia. Ja teollisuus haluaa palkata olet niin huono takia. Joten toivon te nauttinut tätä. Jos teillä mitään kysymyksiä, voit kysyä minulta tämän jälkeen. Mutta kiitos.