Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS: Hei.
Tervetuloa kaikille.
Nimeni on Lucas Freitas.
Olen juniori [kuultavissa] opiskelu tietojenkäsittelytiede jossa keskitytään
laskennallinen kielitiede.
Joten minun toissijainen on kieli ja kielellinen teoria.
Olen todella innoissani opettaa teille hieman siitä kenttään.
Se on erittäin jännittävä alue opiskelemaan.
Myös paljon potentiaalia tulevaisuutta.
Joten, olen todella innoissani, että te harkitsevat hankkeita
laskennallinen kielitiede.
Ja minä olen enemmän kuin mielellään neuvoja joku teistä jos päätät
harjoittaa yksi niistä.
>> Joten ensiksi, mitkä ovat laskennallisia kielitiede?
Joten laskennallinen kielitiede on leikkauspisteessä kielitieteen ja
tietotekniikassa.
Joten, mikä on kielitiede?
Mikä on tietojenkäsittelytiede?
No alkaen kielitiede, mitä otamme ovat kieliä.
Joten kielitiede on todella tutkimus luonnollisen kielen yleensä.
Niin luonnollinen kieli - puhumme kieli, että me todella käyttävät
kommunikoida toistensa kanssa.
Joten emme tarkalleen puhu noin C tai Java.
Me puhumme enemmän Englanti ja Kiinan ja muiden kielten että me
käyttävät kommunikoida toistensa kanssa.
>> Haastava juttu se on, että nyt meillä on lähes 7000
maailman kielten.
Joten on varsin korkea lajike kielten että voimme tutkia.
Ja sitten luulet, että se on luultavasti hyvin vaikea tehdä, esimerkiksi
käännös yhdestä kielestä muut, koska olet
lähes 7000 heistä.
Joten, jos luulet tehdä käännös yhdestä kielestä muut olette
on lähes yli miljoona erilaisia yhdistelmiä, että voit
on kielikohtaisesti.
Joten se on todella haastavaa tehdä joitakin Tällainen esimerkki käännös järjestelmä
jokainen kieli.
>> Joten, kielitiede kohtelee syntaksin, semantiikka, pragmatiikka.
Te ette juuri tarvitse tietää, mitä ne ovat.
Mutta erittäin mielenkiintoinen asia on, että kuin syntyperäinen puhuja, kun opit
kieltä kuin lapsi, olet itse oppia kaikki nuo asiat - syntaksin semantiikka
ja pragmatiikka -
itse.
Ja kenenkään ei tarvitse opettaa sinulle syntaksi sinua ymmärtämään, miten lauseet ovat
jäsennelty.
Niin, se on todella mielenkiintoista, koska se on jotain, joka tulee hyvin
intuitiivisesti.
>> Ja mitä te viette alkaen tietojenkäsittelytiede?
No, tärkeintä, että me on tietotekniikassa on ensimmäinen
kaikki, tekoäly ja koneoppiminen.
Joten, mitä me yritämme tehdä laskennallinen kielitiede on opettaa
tietokoneesi miten tehdä jotain kielen.
>> Niin, esimerkiksi kone käännös.
Yritän opettaa minun tietokone, kuinka tietää, miten siirtyminen yhdestä
kieli muille.
Joten, pohjimmiltaan kuin opetus tietokone kahdella kielellä.
Jos teen luonnollisen kielen käsittely, joka on kyseessä on esimerkiksi
Facebookin Graph haku, opetat tietokoneesi miten ymmärtää
kyselyitä hyvin.
>> Joten, jos sanot "kuvia minun ystäviä. "Facebook ei kohtele että
koko merkkijono, joka on vain joukko sanoja.
Se todella ymmärtää suhteessa välillä "valokuvia" ja "ystäväni" ja
ymmärtää, että "valokuvat" ovat omaisuutta "ystäväni."
>> Niin, se on osa, esimerkiksi luonnollisen kielen käsittely.
Se yrittää ymmärtää, mitä on suhde
sanat lauseen.
Ja suuri kysymys on, voitko opettaa tietokoneen miten puhua
kieltä yleensä?
Joka on hyvin mielenkiintoinen kysymys ajatella, ikään kuin ehkä tulevaisuudessa,
aiot pystyä puhua matkapuhelimeesi.
Kind of kuten mitä teemme Siri mutta jotain enemmän kuin, voit itse
sanoa mitä haluat ja puhelin tulee ymmärtää kaiken.
Ja se voi olla seurata kysymyksiä ja vatvoa.
Se on jotain todella jännittävää, mielestäni.
>> Niin, jotain luonnollista kieltä.
Jotain todella mielenkiintoista luonnollisella kielellä on se, että, ja tämä on
luottoa minun kielitiede professori, Maria Polinsky.
Hän antaa esimerkin ja uskon se on todella mielenkiintoinen.
Koska opimme kieltä siitä, kun olemme syntyneet ja sitten meidän native
kieli eräänlainen kasvaa meille.
>> Ja pohjimmiltaan opit kieltä minimaalinen input, eikö?
Olet juuri panosta oman vanhemmat, mitä kieli kuulostaa
pidät ja vain oppia se.
Niin, se on mielenkiintoista, koska jos tarkastellaan noita lauseita esimerkiksi.
Näytät ", Mary laittaa takki joka kerran hän lähtee talosta. "
>> Tässä tapauksessa se on mahdollista saada sana "hän" viittaa Mary, eikö?
Voit sanoa "Mary laittaa takki joka kerta Mary lähtee
talo. ", niin se käy hyvin.
Mutta sitten jos tarkastellaan lause "Hän laittaa takki joka kerta Mary
lähtee talosta. "tiedät sen mahdotonta sanoa, että "hän" on
viitaten Mary.
>> Ei ole tapa sanoa, että "Mary asettaa on takki joka kerta Mary lehdet
talon. "Niin se on mielenkiintoista, koska tämä on sellainen intuitio
että jokainen syntyperäinen puhuja on.
Eikä kukaan opetettiin, että tämä on siten, että syntaksin toimii.
Ja että voit vain tämä ", hän" viittaa Mary tässä ensimmäisessä tapauksessa
ja oikeastaan tämä toinen myös, mutta ei tässä yksi.
Mutta jokainen tavallaan saa jotta saman vastauksen.
Kaikki ovat yhtä mieltä siitä.
Joten se on todella mielenkiintoista, miten vaikka et tiedä kaikkia sääntöjä
omalla kielellä sellainen ymmärtää miten kieli toimii.
>> Joten mielenkiintoinen asia luonnon kieli on, että sinun ei tarvitse
tiedä mitään syntaksin tietää, jos lause on kieliopin tai ungrammatical varten
Useimmissa tapauksissa.
Mikä saa sinut ajattelemaan, että ehkä mitä tapahtuu on, että läpi elämän, sinua
vain pitää saada enemmän ja enemmän lauseita teille puhunut.
Ja sitten pitää ulkoa kaikki lauseet.
Ja sitten kun joku kertoo sinulle jotain, kuulet, että lause ja
sinä katsot sanastoa lauseiden ja katso jos
että lause on siellä.
Ja jos se on siellä sinua sanovat, että se kieliopin.
Jos se ei ole sanot se on ungrammatical.
>> Tuossa tapauksessa sanoisit, oh, niin sinulla on valtava luettelo kaikista
mahdollista lauseita.
Ja sitten kun kuulet lauseen, tiedät, jos se on kieliopin tai
ei perustu tämän.
Asia on, että jos tarkastellaan lause, esimerkiksi "
viisi-johdossa CS50 TFs keitetyt sokea mustekala käyttäen DAPA muki. "Se on
ehdottomasti ei lause että olet kuullut ennen.
Mutta samalla tiedät sen melko paljon kieliopin, eikö?
Ei ole kielioppivirheitä ja voit sanoa, että
se on mahdollista lause.
>> Joten se tekee meistä ajattelevat, että todella siten, että opimme kieltä ei ole vain
ottaa valtava tietokanta mahdollisista sanoja tai lauseita, mutta enemmän
ymmärtäminen suhde sanat Näitä virkkeitä.
Onko järkeä?
Näin on, niin kysymys on, voiko tietokoneet oppia kieliä?
Voimmeko opettaa kielen tietokoneisiin?
>> Joten, nyt ajatella eroa välillä syntyperäinen kielen puhuja
ja tietokone.
Joten, mitä tapahtuu puhujan?
No, syntyperäinen puhuja oppii kieli altistumisesta sitä.
Yleensä sen varhaislapsuudessa vuotta.
Joten periaatteessa, sinun täytyy vain vauva, ja sinun pitää puhua siitä, ja se
vain oppii puhumaan kieli, eikö?
Joten, olet periaatteessa antaa tulo vauva.
Joten, voit väittää, että tietokone voi tehdä sama asia, eikö?
Voi vain antaa kieli syötteenä tietokoneelle.
>> Kuten esimerkiksi joukko tiedostoja että on kirjoja Englanti.
Ehkä se on yksi tapa, että te voisi mahdollisesti opettaa
tietokone Englanti, eikö?
Ja itse asiassa, jos ajattelee sitä, se vie ehkä pari
päivää lukea kirjaa.
Saat tietokone kestää sekunnin katsokaa kaikki sanat kirjan.
Voit siis ajatella, että voi olla vain tämän argumentti työpanoksen ympärilläsi,
se ei riitä sanoa, että se on jotain, että vain ihmiset voivat tehdä.
Voit ajatella tietokoneita voi myös saada palautetta.
>> Toinen asia on, että äidinkielenään myös aivot, joka on
kielten oppimisen valmiudet.
Mutta jos ajattelee sitä, aivot on kiinteä asia.
Kun olet syntynyt, se on jo asetettu -
tämä on aivot.
Ja kun kasvaa, voit vain saada enemmän tuloon kieltä ja ehkä ravinteita
ja muita juttuja.
Mutta aika paljon aivoihin on kiinteä asia.
>> Joten voit sanoa, no, ehkä voit rakentaa tietokone, jossa on joukko
toimintoja ja että vain matkivat kielten oppimisen valmiudet.
Joten siinä mielessä, voisi sanoa, no, minä voi olla tietokone, jossa on kaikki
asioita minun täytyy oppia kieltä.
Ja viimeinen asia on, että natiivi puhuja oppii yrityksen ja erehdyksen.
Joten periaatteessa toinen tärkeä asia kielen oppiminen on, että olet sellainen
ja oppia asioita tekemällä yleistyksiä siitä, mitä kuulet.
>> Joten kun varttuvat opit, että jotkut sanat ovat enemmän kuin sanat,
jotkut muut niistä ovat adjektiiveja.
Ja sinun ei tarvitse olla mitään tuntemus kielitiede
ymmärtää, että.
Mutta vain tietää olemassa joitakin sanoja on sijoitettu osaan
virkkeen ja toiset muilla osia lauseen.
>> Ja että kun teet jotain, joka on kuten lause, joka ei ole oikein -
ehkä siksi yli yleistys esimerkiksi.
Ehkä kun olet nuori, huomaat että monikko on yleensä
muodostetaan asettamalla s sanan lopussa.
Ja sitten yrität tehdä monikko "Hirvieläinten" kuin "peuroja" tai "hammas", kuten
"Tooths." Niin sitten vanhempasi tai joku korjaa sinua ja sanoo ei,
monikko "hirvieläinten" on "hirvi" ja monikko "hammas" on "hampaat." Ja sitten
opit niitä asioita.
Joten voit oppia ja erehdyksen.
>> Mutta voit myös tehdä tietokoneen kanssa.
Sinulla voi olla jotain kutsutaan vahvistaminen oppimista.
Joka on pohjimmiltaan sama kuin antaisi tietokone palkita, kun se tekee
jotain kunnolla.
Ja antaa sille vastakohta palkita ja kun se tekee jotain väärin.
Voit itse nähdä, että jos menet Google Käännä ja yrität
kääntää lause, se kysyy palautetta.
Joten jos sanot, Voi, on parempi käännös tämä lause.
Voit kirjoittaa sen ylös ja sitten jos paljon ihmiset pitää sanoa, että on parempi
käännös, se vain oppii, että se pitäisi käyttää käännös sijaan
yksi sen antaa.
>> Niin, se on hyvin filosofinen kysymys nähdä, jos tietokoneita aiotaan
voi puhua tai ei tulevaisuudessa.
Mutta minulla on suuria toiveita, että he voivat perustu pelkästään nämä väitteet.
Mutta se on vain enemmän filosofinen kysymys.
>> Joten vaikka tietokoneet silti voi puhua, mitkä ovat asioita, joita voimme tehdä?
Joitakin todella hienoja asioita ovat tietojen luokittelu.
Niinpä esimerkiksi, te tiedätte että sähköpostipalvelut tehdä, sillä
Esimerkiksi roskapostin suodatus.
Joten kun saat roskapostia, se yrittää suodattaa toiseen ruutuun.
Joten miten se tehdään?
Se ei ole kuin tietokone vain tietää mitä sähköpostiosoitteet lähettävät roskapostia.
Joten se on enemmän perustuu sisältöön viestin, tai ehkä nimen tai
ehkä jotkut kuvio, joka sinulla on.
>> Joten periaatteessa, mitä voit tehdä, on saada paljon tietoa, sähköposteja, jotka ovat roskapostia,
sähköpostit, jotka eivät ole roskapostia, ja oppia, mitä Tällainen malleja teillä on
ne, jotka ovat roskapostia.
Ja tämä on osa laskennallisen kielitiede.
Sitä kutsutaan tiedon luokittelun.
Ja me todella tulee nähdä esimerkki, että seuraavassa dioja.
>> Toinen asia on luonnollista kieltä käsittely, joka on asia, joka
Kuvaaja Hae tekee kerroit voit kirjoittaa lauseen.
Ja se uskoo, että ymmärrät mitä on merkitystä ja antaa
sinulle paremman tuloksen.
Oikeastaan, jos menet Google tai Bing ja etsit jotain Lady
Gagan korkeus, olet todella menossa saada 5 '1 "informaation sijaan
hänen koska se todella ymmärtää mitä puhut.
Joten se on osa luonnollista kielen käsittelyyn.
>> Vai myös silloin, kun käytät Siri, ensin sinulla on algoritmi, joka yrittää
kääntää mitä sanot sanoiksi, tekstimuodossa.
Ja sitten se yrittää kääntää että osaksi merkitys.
Niin, että kaikki osa luonnon kielen käsittelyyn.
>> Sitten on machine translation -
joka on itse asiassa yksi suosikeistani -
joka on juuri kääntämiseen kielestä toiseen.
Voit siis ajatella, että kun teet machine translation, sinulla on
loputtomia mahdollisuuksia lauseita.
Joten ei ole tapa vain tallentaa jokainen käännös.
Joten sinun täytyy keksiä mielenkiintoisia algoritmit pystyä
kääntää joka ikinen virke jollakin tavalla.
>> Teillä on kysyttävää tähän mennessä?
Ei?
OK.
>> Joten mitä aiomme nähdä tänään?
Ensinnäkin aion puhua luokitusta ongelma.
Niin yksi että olin sanovat roskapostia.
Mitä aion tehdä, on, koska lyrics laulun, voit yrittää selvittää
suurella todennäköisyydellä kuka on laulaja?
Oletetaan, että minulla on kappaleita Lady Gaga ja Katy Perry, jos annan sinulle
uusi biisi, voit selvittää, jos se Katy Perry vai Lady Gaga?
>> Toinen, olen juuri menossa puhumaan noin segmentointi ongelma.
Joten en tiedä, jos te tiedätte, mutta Kiina, japani, muista Itä-Aasian
kieliä, ja muita kieliä yleisesti, ei ole
välilyönnit sanojen.
Ja sitten jos ajattelee niin, että tietokoneesi sellainen yrittää
ymmärtää luonnollisen kielen käsittely, siinä tarkastellaan sanoja ja
yrittää ymmärtää suhteiden niiden välillä, eikö?
Mutta sitten jos sinulla on kiinalainen, ja te on nolla välilyöntejä, se on todella vaikea
selville, mitä on suhde sanoja, koska niillä ei ole mitään
sanoja ensin.
Joten sinun täytyy tehdä jotain kutsutaan segmentointi mikä tarkoittaa vain laskemisesta
välejä mitä me kutsuisi sanat näissä kielissä.
Järkeä?
>> Ja sitten me aiomme puhua syntaksin.
Joten vain vähän luonnollisia kielen käsittelyyn.
Se tulee olemaan vain yleiskatsaus.
Joten tänään, periaatteessa mitä haluan tehdä on antaa teille hieman
sisällä mitkä ovat mahdollisuudet että voit tehdä laskennallisin
kielitiede.
Ja sitten näet, mitä ajattelet on viileä joukossa asioita.
Ja ehkä voit ajatella hankkeen ja tule juttelemaan.
Ja voin antaa sinulle neuvoja miten toteuttaa se.
>> Joten syntaksin tulee olemaan hieman noin Graph Etsi ja kone
käännös.
Olen juuri menossa antaa esimerkki siitä, miten voit esimerkiksi kääntää
jotain Portugalin ja Englanti.
Kuulostaako hyvältä?
>> Joten ensin, luokittelun ongelma.
Sanon, että tämä osa seminaarin tulee olemaan haastavin
yksi vain koska siellä tulee olevan jonkin verran koodausta.
Mutta se tulee olemaan Python.
Tiedän te tiedä Python, joten Olen juuri menossa selittää aavalla
tasolla sitä, mitä olen tekemässä.
Ja sinun ei tarvitse oikeastaan piittaa paljon syntaksin koska se on
jotain te voi oppia.
OK?
Kuulostaa hyvältä.
>> Niin mikä on luokitus ongelma?
Joten olet antanut joitakin sanoituksia laulu, ja haluat arvata
joka laulaa sitä.
Ja tämä voi olla mitä tahansa ja muita ongelmia.
Joten se voidaan esimerkiksi olet presidentinvaalikampanjan ja sinulla on
puheen, ja haluat löytää , jos se oli esimerkiksi
Obama tai Mitt Romney.
Tai voit olla nippu sähköposteja ja haluat selvittää, jos ne ovat
roskapostia tai ei.
Niin se vain luokittelemalla joitakin tiedot perustuvat sanat
että olet siellä.
>> Niin tehdä, että sinun täytyy tehdä joitakin oletuksia.
Joten paljon laskennallinen kielitiede tekee oletuksia,
yleensä järkevää oletuksia, jotta voit saada hyviä tuloksia.
Yritetään luoda malli siitä.
Ja sitten kokeilla sitä ja katso jos se toimii, jos se antaa sinulle hyvä tarkkuus.
Ja jos niin käy, niin olet yrittää parantaa sitä.
Jos se ei, olet kuin, OK, ehkä en pitäisi tehdä erilaisen oletuksen.
>> Niin oletetaan, että aiomme tehdä on, että taiteilija yleensä laulaa
aiheesta, useita kertoja, ja ehkä käyttää sanoja useita kertoja vain
koska he ovat tottuneet siihen.
Voit vain kuvitella ystäväsi.
Olen varma, että te kaikki on ystäviä jotka sanovat niiden allekirjoitus lause,
kirjaimellisesti joka ikinen lause -
kuten jotkut tiettyä sanaa tai tiettyjä lause, että he sanovat varten
jokainen lause.
>> Ja mitä voit sanoa on, että jos näet lause, joka on allekirjoitus
lause, voit arvata, että luultavasti ystäväsi on
yksi sanoen se, eikö?
Niin teet että oletus ja sitten se miten luoda malli.
>> Esimerkiksi, että aion antaa palaa kuinka Lady Gaga, esimerkiksi ihmisiä
sanoa, että hän käyttää "vauva" varten kaikki hänen ykkönen kappaleita.
Ja oikeastaan tämä on video, joka näyttää hänen sanomalla sanan "vauva" varten
eri kappaleita.
>> [VIDEOTOISTOSTA]
>> - (Laulaen) Baby.
Vauva.
Vauva.
Vauva.
Vauva.
Babe.
Vauva.
Vauva.
Vauva.
Vauva.
>> [END VIDEOTOISTOSTA-
>> LUCAS FREITAS: Niin on, luulen, 40 kappaleita täällä, jossa hän sanoo
sana "vauva". Joten voit periaatteessa arvata että jos näet kappale, jolla on
sana "vauva" on joitakin korkean todennäköisyys, että se on Lady Gaga.
Mutta yritetään kehittää tätä Vielä enemmän muodollisesti.
>> Joten nämä ovat sanoituksia kappaleita Lady Gaga ja Katy Perry.
Joten sinä katsot Lady Gaga, näet ne on paljon tapahtumia "baby"
paljon tapahtumia ja "tapa." Ja sitten Katy Perry on paljon esiintymiä
"," Paljon esiintymiä "tulen."
>> Joten periaatteessa mitä haluamme tehdä, on, saat lyyrinen.
Oletetaan, että saat lyric varten laulu, joka on "vauva" vain "vauva". Jos
juuri saada sana "vauva" ja tämä on kaikki tiedot, jonka saat
Lady Gaga ja Katy Perry, kukapa Arvaatko on henkilö
joka laulaa laulun?
Lady Gaga tai Katy Perry?
Lady Gaga, eikö?
Koska hän on ainoa, joka sanoo "Vauva". Tämä kuulostaa tyhmä, eikö?
OK, tämä on todella helppoa.
Olen vain katsomalla kaksi kappaletta ja Tietenkin hän on ainoa, jolla on
"Vauva".
>> Mutta mitä jos sinulla on nippu sanoja?
Jos sinulla on todellinen lyric, jotain kuten "vauva, minä vain
meni tapaamaan [? CFT?]
luento "tai jotain sinne päin, ja sitten sinun todella täytyy selvittää -
perustuvat kaikki nämä sanat -
kuka on taiteilija, joka luultavasti lauloi tämän laulun?
Joten yritetään kehittää Tässä hieman pidemmälle.
>> OK, joten perustua pelkästään tietoihin, että me sai, näyttää siltä, että Gaga on luultavasti
laulaja.
Mutta miten voimme kirjoittaa Tämän virallisemmin?
Ja siellä tulee olemaan hieman vähän tilastoja.
Joten jos eksyt, kokeile ymmärtää käsite.
Sillä ei ole väliä, jos ymmärrät yhtälöt aivan hyvin.
Tämä kaikki tulee olemaan verkossa.
>> Joten periaatteessa mitä olen laskettaessa on Todennäköisyys, että tämä laulu on by
Lady Gaga otetaan huomioon, että -
joten tämä tankoväline koska -
Näin sana "vauva". Onko järkeä?
Joten yritän laskea että todennäköisyys.
>> Joten ei tämä lause nimeltään Bayes lause, joka sanoo, että
todennäköisyys tietyn B, on todennäköisyys B annetaan, kertaa
todennäköisyys, yli todennäköisyys B. Tämä on pitkä yhtälö.
Mutta mitä sinun täytyy ymmärtää alkaen se on, että tämä on mitä haluan
laskea, eikö?
Niin todennäköisyys, että että laulu on vuoteen Lady Gaga koska olen nähnyt sanan
"Vauva".
>> Ja nyt, mitä Saan on todennäköisyys sana "vauva" annettuja
että minulla on Lady Gaga.
Ja mitä on se, että pohjimmiltaan?
Tämä tarkoittaa sitä, mikä on todennäköisyys nähdä sana "vauva"
in Gaga lyrics?
Jos haluan laskea, että hyvin yksinkertaisella tavalla, se on vain numero
kertaa näen "vauva" over kokonaismäärä sanojen Gaga lyrics, eikö?
Mikä on taajuus, näen että sana Gagan toimii?
Järkeä?
>> Toinen termi on todennäköisyys Gaga.
Mitä se tarkoittaa?
Tämä tarkoittaa periaatteessa sitä, mikä on todennäköisyys luokittelussa
lyriikoita kuin Gaga?
Ja se on outo, mutta Ajatellaan esimerkkinä.
Joten sanotaan, että todennäköisyys ottaa "vauva" in biisi on sama
Gaga ja Britney Spears.
Mutta Britney Spears on kahdesti enemmän kappaleita kuin Lady Gaga.
Joten jos joku vain satunnaisesti saat lyrics "baby", ensimmäinen asia, sinun
tarkastella on, mikä on todennäköisyys ottaa "vauva" in Gaga biisi "vauva"
vuonna Britney laulu?
Ja se on sama asia.
>> Joten toinen asia, että näet on, No, mikä on todennäköisyys
Tämän lyric itsessään on Gaga lyric, ja mikä on todennäköisyys
että Britney lyric?
Joten koska Britney on niin paljon enemmän lyrics kuin Gaga, olet luultavasti
sanoa, no, tämä on luultavasti Britney lyyrinen.
Joten siksi meillä on tämä termi täällä.
Todennäköisyys Gaga.
Järkevää?
Onko se?
OK.
>> Ja viimeinen on vain todennäköisyys "baby", joka ei
oikeastaan väliä, että paljon.
Mutta se todennäköisyys näkeminen "vauva" Englanti.
Me yleensä eivät välitä, että paljon, että termi.
Onko järkeä?
Joten todennäköisyys Gaga on kutsutaan ennen todennäköisyys
luokan Gaga.
Koska se tarkoittaa vain sitä, että mikä on todennäköisyys ottaa tämän luokan -
joka on Gaga -
vain yleensä vain ilman ehtoja.
>> Ja sitten kun minulla on todennäköisyys Gaga annetaan "baby", me kutsumme sitä plus
teary todennäköisyys, koska se on todennäköisyys, että
Gaga annetaan jonkin verran näyttöä.
Joten annan sinulle todisteet että olen nähnyt sanan vauvan ja
laulu järkeä?
OK.
>> Jos siis laskenut, että kullekin kappaleet Lady Gaga,
mitä se olisi -
ilmeisesti, en voi siirtää tämän.
Todennäköisyys Gaga on jotain, 2 yli 24, kertaa 1/2,
yli 2 yli 53.
Sillä ei ole väliä, jos tiedät mitä nämä luvut ovat peräisin.
Mutta se on vain numero, joka on menossa olla enemmän kuin 0, eikö?
>> Ja sitten kun teen Katy Perry, todennäköisyys "vauva" annetaan Katy on
jo 0, eikö?
Koska ei ole mitään "vauva" Katy Perry.
Niin sitten tämä tulee 0, ja Gaga voittoa, mikä tarkoittaa, että Gaga on
luultavasti laulaja.
Onko järkeä?
OK.
>> Joten jos haluan tehdä asiasta virallisen, Voin itse tehdä malli
useita sanoja.
Joten haluan sanoa, että minulla on jotain kuten "vauva, olen
tulessa ", tai jotain.
Joten se on useita sanoja.
Ja tässä tapauksessa, näet että "vauva" on Gaga,
mutta se ei ole Katy.
Ja "palo" on Katy, mutta se ei ole Gaga, eikö?
Niin se alkaa hankalampi, eikö?
Koska näyttää siltä, että melkein on tasan kaksi.
>> Joten mitä sinun tarvitsee tehdä on olettaa riippumattomuus joukossa sanoja.
Joten periaatteessa mitä se tarkoittaa, että Olen vain laskettaessa, mikä on
todennäköisyys nähdä "vauva", mikä on todennäköisyys nähdä "I" ja
"Olen", ja "on" ja "palo" kaikki erikseen.
Sitten olen kertomalla ne kaikki.
Ja näen mikä on todennäköisyys nähdä koko lause.
Järkeä?
>> Joten periaatteessa, jos minulla on vain yksi sana, mitä haluan löytää on arg max,
mikä tarkoittaa, mikä on luokka, joka on antaa minulle suurin todennäköisyys?
Joten mikä on luokka, joka antaa minulle suurimman todennäköisyyden,
todennäköisyys luokan tiettyä sanaa.
Joten tässä tapauksessa, Gaga annetaan "baby." Tai Katy annetaan "baby." Järkeä?
>> Ja pelkästään Bayes, että yhtälö, että näytin,
luomme tämän jakeen.
Ainoa asia on, että näet, että todennäköisyys sana annetaan
luokka muuttuu riippuen on luokka, eikö?
Määrä "vauvan" s että minulla on in Gaga on erilainen kuin Katy.
Todennäköisyys luokan myös muutoksia, koska se on vain numero
kappaleita jokainen niistä on.
>> Mutta todennäköisyys sana itse tulee olemaan sama kaikille
taiteilijoita, eikö?
Niin todennäköisyys, että sana on juuri, mikä on todennäköisyys
nähdä, että sana Englanti kieli?
Joten se on sama kaikille niistä.
Joten koska tämä on vakio, voimme vain pudota tämä ja siitä välitä.
Joten tämä on todella yhtälö etsimme.
>> Ja jos minulla on useita sanoja, olen vielä menossa on ennen
todennäköisyys täällä.
Ainoa asia on, että olen kertomalla todennäköisyys
kaikki muut sanat.
Joten olen kertomalla ne kaikki.
Järkeä?
Se näyttää oudolta, mutta periaatteessa sitä, laskea ennen tämän luokan ja
Sitten kerrotaan todennäköisyys kunkin sanoista on tässä luokassa.
>> Ja te tiedätte, että todennäköisyys sana annetaan luokka tulee olemaan
monta kertaa huomaat, että sana tämän luokan, jaettuna määrä
sanoja teillä on, että luokan yleensä.
Järkeä?
Se on vain, kuinka "vauva" oli 2 yli sanojen määrästä
Minulla oli lyrics.
Joten taajuus.
>> Mutta on yksi asia.
Muista kuinka oli osoittaa, että todennäköisyys "vauva" on lyrics
Katy Perry on 0 vain siksi Katy Perry ei ole "vauva" ollenkaan?
Mutta se kuulostaa hieman tyly vain yksinkertaisesti sanoa, että sanoitukset eivät voi olla
taiteilija vain koska heillä ei ole että sana erityisesti milloin tahansa.
>> Joten voit vain sanoa, hyvin, jos ei ole tätä sanaa, aion
antaa sinulle pienemmän todennäköisyys, mutta olen vain aio
antaa sinulle 0 heti.
Koska ehkä se oli jotain, "Tulipalo, tulipalo, tulipalo, tulipalo", joka on
täysin Katy Perry.
Ja sitten "vauva" ja se vain menee 0 heti, koska siellä oli yksi
"Vauva".
>> Joten periaatteessa mitä teemme, on jotain nimeltään Laplace tasoitusta.
Ja tämä tarkoittaa vain sitä, että annan jonkinlaisella todennäköisyydellä jopa sanat
joita ei ole olemassa.
Joten mitä teen, on että kun olen laskennassa, olen aina lisää 1
osoittaja.
Joten vaikka sana ei ole, Tässä tapauksessa, jos tämä on 0, olen silti
Laskettaessa tätä 1 yli kokonaismäärä sanoja.
Muuten, saan kuinka monta sanaa Minulla ja lisään 1.
Joten Luotan molemmissa tapauksissa.
Järkeä?
>> Joten nyt tehkäämme joitakin koodausta.
Aion täytyy tehdä se melko nopeasti, mutta se on vain tärkeää, että
kaverit ymmärtävät käsitteet.
Joten mitä me yritämme tehdä on juuri toteuttaa tämän
asia, että juuri sanoin -
Haluan laittaa lyrics from Lady Gaga ja Katy Perry.
Ja ohjelma tulee pystyä eli jos nämä uudet sanoitukset ovat Gaga
tai Katy Perry.
Järkeä?
OK.
>> Joten minulla on tämä ohjelma aion soittaa classify.py.
Joten tämä on Python.
Se on uusi ohjelmointikieli.
Se on hyvin samanlainen joissakin tapoja C ja PHP.
Se muistuttaa, koska jos haluat oppia Python kun tietää C, se on
todellakaan ole niin paljon haastetta vain koska Python on paljon helpompaa
kuin C ensinnäkin.
Ja paljon asioita on jo täytäntöön sinulle.
Joten miten kuten PHP on useita toimintoja, lajitella luettelon, tai liittää jotain
to array, tai blaa, blaa, blaa.
Python on kaikki nekin.
>> Joten olen juuri menossa selittää nopeasti miten voisimme tehdä luokitusta
ongelma täällä.
Sanotaan siis, että tässä tapauksessa, minulla on lyrics from Gaga ja Katy Perry.
Siten, että minulla on niitä lyrics on, että ensimmäinen sana lyrics on
taiteilijan nimi ja loput on lyrics.
Joten haluan sanoa, että minulla on tämän luettelon joista ensimmäinen on sanoittanut Gaga.
Joten tässä olen oikealla tiellä.
Ja seuraava on Katy, ja se on myös sanoitukset.
>> Joten tämä on, miten voit julistaa muuttuja Python.
Sinun ei tarvitse antaa tietotyyppi.
Sinä vain kirjoittaa "lyrics" ikään kuin PHP.
Järkeä?
>> Mitkä ovat asioita, joita minun täytyy laskea pystyä laskemaan
todennäköisyyksiä?
Minun täytyy laskea "prioritodennäköisyydet" Kunkin eri
luokat, jotka minulla on.
Minun täytyy laskea "posteriors" tai melko paljon todennäköisyydet
kunkin eri sanoja, jotka Voin olla kunkin taiteilijan.
Joten sisällä Gaga, esimerkiksi aion on lista kuinka monta kertaa näen
kukin sanoja.
Järkeä?
>> Ja lopuksi, olen juuri menossa luettelon nimeltä "sanoja", joka on juuri menossa
olla kuinka monta sanaa I ovat kunkin taiteilijan.
Joten Gaga, esimerkiksi kun katson sanoittaja, olin mielestäni 24
sanat yhteensä.
Joten tämä lista on vain täytyy Gaga 24, ja Katy toiseen numeroon.
Järkeä?
OK.
>> Joten nyt oikeastaan, nyt Siirry koodausta.
Joten Python, voit itse palata joukko eri
asioita toiminto.
Joten aion luoda tämän toiminnon nimeltään "ehdollinen", joka on menossa
palauttaa kaikki ne asiat, "Priorit", "todennäköisyyksiä", ja
"Sanoja". Niin "ehdollinen", ja se on aiotaan vaarantaa "lyrics."
>> Joten nyt haluan sinun todella kirjoittaa tätä toimintoa.
Niin niin, että voin kirjoittaa tämän Toiminto Sain määritelty tämän
toimimaan "def." Niin tein "def ehdollinen, "ja se kestää
"Lyrics." Ja mitä tämä aikoo tehdä on ensinnäkin, minulla on aiempia tuomioita
että haluan laskea.
>> Niin niin, että voin tehdä tämä on luoda sanakirja Python, joka
on melko sama asia kuin hash taulukon tai se on kuin iteratiivinen
array PHP.
Näin minä julistaa sanakirja.
Ja periaatteessa mitä tämä tarkoittaa, että prioritodennäköisyydet of Gaga on 0,5, jos esimerkiksi
50% sanoitukset ovat alkaen Gaga, 50% on peräisin Katy.
Järkeä?
Joten minun täytyy selvittää, miten laskea prioritodennäköisyydet.
>> Seuraavan ne, jotka minun täytyy tehdä myös, ovat todennäköisyydet ja sanoja.
Niin todennäköisyydet Gaga on luettelo kaikki todennäköisyydet, että olen
on kunkin sanoja Gaga.
Joten jos menen todennäköisyyksiä Gaga "Vauva", esimerkiksi, se antaa minulle
jotain 2 yli 24 tässä tapauksessa.
Järkeä?
Joten en mene "todennäköisyyksiä," mene "Gaga" kauha, joka on luettelo kaikista
Gaga sanat, sitten menen "vauva" ja näen todennäköisyydellä.
>> Ja lopuksi minulla on tämä "Sanat" sanakirja.
Joten tässä, "todennäköisyyksiä." Ja sitten "Sanoja". Joten jos teen "sanoja", "Gaga"
mitä tulee tapahtumaan on, että se aio antaa minulle 24, sanomalla, että minä
on 24 sanoja lyrics from Gaga.
Järkevää?
Joten tässä, "sanoja" on yhtä kuin Dah-Dah-dah.
Kunnossa
>> Joten mitä aion tehdä, on Aion kerrata enemmän kuin lyrics, joten
kukin naruja Minulla on luettelossa.
Ja aion laskea niitä asioita kunkin ehdokkaita.
Järkevää?
Joten minun täytyy tehdä silmukka.
>> Joten Python mitä voin tehdä on "linja in lyrics. "sama asia kuin
"Jokaiselle" lausunto PHP.
Muistakaa, kuinka se oli PHP voisin sanoa "jokaiselle lyrics kuten
line. "Järkevää?
Vien kullekin viivalle, tässä tapauksessa tämä merkkijono ja seuraava
string joten kullekin viivalle, mitä olen aikoo tehdä, on ensimmäinen, aion
jakaa tämä rivi luettelo sanat toisistaan välilyönnillä.
>> Niin cool juttu Python on, että voisit vain Google kuten "kuinka voin
jakaa merkkijonon sanoiksi? "Ja se on aio kertoa teille, miten se tehdään.
Ja tapa tehdä se, se on vain "line = Line.split () "ja se on pohjimmiltaan
aikoo antaa sinulle listan kukin sanoja tässä.
Järkevää?
Joten nyt, että tein, että haluan tietää kuka on laulaja tuon laulun.
Ja tehdä, että minun täytyy vain saada ensimmäinen osa array, eikö?
Joten voin vain sanoa, että olen "laulaja = Line (0) "Järkevää?
>> Ja sitten mitä minun täytyy tehdä, on aluksi kaikki, aion päivittää kuinka monta
sanoen minulla on kohdassa "Gaga." joten olen vain aio laskea, kuinka monta sanaa I
on tässä luettelossa, eikö?
Koska tämä on kuinka monta sanaa minulla on vuonna sanoitukset ja olen juuri menossa
lisää se "Gaga" array.
Onko järkeä?
Älä keskittyä liikaa syntaksin.
Ajatella enemmän käsitteitä.
Se on tärkein osa.
OK.
>> Joten mitä voin tehdä on, jos "Gaga" on jo tässä luettelossa, joten "jos laulaja
lause ", joka tarkoittaa sitä, että olen jo on sanat Gaga.
Haluan vain lisätä ylimääräisiä jotakin sen.
Joten mitä teen on "sanoja (laulaja) + = Len (line) - 1 ".
Ja sitten voin vain tehdä Viivan pituus.
Joten kuinka monta elementtiä I on jono.
Ja minun täytyy tehdä miinus 1 vain siksi ensimmäistä alkiota on vain
laulaja ja tämä ei ole lyrics.
Järkevää?
OK.
>> "Else", se tarkoittaa, että haluan itse aseta Gaga listaan.
Joten en vain "sanoja (laulaja) = Len (line) - 1, "anteeksi.
Joten ainoa ero näiden kahden välillä linjat on, että tämä yksi, se ei ole
vielä olemassa, joten olen vain alustamatta.
Tämä yksi Olen oikeastaan lisäämällä.
OK.
Joten tämä oli lisäämällä sanoja.
>> Nyt haluan lisätä aiempia tuomioita.
Joten miten voin laskea prioritodennäköisyydet?
Prioritodennäköisyydet voidaan laskea kuinka monta kertaa.
Joten kuinka monta kertaa näet, että laulaja joukossa kaikki laulajat, että olet
on, eikö?
Joten Gaga ja Katy Perry, Tässä tapauksessa näen Gaga
kerran, Katy Perry kerran.
>> Joten periaatteessa prioritodennäköisyydet Gaga ja Katy Perry olisi
vain yksi, eikö?
Sinä vain, kuinka monta kertaa Näen taiteilija.
Joten tämä on erittäin helppo laskea.
Voin vain jotain vastaavaa samankaltaisina ", jos laulaja aiempia tuomioita, "olen juuri menossa
lisätä 1 niiden aiempia tuomioita ruutuun.
Joten, "aiempia tuomioita (laulaa)" + = 1 "ja sitten" muuten " Aion tehdä "aiempia tuomioita (laulaja)
= 1. "Järkevää?
>> Joten jos sitä ei ole olemassa Sain laittaa kuin 1, muuten en vain lisätä 1.
OK, joten nyt kaikki, että olen vielä tekemättä on myös lisätä kunkin sanoja
todennäköisyyksiä.
Joten minun täytyy laskea kuinka monta kertaa Näen jokaisen sanoja.
Joten minun täytyy vain tehdä uuden silmukan linjaa.
>> Niin ensimmäinen asia, että aion tehdä, on tarkistaa, jos laulaja on jo
todennäköisyydet array.
Joten olen tarkistaa, jos laulaja ei on todennäköisyydet array, olen vain
menossa alustaa yksi niistä.
Se ei ole edes array, anteeksi, se on sanakirja.
Joten todennäköisyydet laulaja on menossa olla avoin sanakirja, joten olen
vain alustetaan sanakirja sitä.
OK?
>> Ja nyt en voi itse tehdä silmukka laskea kunkin sanat "
todennäköisyyksiä.
OK.
Joten mitä voin tehdä on silmukka.
Joten olen juuri menossa kerrata rivin yli.
Niin niin, että voin tehdä, että Python on "for i in välillä." 1
koska haluan aloittaa toisen elementti, koska ensimmäinen on
laulaja nimi.
Joten yhdestä asti Viivan pituus.
Ja kun en vaihtelevat sen itse mennä alkaen kuten täällä 1 Len
line miinus 1.
Joten se jo tekee, että asia tehdä n miinus 1 paneelit, joka on hyvin
kätevä.
Järkevää?
>> Joten kullekin näistä, mitä aion tehdä, on, aivan kuten toinen,
Aion tarkistaa, jos sana tässä asema linja on jo
todennäköisyyksiä.
Ja sitten kuten sanoin täällä, todennäköisyydet sanoja, kuten laitoin
"Todennäköisyyksiä (laulaja)".
Joten nimi laulaja.
Joten jos se jo "Probabilit (laulaja)", se tarkoittaa, että minun
haluat lisätä 1 sitä, joten aion do "todennäköisyyksiä (laulaja)", ja
sana on nimeltään "rivi (i)".
Aion lisätä 1 ja "muu" Olen vain menossa alustaa sen 1.
"Line (i)".
Järkevää?
>> Joten, olen laskenut kaikki ryhmät.
Joten nyt kaikki, että minun täytyy tehdä tämä on vain "palata aiempia tuomioita,
todennäköisyydet ja sanat. "Mennään onko olemassa mitään, OK.
Näyttää siltä, kaikki toimii toistaiseksi.
Niin, että on järkevää?
Jollain tavalla?
OK.
Joten nyt minulla on kaikki todennäköisyydet.
Joten nyt ainoa asia mitä on jäljellä on vain on, että asia, joka
laskee tuotteen kaikkien todennäköisyydet kun saan lyrics.
>> Joten haluan sanoa, että haluan nyt soittaa tämä toiminto "luokitella ()" ja
asia, että toiminto vie on vain väite.
Sanotaan "Baby, olen tulessa" ja se on menossa selvittää, mitä on
Todennäköisyys, että tämä on Gaga?
Mikä on todennäköisyys, , että tämä on Katie?
Kuulostaako hyvältä?
Joten olen juuri menossa on luotava uusi toiminto nimeltään "luokitella ()" ja
se vie jonkin verran lyrics samoin.
Ja sitä paitsi lyrics Olen myös täytyy lähettää aiempia tuomioita,
todennäköisyydet ja sanoja.
Joten aion lähettää lyrics, aiempia tuomioita, todennäköisyyksiä, sanoja.
>> Joten tämä on ryhtynyt lyrics, aiempia tuomioita, todennäköisyyksiä, sanoja.
Joten, mitä se tekee?
Se pohjimmiltaan on menossa läpi kaikki mahdollista ehdokkaista
on laulajana.
Ja missä ovat ne ehdokkaat?
He ovat prioritodennäköisyydet, eikö?
Joten minulla on kaikki nämä siellä.
Joten aion olla sanakirja kaikista mahdollisista ehdokkaista.
Ja sitten kunkin ehdokkaan aiempia tuomioita, niin se tarkoittaa, että se tulee
olla Gaga, Katie jos olisin Enemmän se olisi enemmän.
Aion alkaa mitata Tämän todennäköisyyden.
Todennäköisyys kuten näimme PowerPoint on ennen kertaa
tuotteen kunkin muut todennäköisyydet.
>> Joten en voi tehdä saman täällä.
Voin vain tehdä todennäköisyys on aluksi juuri ennen.
Joten rikosrekisteri ehdokas.
Oikea?
Ja nyt minun täytyy kerrata kaikkia sanoja, jotka minulla on lyrics olla
voi lisätä todennäköisyyttä kullekin niistä, OK?
Joten, "sanaan lyrics" mitä aion vain, jos sana on
"Todennäköisyyksiä (ehdokas)", joka tarkoittaa, että se on sana, joka
ehdokas on niiden lyrics -
esimerkiksi "vauva" Gaga -
mitä aion tehdä, on, että todennäköisyys on menossa kerrottava
1 plus todennäköisyydet ehdokas, joka sana.
Ja sitä kutsutaan "sana".
Tämä jaettuna sanojen määrä että minulla on, että ehdokas.
Kokonaismäärä sanoja, jotka minulla on laulaja, että minä katson.
>> "Else". se tarkoittaa että se on uusi sana niin se olisi kuin esimerkiksi
"Fire" Lady Gaga.
Joten haluan vain tehdä 1 yli "Sana (ehdokas)".
Joten en halua laittaa tähän termi tässä.
>> Joten se tulee olemaan periaatteessa kopioimalla tämän.
Mutta aion poistaa tämän osan.
Niin se vain olemaan 1 tuosta.
Kuulostaako hyvältä?
Ja nyt lopussa, olen juuri menossa tulostaa nimi ehdokas ja
todennäköisyys, että sinulla on ottaa S niiden sanoitukset.
Järkevää?
Ja minä itse ei edes Tarvitsen tätä sanakirja.
Järkevää?
>> Joten katsotaanpas, jos tämä todella toimii.
Joten jos juoksen tämän, se ei toimi.
Odota sekunti.
"Sanat (ehdokas)", "sanat (ehdokas)", se on
nimen array.
OK Niin, se sanoo, että on joitakin bug varten ehdokas aiempia tuomioita.
Haluan vain rentoutua hieman.
OK.
Kokeillaan.
OK.
>> Joten se antaa Katy Perry on tämä todennäköisyys tämän kertaa 10
miinus 7, ja Gaga on tämä kertaa 10 miinus 6.
Niin näet se osoittaa, että Gaga on suurempi todennäköisyys.
Joten "Baby, olen Fire" on luultavasti Gaga laulu.
Järkevää?
Joten tämä on mitä me teimme.
>> Tämä koodi tulee olemaan julkaistaan verkossa, joten te voi tarkistaa sen.
Ehkä käyttää joitakin sitä, jos haluat tehdä hankkeen tai jotain vastaavaa.
OK.
Tämä oli vain osoittaa mitä laskennallisia
kielitiede koodi näyttää.
Mutta nyt mennään enemmän korkean tason kamaa.
OK.
>> Joten muita ongelmia I puhui -
segmentointi ongelma on ensimmäinen niistä.
Joten olet täällä Japani.
Ja sitten näet, että ei ole välilyöntejä.
Joten tämä on periaatteessa sitä, että se on yläosassa tuoli, eikö?
Puhutko Japani?
Se on yläosassa tuoli, eikö?
>> Opiskelija: En tiedä mitä kanji tuolla on.
>> LUCAS FREITAS: Se [puhutaan JAPANIN]
OK.
Joten se tarkoittaa periaatteessa puheenjohtajana alkuun.
Joten jos sinulla on ollut laittaa tilaa se olisi täällä.
Ja sitten on [? Ueda-san. ?]
Mikä tarkoittaa periaatteessa sitä Mr. Ueda.
Ja näet, että "Ueda" ja olet tilaa ja sitten "san." Niin näet, että
täällä on "UE" on kuin itsestään.
Ja tässä se on luonteeltaan sen vieressä.
>> Joten se ei ole kuin näissä kielissä merkkiä eli sanan niin sinun
vain laittaa paljon tiloja.
Hahmot toisiinsa.
Ja ne voivat olla yhdessä kuten kaksi, kolme, yksi.
Joten sinulla todella on luoda jonkinlainen on tapa toteuttaa näitä tiloja.
>> Ja tämä asia on, että jos saat tietoja näistä Aasian kieliä,
kaikki tulee unsegmented.
Koska kukaan joka kirjoittaa japanilainen tai kiinalaisen kirjoittaa välilyönneillä.
Aina olet kirjoittamassa kiina, Japani voit vain kirjoittaa kaiken
ilman välilyöntejä.
Se ei ole järkevää laittaa tiloihin.
Joten sitten kun saat tietoja, joidenkin Itä-Aasian kieltä, jos haluat
itse tehdä jotain, että sinun täytyy ensimmäisenä luokassaan.
>> Ajatella tehdä esimerkki lyrics ilman välilyöntejä.
Joten vain sanoja, jotka olet on lauseita, eikö?
Erotetaan pisteillä.
Mutta sitten ottaa vain lause ei todella auttaa tietojen antamisesta
keitä nämä sanoitukset ovat vuoteen.
Oikea?
Joten sinun tulisi asettaa tilat ensin.
Joten miten voit tehdä sen?
>> Niin sitten tulee ajatus kielen malli, joka on jotain todella
tärkeää laskennallisen kielitiede.
Niin kielen malli on periaatteessa taulukko todennäköisyydet joka osoittaa
ensinnäkin mikä on todennäköisyys ottaa sana kielellä?
Joten siitä, kuinka usein sana on.
Ja sitten myös esittää riippuvuutta sanojen lauseessa.
>> Joten tärkein ajatus on, jos muukalainen tuli teille ja sanoi lause
teille, mikä on todennäköisyys, että Esimerkiksi "tämä on minun sisko [? GTF"?]
oli lause, että henkilö sanoi?
Joten ilmeisesti jotkut lauseet ovat yleisempiä kuin toiset.
Esimerkiksi "hyvää huomenta" tai "hyvä yö "tai" Hei ", on paljon enemmän
yhteistä kuin useimmat lauseita että meillä on Englanti.
Joten miksi nämä lauseet useammin?
>> Ensinnäkin, se johtuu olet sanoja, jotka ovat useammin.
Niinpä esimerkiksi, jos sanot, koira on iso, ja koira on jättimäinen, sinun
yleensä luultavasti kuulla koira on iso useammin, koska "iso" on enemmän
yleisiä Englanti kuin "jättimäinen." Niin, yksi
asioita on sana taajuus.
>> Toinen asia, joka on todella tärkeää on vain
sanojen järjestys.
Niin, se on yhteinen sanoa "kissa on laatikon sisällä. ", mutta et yleensä
nähdä "ruudun sisällä on kissa." niin voit nähdä, että siellä on jonkin verran merkitystä
järjestyksessä sanoja.
Et voi vain sanoa, että nämä kaksi lauseilla on sama todennäköisyys
vain koska he ovat samoja sanoja.
Et oikeastaan tarvitse huolehtia noin järjestys samoin.
Järkeä?
>> Joten mitä me teemme?
Joten mitä voisin yrittää saada sinut?
Yritän saada mitä me soita n gramman malleja.
Joten n gramman mallien periaatteessa olettaa että jokaista sanaa, että
sinulla on lause.
Se todennäköisyys, että että sana ei riipu ainoastaan
taajuus, että sana kielellä, vaan myös sanoja, jotka
ympäröivät sitä.
>> Niinpä esimerkiksi, yleensä kun näet jotain on tai olet
luultavasti menossa katsomaan substantiivi sen jälkeen, eikö?
Koska kun on prepositio Yleensä se kestää substantiivi jälkeen.
Tai jos sinulla on verbi, joka on transitiivinen et yleensä menossa
on substantiivi lause.
Niin se tulee olla substantiivi jonnekin ympärille.
>> Joten periaatteessa, mitä se on, että se katsoo, todennäköisyys, että
sanoja vierekkäin, kun olet laskettaessa
todennäköisyys lauseen.
Ja sitähän kieli malli on periaatteessa.
Vain sanoa mitä todennäköisyys ottaa tietyn
lause kielellä?
Joten miksi se on hyödyllistä, pohjimmiltaan?
Ja ennen kaikkea, mikä on n gramman malli sitten?
>> Joten n gramman malli tarkoittaa sitä, että jokaisen sanan riippuu
Seuraavan N miinus 1 sanaa.
Joten periaatteessa, se tarkoittaa, että jos katson, esimerkiksi kello CS50 TF, kun
Olen laskettaessa todennäköisyys lause, voit olla kuten "
todennäköisyys ottaa sanan "" kertaa todennäköisyys ottaa "
CS50 "kertaa todennäköisyys, että "CS50 TF." Joten periaatteessa, luen
kaikki mahdolliset keinot veny.
>> Ja sitten yleensä kun teet tämän, kuten projekti, laitat N olla
alhainen arvo.
Niin, yleensä bigrams tai trigrams.
Niin että voit vain laskea kaksi sanaa, ryhmä kaksi sanaa, tai kolme sanaa,
vain suorituskykyyn liittyviä ongelmia.
Ja myös siksi ehkä jos sinulla on jotain "CS50 TF." Kun
on "TF", on erittäin tärkeää, että "CS50" on vieressä, eikö?
Nämä kaksi asiaa ovat yleensä vierekkäin.
>> Jos ajattelet "TF", se on luultavasti menossa on mitä
class se TF'ing varten.
Myös "" on todella tärkeää varten CS50 TF.
Mutta jos sinulla on jotain "CS50 TF meni luokkaan ja antoivat
opiskelijat karkkia. "" Candy "ja" " ei ole mitään yhteyttä oikeasti, eikö?
Ne ovat niin kaukana toisistaan, että se ei ole oikeastaan väliä, mitä
sanoja olet.
>> Niin tekemällä kaksikieliopillisesta tai trigram, se vain tarkoittaa, että olet rajoittamalla
itse joitakin sanoja jotka ovat noin.
Järkeä?
Joten kun haluat tehdä segmentointi, pohjimmiltaan, mitä haluat tehdä, on nähdä
mitkä ovat kaikki mahdollisia tapoja, joilla voit segmentin lause.
>> Niin että näet mitä on todennäköisyys jokainen näistä lauseita
olemassa kielellä?
Joten mitä teet on kuin, no, Yritän laittaa tilaa täällä.
Joten voit laittaa tilaa siellä ja näet mitä on
todennäköisyys että lause?
Sitten olet kuten, OK, ehkä joka ei ollut niin hyvä.
Joten laitoin tilaa siellä ja tilaa siellä, ja voit laskea
todennäköisyys nyt, ja näet, että se on suurempi todennäköisyys.
>> Joten tämä on algoritmi nimeltään TANGO segmentointi algoritmi, joka on
todella jotain, että olisi todella jäähtyä projekti, joka
pohjimmiltaan vie unsegmented tekstistä, joka voi olla Japanin tai Kiinan tai ehkä
Englanti ilman välilyöntejä ja yrittää sijoittaa välilyönnit sanojen ja se tekee
että käyttämällä kielen mallin ja yrittää nähdä, mikä on korkein
todennäköisyys saat.
OK.
Joten tämä on segmentointi.
>> Nyt syntaksin.
Joten, syntaksia käytetään niin monia asioita juuri nyt.
Joten Graph haun, Siri melko paljon kaikenlaista luonnon
kielen käsittelyyn olet.
Niin mitkä ovat tärkeitä asioita syntaksi?
Joten, lauseita on yleensä mitä kutsumme ainesosia.
Jotka ovat ikään kuin sanaryhmien , joilla on tehtävä lauseessa.
Ja he eivät voi todella olla päässä toisistaan.
>> Joten, jos sanon, esimerkiksi "Lauren rakastaa Milo. "Tiedän, että" Lauren "on
osatekijä ja sitten "rakastaa Milo "on myös toinen.
Koska et voi sanoa kuin "Lauren Milo rakastaa "on sama merkitys.
Se ei tule olla sama merkitys.
Tai en voi sanoa kuin "Milo Lauren rakastaa. "Kaiken ei sama
eli näin.
>> Joten kaksi tärkeämpää asioita syntaksin ovat leksikaalisen tyyppejä, joilla on
pohjimmiltaan toimintoon ovat sanoja itse.
Joten sinun täytyy tietää, että "Lauren" ja "Milo" ovat substantiiveja.
"Rakkaus" on verbi.
Ja toinen tärkeä asia on että he phrasal tyyppejä.
Niin tiedät, että "rakastaa Milo" on todella sanallinen lause.
Joten kun sanon "Lauren," Tiedän, että Lauren tekee jotain.
Mitä hän tekee?
Hän rakastava Milo.
Joten se on koko juttu.
Mutta sen komponenttien substantiivi ja verbi.
Mutta yhdessä ne tekevät verbilausekkeen.
>> Joten, mitä voimme itse tehdä kanssa laskennallinen kielitiede?
Joten, jos minulla on jotain esimerkiksi "Ystävät Allison." Näen jos vain
ei syntaktinen puu tietäisin, että "Ystävät" on substantiivi lause se on
substantiivi ja sitten "Allison" on prepositio lause, jossa "on" on
ehdotus ja "Allison" on substantiivi.
Mitä voisin tehdä on opettaa tietokone että kun minulla on substantiivi lause yksi ja
sitten prepositio lause.
Joten tässä tapauksessa, "ystävät" ja sitten "ja Milo "Tiedän, että tämä tarkoittaa, että
NP2, toinen omistaa NP1.
>> Joten en voi luoda jonkinlainen suhde, jonkinlainen toiminto sitä.
Joten aina kun näen tätä rakennetta, jonka vastaa täsmälleen kanssa "ystäviä
Allison, "Tiedän, että Allison omistaa ystäviä.
Joten ystävät ovat jotain että Allison on.
Järkevää?
Joten tämä on pohjimmiltaan Kuvaaja Haku ei.
Se vain luo säännöt On paljon asioita.
Niin "ystävät Allison", "ystäväni jotka elävät Cambridge "," ystäväni
jotka menevät Harvardiin. "Se luo säännöt sillä kaikki nuo asiat.
>> Nyt machine translation.
Joten, kone käännös on myös jotain tilastollista.
Ja itse jos saat mukana laskennallinen kielitiede, paljon
teidän juttuja tulee olemaan tilastoja.
Niin kuin olin tekemässä esimerkiksi paljon todennäköisyyksien että olin
laskettaessa, ja sitten saat tähän hyvin pieni määrä, joka on lopullinen
todennäköisyys, ja sitähän antaa sinulle vastauksen.
Machine translation käyttää myös tilastollinen malli.
Ja jos haluat ajatella koneen käännös mahdollisimman yksinkertaisella
Muuten, mitä voit ajatella on vain kääntää sana sanalta, eikö?
>> Kun opettelet kielen ensimmäistä kertaa, se on yleensä mitä
teet, eikö?
Jos haluat kääntää lause oman käytetyn kielen
opettelet, yleensä ensin sinun kääntämään jokaisen sanan
yksilöllisesti, ja yrität sitten laittaa sanat paikalleen.
>> Joten jos halusin kääntää tämän, [Portugaliksi]
joka tarkoittaa "valkoinen kissa juoksi pois." Jos haluaisin kääntää sen
Portugali ja Englanti, mitä voi tehdä on, ensin, minä vain
kääntää sanasta sanaan.
Joten "o" on "," "Gato", "kissa" "Branco", "valkoinen" ja sitten "fugio" on
"Juoksi pois."
>> Niin sitten minulla on kaikki sanat täällä, mutta he eivät ole järjestyksessä.
Se on kuin "kissa valkoinen karkasi" joka on ungrammatical.
Joten, voin olla toinen vaihe, joka aiotaan löytää ihanteellinen
sijoitetaan kunkin sanoja.
Joten tiedän, että olen itse haluavat olla "Valkoinen kissa" eikä "kissa valkoinen." Niin
mitä voin tehdä on, kaikkein naiivi menetelmä olisi luoda kaikille
mahdollista permutaatiot sanoen kantoja.
Ja sitten nähdä, mikä on suurin todennäköisyys mukaan
minun kielen malli.
Ja sitten kun löydän yksi, joka on suurin todennäköisyys siihen, mikä on
luultavasti "valkoinen kissa karkasi" se on minun käännös.
>> Ja tämä on yksinkertainen tapa selittää kuinka paljon machine translation
algoritmit.
Onko järkeä?
Tämä on myös jotain todella jännittävää että te voi ehkä etsintään
opinnäytetyö, joo?
>> Opiskelija: No, sanoit se oli naiivi tapa, niin mitä
ei-naiivi tavalla?
>> LUCAS FREITAS: ei-naiivi tavalla?
OK.
Joten ensimmäinen asia, joka on paha mieli tämä menetelmä on, että olen juuri kääntänyt
sanoja, sana sanalta.
Mutta joskus on sanoja, jotka voi olla useita käännöksiä.
Aion yrittää ajatella jotain.
Esimerkiksi "manga" portugaliksi voi joko "mankeli" tai "hihassa." Niin
kun yrität kääntää sana sanan, se saattaa antaa sinulle
jotain, joka ei ole mitään järkeä.
>> Joten te todella haluavat tarkastellaan kaikkia mahdolliset käännökset
sanoja ja nähdä, ensinnäkin, mikä on järjestys.
Puhuimme permutoidaan asioita?
Jos haluat nähdä kaikki mahdolliset tilausten ja Valitse yksi eniten
todennäköisyys?
Voit myös valita kaikki mahdolliset käännöksiä jokaiselle
sana ja katso sitten -
yhdistettynä permutaatiot -
kumpi on suurin todennäköisyys.
>> Plus, voit myös katsoa ole vain sanoja, mutta lauseita.
joten voit analysoida suhteita sanat ja sitten saada
parempaa käännöstä.
Myös jotain muuta, joten tämä lukukausi Olen oikeastaan tekemässä tutkimusta
Kiina-Englanti kone käännös, niin kääntämiseen
Kiinasta Englanti.
>> Ja mitä teemme on paitsi käyttäen tilastollinen malli, joka on vain
nähdä todennäköisyydet nähdä Joissakin asema lauseen, olen
oikeastaan myös lisäämällä joitakin syntaksin minun malli, sanoen, oh, jos näen tällaista
rakentamisen, tämä on mitä haluan muuttaa sen kun kääntää.
Joten voit myös lisätä jonkinlainen osa syntaksin tehdä
käännös tehokkaampi ja tarkempi.
OK.
>> Joten miten voit päästä alkuun, jos haluat tehdä jotain laskennallisen
kielitiede?
>> Ensin valitset projektin , johon kielellä.
Joten, siellä on niin paljon siellä.
On niin monia asioita voi tehdä.
Ja sitten voi ajatella mallin joita voit käyttää.
Yleensä se ajattelu oletukset, kuten kuten, oh, kun olin
kuten ajattelu lyrics.
Olin kuin hyvin, jos haluan selvittää ulos joka kirjoitti tämän, en luultavasti halua
katsomaan sanoja henkilöstä ja kuka käyttää sitä sanaa kovin usein.
Joten yritä tehdä oletuksia ja yritä ajatella malleja.
Ja sitten voit myös hakea verkosta sellainen ongelma, että sinulla on,
ja se tulee ehdottaa teille malleja, jotka ehkä
mallinnettu että asia hyvin.
>> Ja myös voit aina sähköpostitse minulle.
me@lfreitas.com.
Ja voin vain vastata kysymyksiisi.
Voimme jopa ehkä tavata niin voin antaa ehdotuksia keinoista
hankkeen toteutuksen aikana.
Ja tarkoitan jos saat mukana laskennallinen kielitiede, se tulee
olla suuri.
Olet menossa nähdä siellä on niin paljon potentiaalia.
Ja teollisuus haluaa palkata olet niin huono takia.
Joten toivon te nauttinut tätä.
Jos teillä mitään kysymyksiä, voit kysyä minulta tämän jälkeen.
Mutta kiitos.