197 Shares 2254 views

Co jest Corpus Linguistics?

Zaledwie kilka lat temu do automatyzacji badań lingwistycznych, naukowcy mogli tylko pomarzyć. Prace zostały wykonane ręcznie, przyciąga dużą liczbę studentów, istnieje duże prawdopodobieństwo „niedbały” błędy, a co najważniejsze – wszystko to trwało długo, bardzo długo.


Wraz z rozwojem technologii komputerowej stała się możliwa do przeprowadzenia badań na rząd wielkości szybciej, a dziś jeden z najbardziej obiecujących kierunków w badaniach języka jest językoznawstwo korpusowe. Jego główną cechą jest stosowanie dużych ilości informacji tekstowych, informacji w jednej bazie danych, w szczególny sposób i nazywa zaznaczony ciało.

Do tej pory istnieje wiele budynków utworzone z różnych celów, na podstawie różnych materiałów językowej trwającej od milionów do kilkudziesięciu miliardów jednostek leksykalnych. Kierunek ten jest uznawany za obiecujący i wykazuje znaczący postęp w osiąganiu celów badawczych i aplikacyjnych. Ekspertów, taki czy inny sposób czynienia z języka naturalnego, zaleca się zapoznanie się z korpusu tekstów przynajmniej na poziomie podstawowym.

Historia językoznawstwa corpus

Powstawanie tego trendu jest wynikiem powstania Stanów Zjednoczonych na Brown ciała na początku lat 60-tych ubiegłego wieku. W kolekcji znajdują się teksty wszystkich 1 mln form słownych, a dziś ciało tej wielkości będzie całkowicie niekonkurencyjne. Wynika to głównie ze względu na tempo rozwoju technologii komputerowej, a także rosnące zapotrzebowanie na nowych zasobów badawczych.

W latach 90. pojawiły się językoznawstwo korpusowe do pełnego i niezależnego dyscypliny, zbiór tekstów zostały sporządzone i zaznaczono kilkudziesięciu językach. W tym okresie został utworzony, na przykład, British National Corpus 100 milionów żetonów.

Wraz z rozwojem tej dziedziny językoznawstwa, tomy tekstowe są coraz bardziej (i dotrzeć miliardy jednostek słownikowych), a układ jest coraz bardziej zróżnicowana. Do tej pory, przestrzeń Internetu można znaleźć tusz języka pisanego i mówionego, wielojęzycznym i literaturę artystyczną lub naukową uczenia się zorientowanego, a także wiele innych gatunków.

Jakie są obudowa

rodzaje nadwozia w językoznawstwie ciała mogą być dostarczane z kilku powodów. Intuicyjnie, podstawą klasyfikacji może być język tekstowy (rosyjski, niemiecki), tryb dostępu (open source, zamknięte, handlowych), gatunek materiału źródłowego (fikcja, dokumentalnych, naukowych, dziennikarskich).

Interesujący sposób generuje materiały z języka mówionego. Ponieważ celowe nagranie takiej mowy, aby stworzyć sztuczne środowisko dla respondentów, a uzyskany materiał nie mógłby być nazywany „spontaniczny”, współczesne językoznawstwo korpusowe upadł w drugą stronę. Wolontariusz jest wyposażony w mikrofon, a w ciągu dnia produkowane zapis wszystkich rozmów, w których uczestniczy. Ludzie wokół, oczywiście, może nie wiedzieć, że w trakcie codziennej rozmowie przyczynia się do rozwoju nauki.

Później otrzymał rekord zapisany w bazie danych i towarzyszy drukowanej typu transkryptu tekst. W ten sposób możliwe staje znaczników potrzebne do stworzenia doustny codziennie obudowę mowy.

aplikacja

Wszędzie tam, gdzie to możliwe, użycie języka, a może i użytkowania budynków tekstów. Sposoby zastosowania kadłuba lingwistyki mogą być:

  • Tworzenie programu określającego klucz, jest szeroko stosowany w polityce i biznesie, aby śledzić pozytywnych i negatywnych odpowiedzi wyborców i klientów, odpowiednio.
  • Połączenie systemu informacji do słowników i tłumaczy w celu poprawy ich wydajności.
  • Różnorodność zadań badawczych, które przyczyniają się do zrozumienia jednostki języka, historii jej rozwoju i przewidywania zmian w najbliższej przyszłości.
  • Rozwój informatycznych systemów wyszukiwawczych na podstawie morfologicznych, składniowych, semantycznych i innych funkcji.
  • Optymalizacja różnych systemów językowych i innych.

Korzystanie z budynków

Podobny interfejs zasób z typowej wyszukiwarki, i pyta użytkownika, aby wprowadzić słowo lub kombinację słów, aby szukać bazy informacyjnej. Oprócz postaci dokładnej kwerendy można użyć wersji wzmocnionej, co pozwala znaleźć informacje tekstowe na praktycznie dowolnych kryteriów językowych.

Podstawa wyszukiwania mogą być:

  • przynależności do określonej grupy części mowy;
  • Cechy gramatyczne;
  • semantyka;
  • farbowanie stylistyczna i emocjonalna.

Można również łączyć kryteriów dla sekwencji słów, na przykład, aby znaleźć wszystkie wystąpienia czasownika w czasie teraźniejszym, pierwszej osobie liczby pojedynczej, która przychodzi po przyimka „w” i rzeczownika w bierniku. Rozwiązaniem takim prostym zadaniem zajmuje użytkownikowi kilka sekund i wymaga tylko kilku kliknięć myszką w określonych dziedzinach.

Proces tworzenia

Samo wyszukiwanie można przeprowadzić na wszystkich podkorpus i jeden specjalnie dobrane w zależności od potrzeb w osiągnięciu określonego celu:

  1. Pierwszym krokiem jest określenie, które teksty stanowią podstawę dla sprawy. Dla celów praktycznych, to jest często używane dziennikarskie, newsów, komentarzy internetowych. Projekt badawczy jest zastosowanie szerokiej gamy typów pakietów, ale tekst powinien być dobrany odpowiednio do jakiegoś wspólnego mianownika.
  2. Uzyskany zbiór tekstów poddanych wstępnej obróbce, nie ma korekcji błędów, jeśli w ogóle, przygotowany przez bibliograficznych i extra-językowego opisu tekstu.
  3. Jest wyeliminowane wszystkie zakaz informacje tekstowe: Czyści graficznych, zdjęć, tabel.
  4. Jest to podział żetonów, które są zwykle mowy, do dalszego przetwarzania.
  5. Na koniec, przeprowadza morfologiczne składniowy i inne oznaczenia uzyskuje się wiele elementów.

W wyniku wszystkich transakcji dokonywanych przez struktury składniowej z rozproszoną w nim wiele elementów, z których każda jest określona część mowy, gramatycznych i, w niektórych przypadkach, semantyczne atrybutów.

Trudności w tworzeniu budynków

Ważne jest, aby zrozumieć, że nie wystarczy, aby połączyć zestaw słów i zdań dla organizmu. Z jednej strony, zbiór tekstów powinien być zrównoważony, czyli reprezentują różne rodzaje tekstów w określonych proporcjach. Z drugiej – zawartość obudowy powinny być rozmieszczone w sposób szczególny.

Pierwszy problem jest rozwiązany w drodze umowy, na przykład: w kolekcji zawiera 60% tekstów literackich, 20% dokumentów, pewien procent otrzymuje pisemne oświadczenie w języku mówionym, prawodawstwo, prace naukowe itp dziś idealny przepis zrównoważone ciało nie istnieje …

Drugie pytanie, dotyczące układu treści, rozwiązywać trudne. Istnieją specjalne programy i algorytmy służące do automatycznego znakowania tekstów, ale nie dają doskonały rezultat, może powodować zakłócenia i wymagają ręcznego przeróbek. Możliwości i wyzwania radzenia sobie z tym problemem, są szczegółowo opisane w publikacji R. P. Zaharova językoznawstwa korpusu.

markup tekst jest realizowany na kilku poziomach, które są wymienione poniżej.

morfologiczne tagging

Ze szkoły, musimy pamiętać, że w języku rosyjskim, istnieją różne części mowy, a każdy z nich ma swoje własne cechy. Na przykład czasownik ma kategorie nachylenia i czasu, w którym nie rzeczownik. native speaker bez wahania odmówi rzeczowniki i czasowniki sprzężonych, ale oznaczyć ciała 100 mln. tokeny pracy ręcznej nie będzie działać. Wszystkie niezbędne operacje można wykonać z komputera, jednak do tego, że musi się nauczyć.

Morfologiczne tagging, komputer musi „zrozumieć” każde słowo jako pewnej części mowy posiadające pewne cechy gramatyczne. Ponieważ rosyjski (i każdy inny język) prowadzi szereg regularnych zasadach, jest możliwe aby zbudować automatyczną procedurę analizy morfologicznej, inwestowanie w samochodzie dla wielu algorytmów. Istnieją jednak wyjątki od tej reguły, jak również różnych czynników komplikuje. W rezultacie, analiza komputerowa netto na dzień dzisiejszy jest daleki od ideału, a nawet 4% daje błąd wartości 4 mln zł. Słowa na ciele 100 milionów dolarów. Jednostki, które wymagają ręcznego przeróbek.

Szczegółowe książka opisuje problem Zaharova V. P. "Corpus Linguistics".

składniowym adnotacji

Parsowania lub parsowania – procedurę, która określa związek wyrazów w zdaniu. Za pomocą zestawu algorytmów jest to możliwe do ustalenia tekstu podmiotu, orzecznika, uzupełnienia wielu zwrotach. Dowiedzieć się, które słowa są głównym sekwencja, a które – zależne, możemy efektywnie wydobyć informacje z tekstu i nauczyć maszynę do wydawania w odpowiedzi na żądania wyszukiwania tylko informacje interesujący nas.

Nawiasem mówiąc, nowoczesne wyszukiwarek to wykorzystać, aby dać konkretne numery zamiast długich tekstów w odpowiedzi na odpowiednich zapytań takich jak „Ile kalorii jabłko” lub „na odległość z Moskwy do Petersburga.” Jednak, aby zrozumieć nawet podstaw procesu opisanego przez konieczność zasięgnięcia opinii „Wstęp do Corpus Linguistics” lub innego podstawowego podręcznika.

semantyczny markup

Semantyka tego słowa – jest w prostych słowach, rozumieniu. Szeroko stosowane podejście do analizy semantycznej tagów słowo atrybucji, odzwierciedlającą jego przynależność do zestawu semantycznych kategorii i podkategorii. Taka informacja jest cenna dla optymalizacji algorytmy analizy tonu tekstu, automatyczne podsumowania i innych zadań metody lingwistyki korpusu.

Istnieje szereg „root” drzewa, co stanowi streszczenie słowo o bardzo szerokim semantyki. Jako gałąź węzłów drzewa są uformowane, zawierające więcej, a bardziej konkretne elementy słowne. Na przykład, słowo „istota” mogą być związane z takimi pojęcia jak „człowiek” i „zwierzę”. Pierwsze słowo będzie nadal się rozwijać w różnych zawodach, terminów pokrewieństwa, narodowości, a drugi – na zajęciach i rodzajów zwierząt.

Zastosowanie systemów informatycznych pobierania

Obszary zastosowania językoznawstwa korpusowych obejmować różne dziedziny działalności. Obudowy są używane do przygotowania i korekty słowników, tworzenie zautomatyzowanych systemów tłumaczeniowe adnotacji, pobieranie faktów, określenie tonu i innego typu przetwarzania tekstu.

Ponadto środki te są aktywnie wykorzystywane w badaniach nad językami i mechanizmów funkcjonowania języka w ogóle światowych. Dostęp do dużych ilości wstępnie przygotowanej informacji ułatwia szybką i kompleksową analizę tendencji języków programowania, a zmiana stabilne neologizmy formacja prędkość mowy wartości jednostek leksykalnych i innych.

Ponieważ praca z tak dużych ilości danych wymaga automatyzacji, dziś jest blisko interakcja między lingwistyki komputerowej i trzonu.

Rosyjski Narodowy Korpus

Ta sprawa (w skrócie NKRYA) zawiera szereg podkorpus, umożliwiając korzystanie z zasobów dla szerokiej gamy zadań.

Materiały w bazie danych są podzielone NKRYA:

  • do publikacji w latach 90-tych i 2000 mediach”, zarówno krajowych jak i zagranicznych;
  • nagrywanie mowy;
  • aktsentologicheski zaznaczone teksty (czyli znaki stresu);
  • dialekt mowy;
  • poezja;
  • Materiały o składniowych i innych oznaczeń.

System zawiera również informacje podkorpus równoległych przekładów dzieł z języka rosyjskiego na język angielski, niemiecki, francuski i wiele innych języków (i odwrotnie).

Również w bazie danych znajduje się sekcja tekstów historycznych, reprezentujących mowa pisana w języku rosyjskim w różnych okresach jego rozwoju. Jest też ciało szkolenia, które mogą być użyteczne dla obcokrajowców w opanowaniu języka rosyjskiego.

Rosyjski Narodowy Korpus zawiera 400 milionów jednostek leksykalnych, a pod wieloma względami wyprzedza znacznej części z języków europejskich organów.

perspektywy

Fakt, na rzecz uznania tego trendu jest dostępność obiecując laboratoryjnych lingwistykę corpus w rosyjskich uniwersytetów, jak również zagranicznych. Dzięki zastosowaniu i badań w ramach tego wyszukiwania zasobów informacyjnych i pociąga za sobą rozwój pewnych obszarów w dziedzinie wysokich technologii, systemów pytanie, odpowiadając, ale to jest omówione powyżej.

Dalszy rozwój językoznawstwa corpus przewiduje się na wszystkich poziomach, począwszy od technicznych oraz w zakresie wdrażania nowych algorytmów, które optymalizują procesy wyszukiwania i przetwarzania informacji, umożliwiając komputery, więcej pamięci RAM, a do konsumenta, ponieważ użytkownicy coraz więcej sposobów wykorzystania tego typu zasobu w ich codziennej życie i dzieło.

Konkludując

W połowie ubiegłego stulecia w 2017 roku wydawało się odległą przyszłość, gdzie kosmiczne podróżować po wszechświecie i roboty wykonać całą pracę dla ludzi. W rzeczywistości nauka jest czymś z „białych plam” i czyni rozpaczliwe próby odpowiedzi na pytania ludzkości od wieków niepokojące. Pytania funkcjonowania języka tutaj zajmują honorowe miejsce, a lingwistyka szafy i obliczeniowych może nam pomóc na nie odpowiedzieć.

Przetwarzanie dużych zbiorów danych może wykryć wzory, wcześniej niedostępne, przewidzieć rozwój konkretnych cech językowych śledzić powstawanie słów w czasie niemal rzeczywistym.

Na poziomie praktycznym, globalne obudowy można zauważyć, na przykład, jako potencjalne narzędzie do oceny nastrojów społecznych – Internet jest stale aktualizowane codziennie różne teksty tworzone przez prawdziwych użytkowników: Ten i komentarze recenzje i artykuły oraz wiele innych form wypowiedzi.

Ponadto, we współpracy z organami przyczynia się do rozwoju tego samego sprzętu, które są zaangażowane w wyszukiwaniu informacji, jesteśmy zaznajomieni z usługi „Google” lub „Yandex”, tłumaczenia maszynowego, słowników elektronicznych.

Możemy śmiało stwierdzić, że lingwistyka corpus czyni tylko pierwsze kroki, a w najbliższej przyszłości będzie się rozwijać.