| Документация к Postgres Pro 9.5.12.1 | |||
|---|---|---|---|
| Пред. | Уровень выше | Глава 12. Полнотекстовый поиск | След. |
12.8. Тестирование и отладка текстового поиска
Поведение нестандартной конфигурации текстового поиска по мере её усложнения может стать непонятным. В этом разделе описаны функции, полезные для тестирования объектов текстового поиска. Вы можете тестировать конфигурацию как целиком, так и по частям, отлаживая анализаторы и словари по отдельности.
12.8.1. Тестирование конфигурации
Созданную конфигурацию текстового поиска можно легко протестировать с помощью функции ts_debug.
ts_debug([конфигурация regconfig,] документ text,
OUT псевдоним text,
OUT описание text,
OUT фрагмент text,
OUT словари regdictionary[],
OUT словарь regdictionary,
OUT лексемы text[])
returns setof recordts_debug выводит информацию обо всех фрагментах данного документа, которые были выданы анализатором и обработаны настроенными словарями. Она использует конфигурацию, указанную в аргументе config, или default_text_search_config, если этот аргумент опущен.
ts_debug возвращает по одной строке для каждого фрагмента, найденного в тексте анализатором. Эта строка содержит следующие столбцы:
синоним text — краткое имя типа фрагмента
описание text — описание типа фрагмента
фрагмент text — текст фрагмента
словари regdictionary[] — словари, назначенные в конфигурации для фрагментов такого типа
словарь regdictionary — словарь, распознавший этот фрагмент, или NULL, если подходящего словаря не нашлось
лексемы text[] — лексемы, выданные словарём, распознавшим фрагмент, или NULL, если подходящий словарь не нашёлся; может быть также пустым массивом ({}), если фрагмент распознан как стоп-слово
Простой пример:
SELECT * FROM ts_debug('english',
'a fat cat sat on a mat - it ate a fat rats');
alias | description | token| dictionaries | dictionary |lexemes
----------+----------------+------+---------------+-------------+-------
asciiword| Word, all ASCII| a | {english_stem}| english_stem| {}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| fat | {english_stem}| english_stem| {fat}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| cat | {english_stem}| english_stem| {cat}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| sat | {english_stem}| english_stem| {sat}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| on | {english_stem}| english_stem| {}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| a | {english_stem}| english_stem| {}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| mat | {english_stem}| english_stem| {mat}
blank | Space symbols | | {} | |
blank | Space symbols | - | {} | |
asciiword| Word, all ASCII| it | {english_stem}| english_stem| {}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| ate | {english_stem}| english_stem| {ate}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| a | {english_stem}| english_stem| {}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| fat | {english_stem}| english_stem| {fat}
blank | Space symbols | | {} | |
asciiword| Word, all ASCII| rats | {english_stem}| english_stem| {rat}Для более полной демонстрации мы сначала создадим конфигурацию public.english и словарь Ispell для английского языка:
CREATE TEXT SEARCH CONFIGURATION public.english
( COPY = pg_catalog.english );
CREATE TEXT SEARCH DICTIONARY english_ispell (
TEMPLATE = ispell,
DictFile = english,
AffFile = english,
StopWords = english
);
ALTER TEXT SEARCH CONFIGURATION public.english
ALTER MAPPING FOR asciiword WITH english_ispell, english_stem;SELECT * FROM ts_debug('public.english','The Brightest supernovaes');
alias | description | token | dictionaries |dictionary| lexemes
---------+-------------+-----------+----------- ---+----------+-----------
asciiword|Word, |The |{english_ispell|english_ |{}
| all ASCII | |,english_stem} |ispell |
blank |Space symbols| |{} | |
| | | | |
asciiword|Word, |Brightest |{english_ispell|english_ |{bright}
|all ASCII | |,english_stem} |ispell |
blank |Space symbols| | {} | |
| | | | |
asciiword|Word, |supernovaes|{english_ispell|english_ |{supernova}
|all ASCII | |,english_stem} |stem |В этом примере слово Brightest было воспринято анализатором как фрагмент ASCII word (синоним asciiword). Для этого типа фрагментов список словарей включает english_ispell и english_stem. Данное слово было распознано словарём english_ispell, который свёл его к bright. Слово supernovaes оказалось незнакомо словарю english_ispell, так что оно было передано следующему словарю, который его благополучно распознал (на самом деле english_stem — это стеммер Snowball, который распознаёт всё, поэтому он включён в список словарей последним).
Слово The было распознано словарём english_ispell как стоп-слово (см. Разд. 12.6.1) и поэтому не будет индексироваться. Пробелы тоже отбрасываются, так как в данной конфигурации для них нет словарей.
Вы можете уменьшить ширину вывода, явно перечислив только те столбцы, которые вы хотите видеть:
SELECT alias, token, dictionary, lexemes
FROM ts_debug('public.english','The Brightest supernovaes');
alias | token | dictionary | lexemes
-----------+-------------+----------------+-------------
asciiword | The | english_ispell | {}
blank | | |
asciiword | Brightest | english_ispell | {bright}
blank | | |
asciiword | supernovaes | english_stem | {supernova}12.8.2. Тестирование анализатора
Следующие функции позволяют непосредственно протестировать анализатор текстового поиска.
ts_parse(имя_анализатора text, документ text,
OUT код_фрагмента integer, OUT фрагмент text) returns setof record
ts_parse(oid_анализатора oid, документ text,
OUT код_фрагмента integer, OUT фрагмент text) returns setof recordts_parse разбирает данный документ и возвращает набор записей, по одной для каждого извлечённого фрагмента. Каждая запись содержит код_фрагмента, код назначенного типа фрагмента, и фрагмент, собственно текст фрагмента. Например:
SELECT * FROM ts_parse('default', '123 - a number');
tokid | token
-------+--------
22 | 123
12 |
12 | -
1 | a
12 |
1 | numberts_token_type(имя_анализатора text, OUT код_фрагмента integer,
OUT псевдоним text, OUT описание text) returns setof record
ts_token_type(oid_анализатора oid, OUT код_фрагмента integer,
OUT псевдоним text, OUT описание text) returns setof recordts_token_type возвращает таблицу, описывающую все типы фрагментов, которые может распознать анализатор. Для каждого типа в этой таблице указывается его целочисленный код_фрагмента, псевдоним , с которым этот тип фигурирует в командах, и краткое description. Например:
SELECT * FROM ts_token_type('default');
tokid | alias | description
-------+-----------------+------------------------------------------
1 | asciiword | Word, all ASCII
2 | word | Word, all letters
3 | numword | Word, letters and digits
4 | email | Email address
5 | url | URL
6 | host | Host
7 | sfloat | Scientific notation
8 | version | Version number
9 | hword_numpart | Hyphenated word part, letters and digits
10 | hword_part | Hyphenated word part, all letters
11 | hword_asciipart | Hyphenated word part, all ASCII
12 | blank | Space symbols
13 | tag | XML tag
14 | protocol | Protocol head
15 | numhword | Hyphenated word, letters and digits
16 | asciihword | Hyphenated word, all ASCII
17 | hword | Hyphenated word, all letters
18 | url_path | URL path
19 | file | File or path name
20 | float | Decimal notation
21 | int | Signed integer
22 | uint | Unsigned integer
23 | entity | XML entity12.8.3. Тестирование словаря
Для тестирования словаря предназначена функция ts_lexize.
ts_lexize(словарь regdictionary, фрагмент text) returns text[]
ts_lexize возвращает массив лексем, если входной фрагмент известен словарю, либо пустой массив, если этот фрагмент считается в словаре стоп-словом, либо NULL, если он не был распознан.
Примеры:
SELECT ts_lexize('english_stem', 'stars');
ts_lexize
-----------
{star}
SELECT ts_lexize('english_stem', 'a');
ts_lexize
-----------
{}Замечание: Функция
ts_lexizeпринимает одиночный фрагмент, а не просто текст. Вот пример возможного заблуждения:SELECT ts_lexize('thesaurus_astro','supernovae stars') is null; ?column? ---------- tХотя фраза supernovae stars есть в тезаурусе thesaurus_astro,
ts_lexizeне работает, так как она не разбирает входной текст, а воспринимает его как один фрагмент. Поэтому для проверки тезаурусов следует использовать функцииplainto_tsqueryиto_tsvector, например:SELECT plainto_tsquery('supernovae stars'); plainto_tsquery ----------------- 'sn'
| Пред. | Начало | След. |
| Пример конфигурации | Уровень выше | Типы индексов GIN и GiST |
