Start line:  
End line:  

Snippet Preview

Snippet HTML Code

Stack Overflow Questions
 /* Copyright 2014 Norconex Inc.
  *
  * Licensed under the Apache License, Version 2.0 (the "License");
  * you may not use this file except in compliance with the License.
  * You may obtain a copy of the License at
  *
  *     http://www.apache.org/licenses/LICENSE-2.0
  *
  * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package com.norconex.importer.parser;
    @Test
    public void testIgnoringContentTypes() 
            throws IOExceptionImporterException {
        
        GenericDocumentParserFactory factory = 
                new GenericDocumentParserFactory();
        factory.setIgnoredContentTypesRegex("application/pdf");
        ImporterMetadata metadata = new ImporterMetadata();
        ImporterConfig config = new ImporterConfig();
        config.setParserFactory(factory);
        Importer importer = new Importer(config);
        ImporterDocument doc = importer.importDocument(
                TestUtil.getAlicePdfFile(), .null
                        metadata"n/a").getDocument();
        
        try (InputStream is = doc.getContent()) {
            String output = IOUtils.toString(is).substring(0, 100);
            output = StringUtils.remove(output'\n');
            Assert.assertTrue("Non-parsed output expected to be binary.",
                    !StringUtils.isAsciiPrintable(output));
        }
    }
New to GrepCode? Check out our FAQ X